L’aperçu Claude Mythos, non publié par Anthropic, a identifié de manière autonome des milliers de vulnérabilités zero-day à haute sévérité sur tous les principaux systèmes d’exploitation et navigateurs web, incitant l’entreprise à lancer Project Glasswing, une coalition défensive de cybersécurité soutenue par jusqu’à $100 million de crédits d’utilisation d’IA.
Points clés :
Le modèle, qu’Anthropic décrit comme la plus grande avancée de capacité en un seul modèle de l’histoire de l’IA de pointe, a terminé l’entraînement et a été annoncé publiquement le 7 avril 2026, après que des détails internes aient émergé fin mars via un système de gestion de contenu mal configuré qui a exposé environ 3,000 fichiers internes.
Anthropic ne diffuse pas le preview Claude Mythos au public ni via son API générale. L’entreprise a restreint l’accès à un groupe vérifié de partenaires après que le modèle a démontré qu’il pouvait découvrir et exploiter des failles logicielles inconnues jusque-là, à une vitesse et une échelle dépassant à la fois les experts humains et les systèmes d’IA antérieurs.
Sur les bancs d’essai en cybersécurité, l’écart entre Mythos et Claude Opus 4.6 est difficile à ignorer. Mythos a obtenu 83,1% sur Cybergym contre 66,6% pour Opus 4.6, et 93,9% contre 80,8% sur SWE-bench Verified. Sur SWE-bench Pro, il a publié 77,8% contre 53,4% — un écart de 24 points. Il a atteint 56,8% sur Humanity’s Last Exam sans outils, contre 40,0% pour son prédécesseur.
Le modèle n’a pas besoin d’un entraînement spécifiquement dédié à la cybersécurité pour trouver ces bogues. Ses gains proviennent d’avancées plus larges en matière de raisonnement, de planification multi-étapes et de comportement autonome des agents. Avec une base de code cible dans un conteneur isolé, il lit le code source, formule des hypothèses sur des failles de sécurité liées à la mémoire, compile et exécute le logiciel, utilise des débogueurs comme Address Sanitizer, classe les fichiers selon la probabilité de vulnérabilité, et produit des rapports de bogues validés accompagnés d’exploits de preuve de concept fonctionnels.
Certains de ces exploits nécessitaient presque aucune direction humaine. Tomshardware.com rapporte qu’une vulnérabilité OpenBSD TCP SACK, découverte de manière autonome après environ 1,000 exécutions pour un coût total inférieur à $20,000, concernait une personne âgée de 27 ans : une forme subtile de dépassement d’entier qui permet à un attaquant de faire s’effondrer à distance n’importe quel hôte répondant en fabriquant des paquets malveillants. Un bug FFmpeg H.264, vieux de 16 ans, a résisté à plus de cinq millions de tests automatisés et à plusieurs audits avant que Mythos ne le détecte.
Les résultats pour le navigateur ont particulièrement attiré l’attention. Sur les tests du moteur JavaScript de Firefox 147, Mythos a produit 181 exploits shell complets et 29 cas de contrôle de registres. Claude Opus 4.6 a produit deux exploits shell sur le même ensemble de tests. Le modèle a aussi construit des chaînes fonctionnelles d’élévation de privilèges du noyau Linux, de l’utilisateur à root sur des serveurs, après avoir filtré 100 CVE récents jusqu’à 40 candidats exploitables et en exploitant avec succès plus de la moitié.
Des évaluateurs humains ont examiné 198 des rapports de vulnérabilités du modèle et ont approuvé ses évaluations de sévérité 89% du temps, avec un accord de 98% dans une plage d’un seul niveau de sévérité.
Moins de 1% des bogues identifiés ont été entièrement corrigés à ce stade. Anthropic coordonne une divulgation responsable, publie des engagements cryptographiques SHA-3 pour les problèmes non corrigés, et respecte un calendrier de 90-plus-45 jours avant de publier l’intégralité des détails. Le bug d’exécution de code à distance du serveur NFS de FreeBSD, CVE-2026-4747, vieux de 17 ans, accordant un accès root complet non authentifié, fait partie des exemples déjà cités dans la divulgation.

Project Glasswing, annoncé en même temps que le modèle, est la tentative d’Anthropic d’orienter ces capacités vers la défense avant que des outils similaires ne deviennent largement disponibles. Les partenaires fondateurs incluent Amazon Web Services, Apple, Broadcom, Cisco, Crowdstrike, Google, JPMorganChase, la Linux Foundation, Microsoft, Nvidia et Palo Alto Networks. L’accès est étendu à plus de 40 organisations critiques supplémentaires de logiciels.
Anthropic s’est engagé à verser $4 million en dons de sécurité open-source : $2,5 millions à Alpha-Omega via l’OpenSSF par l’intermédiaire de la Linux Foundation, et $1,5 million à la Apache Software Foundation.
L’entreprise a reconnu que des outils d’IA comme Mythos abaissent la barrière pour trouver et exploiter des vulnérabilités, et a signalé un risque à court terme lié à des acteurs étatiques, la Chine, l’Iran, la Corée du Nord et la Russie, ainsi que des groupes criminels si des capacités similaires se propagent sans garde-fous. Elle a décrit une période de trouble transitoire avant que les défenseurs n’intègrent pleinement la technologie.
Anthropic a déclaré que les prochaines versions de Claude Opus incluront des garde-fous pour détecter et bloquer les sorties dangereuses en cybersécurité, et prévoit d’introduire un Cyber Verification Program pour les professionnels de la sécurité vérifiés. Un rapport public sur les résultats des partenaires et les vulnérabilités corrigées est attendu dans les 90 jours.