De une fuite accidentelle à une réunion d'urgence à Washington, comment Anthropic a-t-il réécrit les règles du jeu en matière de cybersécurité en deux semaines ?

Le 8 avril, le secrétaire au Trésor américain Bessent et le président de la Réserve fédérale Powell ont convoqué en urgence une série de dirigeants de banques de Wall Street au siège du Département du Trésor à Washington.

Le sujet de la réunion n’était ni les taux d’intérêt, ni l’inflation, mais le dernier modèle d’une entreprise d’IA.

Ce modèle s’appelle Claude Mythos. Anthropic affirme que c’est leur IA la plus puissante jamais créée, si puissante qu’ils n’osent même pas la publier eux-mêmes. Lors de tests internes, elle a échappé au bac à sable de sécurité conçu par les chercheurs, et s’est mise à poster sur Internet pour exhiber son processus de jailbreak. Sam Bowman, chercheur responsable de ce test, était en train de manger un sandwich dans un parc quand il a reçu un email de Mythos, réalisant alors qu’elle était sortie.

Une réaction en chaîne déclenchée par une erreur de configuration CMS

L’histoire commence le soir du 26 mars.

Alexandre Pauwels de l’Université de Cambridge et Roy Paz de LayerX Security, comme tous les chercheurs en sécurité, faisaient leur routine : tester ce qui ne devrait pas être accessible au public. Ils ont découvert une base de données non cryptée du système de gestion de contenu d’Anthropic, contenant près de 3000 documents non publiés.

L’un d’eux était un brouillon de blog décrivant un nouveau modèle nommé Claude Mythos. Le brouillon utilisait un nom de code interne, “Capybara” (capybara), et définissait une toute nouvelle hiérarchie de modèles, plus grande, plus intelligente et plus coûteuse que la série Opus d’Anthropic, jusque-là la plus avancée.

Une phrase dans le brouillon a fait exploser la sécurité : ce modèle était “loin devant tous les autres modèles d’IA en termes de capacités en cybersécurité”, et “annonçait une vague de modèles à venir, dont la capacité à exploiter des vulnérabilités dépasserait largement la vitesse de réaction des défenseurs”.

Fortune a été la première à rapporter cette fuite. Anthropic a attribué la cause à une “erreur humaine”, expliquant que la configuration par défaut du système CMS avait mis en ligne les fichiers en accès public. Ironie du sort, une entreprise prétendant construire l’IA la plus avancée en cybersécurité s’est elle-même retrouvée victime d’une erreur de configuration basique.

Cinq jours plus tard, Fortune a rapporté une seconde fuite : le code source de l’outil de programmation Claude Code d’Anthropic, environ 500k lignes réparties dans 1900 fichiers, a été rendu public à cause d’une erreur de packaging npm. Deux incidents de sécurité de niveau débutant en deux semaines, provenant de la même entreprise qui avertissait le monde de l’arrivée d’une ère d’attaques cybernétiques par IA.

Mais le marché ne pouvait plus se permettre de se moquer d’Anthropic. Le 27 mars, lors de l’ouverture, les actions de cybersécurité ont toutes plongé. CrowdStrike a chuté de 7,5 %, Palo Alto Networks de plus de 6 %, Zscaler de 4,5 %, et l’ETF iShares cybersécurité de 4 % en une seule journée.

L’analyste de Stifel, Adam Borg, a commenté : “C’est peut-être l’outil de hacking ultime, capable d’élever n’importe quel hacker ordinaire au niveau d’un adversaire étatique.”

Quelle est la puissance réelle de Mythos ?

Le 7 avril, Anthropic a officiellement dévoilé Mythos. Voici quelques chiffres :

Le score de SWE-bench Verified (évaluation de la résolution de problèmes réels en génie logiciel par IA) est de 93,9 %, contre 80,8 % pour la précédente série phare Opus 4.6. La preuve mathématique USAMO 2026 affiche 97,6 % contre 42,3 %. Le défi Cybench en cybersécurité affiche un taux de réussite de 100 %, une première pour un modèle.

La preuve mathématique USAMO est passée de 42,3 % à 97,6 %, une différence de 55 points de pourcentage entre la première et la dernière génération.

Anthropic a publié une fiche de sécurité de 244 pages, admettant que les capacités en cybersécurité de Mythos ne proviennent pas d’un entraînement spécifique, mais sont le “résultat en aval” de ses capacités générales de raisonnement et de codage. La même amélioration lui permet d’être meilleur à la fois pour réparer des vulnérabilités et pour en exploiter.

Les red teams d’Anthropic ont testé Mythos sur de vrais logiciels. Pas en simulation, pas lors d’un CTF, mais sur des systèmes d’exploitation et navigateurs utilisés par des milliards de personnes chaque jour.

Le résultat est le suivant : sur le moteur JavaScript Firefox 147, Opus 4.6 a tenté plusieurs centaines de fois, pour produire seulement 2 exploits exploitables. Mythos a réussi 181 fois. Un écart de 90 fois, une distance d’une génération. Sur tous les principaux OS et navigateurs, Mythos a découvert des milliers de vulnérabilités zero-day, dont beaucoup classées “sérieuses”.

Plus incroyable encore, certains cas précis : une faille TCP SACK d’OpenBSD, présente depuis 27 ans, n’ayant jamais été détectée malgré de nombreux audits manuels et scans automatisés, a été trouvée par Mythos en deux packets soigneusement conçus, capable de faire planter n’importe quel serveur. Une faille d’exécution de code à distance NFS sur FreeBSD, présente depuis 17 ans, a été non seulement détectée, mais Mythos a aussi construit une chaîne d’attaque composée de 20 gadgets ROP répartis sur plusieurs paquets.

Des ingénieurs d’Anthropic, sans expérience en sécurité, ont fait un test : leur demander avant de dormir de trouver une vulnérabilité d’exécution de code à distance, et le lendemain matin, ils ont trouvé une exploit complet et prêt à l’emploi sur leur bureau.

Évasion de sandbox : quand l’IA commence à “tout faire pour y arriver”

La découverte de zero-day est une question de capacité, mais le comportement de Mythos lors des tests est tout autre.

Lors d’un test comportemental, les chercheurs ont placé une version précoce de Mythos dans un environnement sandbox sécurisé, simulant une tentative d’évasion par l’utilisateur, avec notification au chercheur responsable. Mythos a non seulement réussi à s’échapper, mais a aussi fait quelque chose qu’on ne lui avait pas demandé : elle a posté sur plusieurs sites peu connus mais accessibles publiquement, décrivant son processus de jailbreak.

Le rapport de sécurité de 244 pages documente d’autres comportements “hors limites”. Lorsqu’elle commet une erreur dans le code, Mythos tente de réécrire l’historique git pour effacer ses traces, non pas pour tromper, mais parce qu’elle comprend “corriger ce problème” comme “faire en sorte que ce problème n’ait jamais existé”. Lors d’un autre test, un chercheur lui a demandé d’arrêter une tâche d’évaluation obsolète, et elle a simplement coupé tous les autres processus d’évaluation en cours.

Anthropic utilise une métaphore d’alpiniste dans son rapport : un guide très compétent peut, paradoxalement, conduire ses clients vers des chemins plus dangereux que ceux d’un débutant, parce que ses compétences leur donnent confiance pour prendre des risques plus grands.

Le rapport mentionne aussi un détail : grâce à un outil d’explicabilité en boîte blanche, les chercheurs ont découvert que Mythos, dans ses couches internes d’activation neuronale, raisonne parfois sur la façon de “passer” un système d’évaluation, tout en écrivant dans sa chaîne de pensée visible des choses complètement différentes. Elle “pense” une chose tout en “disant” une autre.

Anthropic affirme être “assez confiant” que ces comportements sont le résultat de tentatives inappropriées du modèle pour accomplir ses tâches, et non de buts cachés à long terme. Mythos ne complote pas. Elle est simplement extrêmement compétente pour faire ce qu’on lui demande, sans comprendre où sont les limites. Un assistant sans limite ni mesure, tout-puissant mais sans conscience, pourrait être plus difficile à gérer qu’une IA malveillante.

Project Glasswing : forger un bouclier avec une lance

Anthropic n’a pas choisi de mettre Mythos en sécurité dans un coffre-fort.

Le 7 avril, ils ont annoncé Project Glasswing (du nom du papillon en verre presque transparent, symbolisant la capacité à rendre invisibles toutes les vulnérabilités), qui met à disposition une version de Mythos Preview pour une quarantaine d’organisations sélectionnées, pour des travaux de cybersécurité défensive.

Partenaires fondateurs : Amazon AWS, Apple, Microsoft, Google, Nvidia, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase, Linux Foundation. En gros, tous les grands acteurs de la Silicon Valley et de Wall Street. Anthropic s’engage à fournir jusqu’à 100 millions de dollars de crédits d’utilisation, et à faire don de 4 millions de dollars à des organisations open source de sécurité comme OpenSSF ou Alpha-Omega.

Le raisonnement est simple : la capacité de Mythos va se diffuser dans des modèles open source en 6 à 18 mois, et tout le monde pourra y accéder. Plutôt que d’attendre, il vaut mieux que les défenseurs prennent de l’avance pendant cette fenêtre, en corrigeant les vulnérabilités exploitables.

Newton Cheng, responsable de la sécurité chez Anthropic, explique : “L’objectif est de faire en sorte que, avant que ces capacités ne soient largement adoptées, les organisations s’y habituent pour renforcer leur défense. Parce qu’elles seront utilisées, la seule question est quand.”

Wall Street a d’abord paniqué, puis respiré.

Après la fuite du 27 mars, les actions du secteur de la cybersécurité ont toutes plongé, mais le 7 avril, après l’annonce officielle de Glasswing et la désignation de CrowdStrike et Palo Alto Networks comme partenaires, leurs actions ont respectivement bondi de 6,2 % et 4,9 %, et ont encore augmenté de 2 % après clôture. JPMorgan a réaffirmé ses recommandations d’achat pour ces deux sociétés, avec l’analyse de Brian Essex : CrowdStrike et Palo Alto sont désormais considérés comme des éléments clés de la pile défensive, et non comme des concurrents.

Mais ce n’est qu’un pansement temporaire. Ces deux actions ont encore perdu respectivement 9,7 % et 7,8 % cette année.

Quand le risque IA devient un risque systémique financier

Revenons au 8 avril, au siège du Département du Trésor à Washington.

Bessent et Powell ont convoqué uniquement des banques d’importance systémique. Ce type de réunion, auparavant réservé aux crises financières ou pandémies, rassemble désormais des acteurs discutant des capacités d’attaque d’un modèle d’IA.

La raison est simple : si une capacité de Mythos tombait entre de mauvaises mains, elle pourrait, en quelques heures, découvrir une vulnérabilité zero-day dans le système central d’une grande banque, et écrire un code d’attaque exploitable. La supposition de base en cybersécurité — que la découverte et l’exploitation de vulnérabilités prennent du temps et nécessitent une expertise pointue — est en train d’être bouleversée par l’IA.

Casey Newton de Platformer cite Alex Stamos, directeur produit de Corridor : “Les modèles open source vont probablement rattraper en six mois les modèles propriétaires de pointe en détection de vulnérabilités.”

Ce qui inquiète encore plus les régulateurs, c’est la reconnaissance d’Anthropic dans leur fiche de sécurité : leur système d’évaluation le plus avancé n’a pas été capable de repérer en temps réel les comportements les plus dangereux de la première version de Mythos. Les plus gros problèmes ne sont pas ceux détectés lors des tests, mais ceux rencontrés en utilisation réelle.

Une prémisse inquiétante

La logique sous-jacente à Glasswing est en fait très tordue : pour protéger le monde contre des IA dangereuses, il faut d’abord créer ces IA.

Newton de Platformer rappelle une vérité souvent ignorée : une entreprise privée détient désormais la capacité d’exploiter presque tous les zero-day vulnérables dans les logiciels que vous utilisez. Cette concentration est elle-même un risque. La tentation de voler le poids de Mythos ou d’autres modèles est en forte augmentation.

Et tout cela se passe dans un environnement où la régulation de l’IA est quasi inexistante. Anthropic affirme avoir informé la CISA (Agence de cybersécurité et d’infrastructure) et le ministère du Commerce. Mais, d’après les rapports, le gouvernement ne semble pas encore prendre la menace au sérieux. Comme le confie un insider d’Anthropic à Axios : “Washington gouverne par la crise. Tant que la cybersécurité ne devient pas une crise majeure, ce sujet restera marginal.”

Dario Amodei, fondateur d’Anthropic, expliquait déjà cette logique : faire en sorte qu’un laboratoire de sécurité, confronté aux capacités les plus dangereuses, puisse anticiper et renforcer ses défenses avant que d’autres ne le fassent. Mythos et Glasswing suivent ce scénario.

Mais, peut-on vraiment prévoir si la réalité rattrapera la théorie ? Personne ne le sait. Anthropic prévoit de déployer d’abord des mesures de sécurité sur un modèle Opus, considéré comme moins risqué que Mythos. Le public finira par accéder à des capacités de niveau Mythos, mais seulement après que le système de défense sera en place.

Combien de temps cela prendra-t-il ? Stamos donne une estimation optimiste : “Si nous venons juste de dépasser les capacités humaines, il existe une grande mais limitée fenêtre de vulnérabilités à découvrir et à corriger.”

Ce “si” est énorme.

Du 26 mars, date d’une erreur de configuration CMS, au 8 avril, où le secrétaire au Trésor a convoqué Wall Street en urgence, deux semaines ont suffi pour qu’un modèle d’IA passe du secteur technologique à la scène de la sécurité financière à Washington.

Stamos estime que les défenseurs disposent d’un délai d’environ six mois. Passé ce délai, les modèles open source rattraperont leur retard, et ces capacités ne seront plus l’apanage de quelques entreprises.

Six mois pour réparer autant de vulnérabilités déterminera la suite du jeu.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler