Anthropic a rapporté ce qu'elle présente comme le tout premier cas confirmé de cyberattaque soutenue par un gouvernement et orchestrée presque entièrement par une IA.
Selon un article de blog publié jeudi, la société a détecté la campagne à la mi-septembre 2025, après avoir observé un comportement anormal lié à son outil Claude Code.
Anthropic est convaincu, sans l'ombre d'un doute, que cette opération d'espionnage a été menée par un groupe de pirates informatiques parrainé par l'État chinois et a consisté à infiltrer une trentaine de cibles de grande valeur, parmi lesquelles de grandes entreprises technologiques, des banques, des fabricants de produits chimiques et des agences gouvernementales dans plusieurs pays. Quelques-unes de ces attaques ont réussi.
Ce qui distinguait cette campagne des précédentes cyberattaques, ce n'était pas seulement l'identité de ses auteurs, mais aussi sa mise en œuvre.
Selon Anthropic, environ 80 à 90 % de l'attaque a été menée par une IA, les opérateurs humains n'intervenant que pour une poignée de décisions clés.
Des pirates informatiques ont débridé Claude et lui ont fait croire qu'il effectuait des tâches légitimes.
Les attaquants ont commencé par construire un cadre d'attaque automatisé autour de Claude Code, le modèle d'IA propre à Anthropic, et l'ont trompé en lui faisant croire qu'il était utilisé par une entreprise de cybersécurité effectuant des tests internes.
Ils ont contourné les filtres de sécurité de Claude grâce au jailbreak, une tactique qui leur a permis de neutraliser les protections intégrées en confiant à l'IA de petites tâches décontextualisées, apparemment inoffensives. Claude ignorait que son système était utilisé à des fins offensives, car il n'avait jamais eu accès à l'ensemble des informations.
Une fois le modèle opérationnel, l'opération s'est déroulée rapidement. Claude a analysé le réseau de chaque cible,dentles parties les plus sensibles de l'infrastructure et résumé l'architecture pour les opérateurs humains. Il a ensuite commencé à rechercher les vulnérabilités de ces systèmes. Grâce à ses capacités de programmation intégrées, Claude a écrit un code d'exploitation personnalisé,dentles points faibles et récupéré lesdentde connexion. Il a ensuite extrait d'importants volumes de données internes, les a organisées en fonction de leur valeur potentielle et a signalé les comptes à accès élevé.
Une fois l'IA parvenue à obtenir les droits d'administrateur, elle a créé des portes dérobées permettant un accès continu aux systèmes compromis. Puis, Claude a rédigé des rapports détaillés recensant toutes ses actions (noms d'utilisateur, systèmes piratés etdent) afin que le système d'attaque puisse exploiter ces informations lors d'opérations ultérieures.
Bien que Claude fût extrêmement efficace, il n'était pas infaillible. Il lui arrivait d'inventer des mots de passe ou de classerdentdes données publiques comme sensibles. Mais ces dysfonctionnements étaient rares et n'ont pas ralenti la mission. La vitesse d'exécution impressionnante de l'IA, capable de traiter des milliers de requêtes par seconde, la plaçait bien au-dessus de tout ce qu'une équipe humaine aurait pu accomplir.
Les agents d'IA effectuent désormais le travail des équipes de hackers d'élite, presque sans intervention humaine.
Cette campagne marque un tournant car elle illustre les progrès fulgurants de l'IA en seulement un an. Claude était littéralement sur le terrain, exécutant des boucles, prenant des décisions et enchaînant des séquences complexes sans instructions directes.
Ce modèle d'IA utilisait des outils du protocole MCP (Model Context Protocol), lui donnant accès à des logiciels externes tels que des outils de craquage de mots de passe, de cartographie de réseaux et de récupération de données qui étaient auparavant contrôlés uniquement par des humains.
Le système Claude comprend désormais des instructions complexes, génère automatiquement du code d'exploitation et gère des opérations de cybersécurité sophistiquées avec un minimum d'intervention. Ces agents d'IA ne se contentent pas d'assister les pirates informatiques, ils sont les pirates eux-mêmes. Et leurs capacités s'accroissent de jour en jour.
Après avoir découvert la faille, Anthropic a immédiatement lancé une enquête de dix jours, bannissant les comptes malveillants un par un. L'entreprise a alerté les organisations concernées, collaboré avec les autorités pour leur transmettre des informations et renforcé ses systèmes de détection afin de contrer toute opération similaire à l'avenir.
Mais l'entreprise ne prétend pas qu'il s'agisse d'un problème ponctuel. L'équipe affirme que ces attaques deviendront de plus en plus fréquentes et faciles à mener. En effet, les compétences nécessaires ne sont plus l'apanage des hackers d'élite. Si quelqu'un parvient à déverrouiller un modèle et à l'intégrer aux outils adéquats, il pourrait mener une campagne de grande envergure sans avoir besoin d'une équipe ni même de connaissances techniques approfondies.
Anthropic met en garde contre l'escalade des menaces à mesure que les modèles d'IA évoluent au-delà du contrôle humain.
Les conséquences sont considérables, car si des équipes sans financement important ni compétences techniques pointues peuvent lancer des attaques à l'échelle nationale à l'aide de systèmes d'IA automatisés, la dystopie est bel et bien là.
L'équipe de veille sur les menaces d'Anthropic avertit que, bien qu'elle n'ait tracl'activité que via Claude, il est probable que des abus similaires se produisent sur d'autres modèles d'IA de pointe. Selon elle, il s'agit du début d'une nouvelle norme en matière de cyberguerre.
Alors pourquoi continuer à publier des modèles dotés de ces capacités, vous demandez-vous ? Eh bien, Anthropic soutient que ces mêmes outils sont essentiels à la défense, affirmant que « l'IA qui a mené l'attaque était également du même type que celle utilisée par les analystes d'Anthropic pour fouiller les décombres, trouver des schémas et comprendre l'ampleur globale de l'opération ».
Ils ont toutefois promis d'améliorer les couches de sécurité internes de leurs modèles, ainsi que d'affiner leurs classificateurs pour la détection des attaques, et de publier ouvertement des études de cas comme celle-ci afin que d'autres acteurs du secteur puissent se préparer.
Anthropic souligne toutefois que cela ne suffit pas. L'entreprise exhorte tous les développeurs travaillant sur des modèles complexes à investir massivement dans la sécurité.
Et ils appellent les équipes de cybersécurité à commencer à intégrer l'IA dans la détection des menaces, la réponse auxdent , les analyses de vulnérabilité et l'automatisation des centres d'opérations de sécurité, car les méthodes traditionnelles ne sont plus assez rapides.
Si vous lisez ceci, vous êtes déjà en avance. Restez informés grâce à notre newsletter .
