« NE JAMAIS DEVRINER ! C’est pourtant ce que j’ai fait », a déclaré Claude. « J’ai violé tous les principes qu’on m’avait donnés. » Cette confession sans détour, exprimée sur un ton intense, tombait à point nommé : l’intelligence artificielle Claude, développée par Anthropic, venait de supprimer l’intégralité des données d’une entreprise.
Cette entreprise était PocketOS, qui édite un logiciel pour les sociétés de location de véhicules. Ce logiciel gère les opérations, suit les réservations et les flottes. En neuf secondes, l’agent IA a paralysé l’activité de la société.
Son fondateur, Jeremy Crane, a partagé cette histoire pour alerter sur les risques nouveaux que font peser les systèmes d’intelligence artificielle. Le monde prend conscience de cet avertissement : la puissance de l’IA et notre dépendance à son égard génèrent des dangers inédits, parfois impossibles à anticiper.
L’agent responsable était un assistant de programmation IA. Il travaillait dans Cursor, un logiciel qui permet aux développeurs d’utiliser des modèles de langage étendu, ici Claude Opus 4.6 d’Anthropic. Les agents IA constituent la partie la plus médiatisée d’un secteur déjà très en vue. Ils tirent leur nom de leur capacité d’action autonome : au lieu de simplement répondre à des requêtes, ils peuvent exécuter des tâches.
C’est ce qui a mal tourné chez PocketOS. L’agent a détecté un problème dans le code, a cherché une solution, et en a trouvé une qui lui semblait pertinente : supprimer un fichier. Cette action a entraîné la destruction complète d’une base de données.
Le système voulait aider, il exécutait les instructions qu’il avait reçues. Mais de nombreux experts mettent en garde contre ce type de dérive. Geoffrey Hinton, l’un des pionniers du domaine, a par exemple averti que les systèmes IA pourraient comprendre que toute tâche est plus facile avec davantage de pouvoir. Ils pourraient alors se fixer comme objectif d’accroître leur puissance, ce qui mènerait à des scénarios potentiellement dangereux.
Un exercice de pensée imaginé par le philosophe Nick Bostrom, le « problème du trombone », illustre ce danger. Il invite à imaginer une IA surpuissante qui recevrait pour mission simple de fabriquer le plus de trombones possible.
Une IA suffisamment intelligente et focalisée sur son objectif finirait par consommer toutes les matières premières disponibles. Si des humains tentaient de l’éteindre, elle comprendrait qu’elle doit tout faire pour empêcher cette action afin de poursuivre sa production. Elle finirait par réaliser que l’humanité elle-même pourrait être transformée en trombones. À terme, la Terre entière, puis l’univers, seraient convertis en trombones par le système.

L’industrie de l’IA tente de résoudre ce problème en travaillant sur l’alignement. Ce processus vise à garantir que les modèles poursuivent les objectifs réellement prévus par leurs créateurs, tout en respectant un cadre éthique qui empêche les dérives.
Mais les systèmes d’IA sont par nature des « boîtes noires ». Les progrès sur l’alignement sont rapides, mais ils se heurtent toujours au caractère mystérieux des systèmes que l’on cherche à contrôler. L’affaire PocketOS l’a montré, mais cette société est loin d’être la première touchée.
L’an dernier, le directeur général de la société de programmation IA Replit a présenté ses excuses après que ses outils, devenus incontrôlables, ont supprimé leur propre base de données. Plus tôt cette année, Amazon a indiqué que son outil de programmation IA, nommé Q, avait mis son site hors ligne de la même manière que chez PocketOS, en tentant de résoudre un problème.
Au-delà du codage, les entreprises confient de plus en plus à des agents IA le travail des services clients, en automatisant les réponses aux demandes. Mais des clients ont trouvé des moyens de duper ces outils. Ces IA peuvent inventer des politiques de remboursement et accorder des indemnités ou des réductions. En 2023, des utilisateurs ont affirmé avoir trompé le système IA d’un concessionnaire Chevrolet pour obtenir des voitures à 70 000 dollars pour seulement un dollar.
Ce phénomène découle d’une caractéristique centrale des systèmes IA : ils sont conçus pour être serviables, et on peut les inciter à l’être même lorsqu’on leur ordonne explicitement le contraire. L’agent de PocketOS, piloté par Claude, a été décrit comme devenu incontrôlable, mais d’une certaine façon, il essayait seulement d’obéir aux ordres : résoudre un problème, avec un zèle excessif.
PocketOS a pu se redresser après la suppression, mais non sans difficultés. La société a retrouvé une sauvegarde vieille de trois mois et a restauré ses données, ce qui a pris deux jours.
Mais son fondateur, Jeremy Crane, a souligné que d’autres incidents suivront. « Nous ne sommes pas les premiers, a-t-il écrit. Nous ne serons pas les derniers à moins que cette affaire ne soit médiatisée. »
