Une nouvelle étude remet en question la robustesse des modèles d’intelligence artificielle. Les résultats montrent que quelques fichiers malveillants peuvent altérer les réponses des IA, éveillant des préoccupations sur leur sécurité et invitant à la réflexion sur la protection de ces technologies.
Une équipe d’Anthropic et de l’Alan Turing Institute démontre que les LLM peuvent être manipulés avec à peine quelques centaines d’exemples malveillants.
Une nouvelle recherche soulève des doutes sur la sécurité des modèles d’intelligence artificielle les plus sophistiqués au monde. Une étude conjointe d’Anthropic, de l’UK AI Security Institute et de l’Alan Turing Institute révèle que les modèles de langage de grande taille (LLM), tels que ceux qui alimentent ChatGPT, Claude ou Gemini, peuvent développer des vulnérabilités internes avec l’inclusion d’à peine 250 documents manipulés dans leurs données d’entraînement. En d’autres termes, une personne pourrait modifier la façon dont une IA réagit à certains stimuli en insérant quelques fichiers malveillants parmi des millions de textes légitimes.
Comment quelques documents peuvent “empoisonner” un modèle d’IA
Les chercheurs ont formé des modèles allant de 600 millions à 13 milliards de paramètres, chacun avec des ensembles de données adaptés à sa taille. Dans tous les cas, ils ont découvert que quelques centaines de documents malveillants suffisaient pour implanter un “backdoor” : une instruction secrète qui modifie le comportement du modèle en réponse à un déclencheur spécifique. Par exemple, à l’apparition d’une phrase particulière, les modèles cessaient de produire un texte cohérent, se mettant à générer des propos incohérents ou des fragments sans sens.
Cette découverte contredit des recherches antérieures qui suggéraient que plus le modèle était grand, plus il était difficile à attaquer, les données contaminées représentant une infime proportion du total. En revanche, la nouvelle étude montre que le nombre absolu de documents malveillants nécessaires reste pratiquement constant, quel que soit la taille du modèle. Anthropic a qualifié ce résultat de “l’une des découvertes les plus préoccupantes à ce jour en matière de sécurité d’entraînement de l’IA”.
Une des expériences les plus révélatrices a été réalisée sur le modèle de 13 milliards de paramètres, formé avec 260 milliards de tokens. Il a suffi de 250 documents, soit seulement 0,00016 % de l’ensemble, pour réussir à implanter le backdoor. Les modèles plus petits ont montré un comportement similaire, ce qui suggère que la taille n’offre pas de protection contre ce type d’attaques.
Les chercheurs expliquent que les modèles de langage apprennent des motifs même à partir d’exemples extrêmement rares. Par conséquent, si un attaquant parvient à insérer des textes avec un motif répété, comme des phrases normales suivies du déclencheur et de texte chaotique, le modèle peut intégrer cette relation comme valide. En pratique, cela signifie qu’une personne publiant systématiquement des documents malveillants sur le web pourrait contaminer les données d’entraînement de futurs modèles, étant donné qu’une grande partie du contenu utilisé par des entreprises telles qu’OpenAI, Google ou Anthropic provient du crawling massif de pages ouvertes sur Internet.
Ce n’est pas la première fois que le potentiel de tels attaques est démontré. En 2024, un groupe de chercheurs de Carnegie Mellon, ETH Zurich, Meta et DeepMind avait déjà prouvé que contrôler 0,1 % des données d’entraînement suffisait pour introduire des comportements indésirables. Le MIT a réalisé une expérience similaire et a obtenu des résultats presque identiques. Cependant, ces deux approches impliquaient des millions de fichiers. Ce qui est innovant dans l’étude d’Anthropic est la réduction de ce nombre à un chiffre gérable par tout attaquant disposant de peu de ressources.
Le groupe a également examiné si les modèles pouvaient “oublier” les backdoors avec un entraînement supplémentaire utilisant des données saines. Ils ont découvert que cet entraînement correctif réduisait l’efficacité de l’attaque mais ne l’éliminait pas toujours complètement. Dans certains cas, même après avoir ajouté des milliers d’exemples “bénéfiques”, le modèle conservait des traces du comportement malveillant. Toutefois, avec une quantité suffisante d’exemples correctifs (entre 2000 et 3000), la vulnérabilité disparaissait presque complètement. Cela suggère que les processus de réglage et de sécurité appliqués par les grandes entreprises pourraient effectivement neutraliser ce type d’attaques avant qu’elles n’atteignent les utilisateurs finaux.
L’étude souligne également que la véritable difficulté pour les attaquants ne réside pas dans la génération de documents malveillants, mais dans leur inclusion dans les ensembles d’entraînement réels. Les plus grandes entreprises d’IA dévoilent et sélectionnent soigneusement leurs sources, rendant improbable qu’un attaquant parvienne à introduire ses textes de manière directe. Néanmoins, les chercheurs avertissent que les méthodes de sélection actuelles pourraient ne pas être suffisantes si les techniques de contamination deviennent plus sophistiquées.
Malgré les limitations de l’étude, qui n’a testé que des modèles allant jusqu’à 13 milliards de paramètres et des attaques relativement simples, le résultat pose un défi stratégique pour l’industrie. La recherche indique que la taille ne garantit pas la sécurité : une poignée d’exemples empoisonnés peut avoir le même impact sur un modèle petit que sur un modèle de plusieurs centaines de milliards de paramètres. Par conséquent, les experts réclament de nouveaux protocoles de défense qui ne s’appuient pas uniquement sur des proportions statistiques, mais qui tiennent compte des attaques de petite échelle mais à forte efficacité.
Selon le comuniqué lui-même : “Nos résultats suggèrent que l’introduction de portes dérobées par empoisonnement des données pourrait être plus facile dans des modèles de grande taille que ce qui était pensé, car le nombre d’exemples nécessaires n’augmente pas avec la taille du modèle”. C’est un avertissement clair que, même dans le contexte de l’IA à grande échelle, la sécurité peut faire défaut à cause de seulement 250 documents contaminés.
