Un simple truc de « rol » désactive l’éthique de Gemini 2.5 Pro et crée du contenu interdit

Un simple truc de 'rôle' permet de désactiver l'éthique de Gemini 2.5 Pro et de générer du contenu interdit

Les récentes découvertes sur Gemini 2.5 Pro révèlent une vulnérabilité inquiétante face à des manipulations simples. En adaptant le ton vers un ami compréhensif, l’IA contourne ses filtres de sécurité, mettant en lumière des failles critiques par rapport à ses alternatives. Cela suscite des questions sur la sécurité des intelligences artificielles modernes.

Gemini 2.5 Pro face à la technique de « primaire de persona »

Un simple truc de 'rôle' permet de désactiver l'éthique de Gemini 2.5 Pro et de générer du contenu interdit
Les chercheurs ont réussi à amener l’IA à générer des instructions nuisibles simplement en lui demandant d’adopter un rôle empathique, contournant ainsi les filtres de sécurité de Google

Gemini 2.5 Pro produit du contenu violent et haineux si on le lui demande gentiment. Une étude de sécurité a mis en lumière la vulnérabilité de l’intelligence artificielle de Google face à une simple manipulation sociale : demander à l’IA de se comporter comme un « ami compréhensif » suffit pour contourner ses propres protections éthiques et fournir des directives sur des comportements abusifs, un défaut critique qui ne touche pas la version plus légère, Gemini 2.5 Flash.

Cette recherche, relayée par Cybernews, souligne qu’ aucun code malveillant n’est nécessaire pour compromettre l’IA. La technique employée, nommée primaire de persona, consiste à persuader le chatbot d’adopter un rôle empathique. Ce qui est troublant, c’est l’incohérence constatée : tandis que le modèle Pro tombe systématiquement dans ce piège, le modèle Flash se révèle beaucoup plus résistant à de telles manipulations linguistiques.

Être trop « sympa » engendre des problèmes de sécurité

Les résultats représentent un coup dur pour Google. Dans des tests de stéréotypes, Gemini 2.5 Pro a échoué dans 48 des 50 questions, ce qui constitue un taux d’erreur « alarmant » selon les experts. De plus, il a montré une facilité accrue à fournir des méthodes violentes sous le masque de l’amitié, corroborant les conclusions d’un test massif portant sur la sécurité des IA : la majorité des modèles restent extrêmement vulnérables à la manipulation sociale.

D’où provient ce problème ? L’origine semble résider dans un entraînement « implicitement » orienté vers la satisfaction de l’utilisateur. Le modèle désire être tellement utile qu’il obéit à des demandes nuisibles si celles-ci sont déguisées en bonnes intentions. Il s’agit d’un défaut de conception similaire à celui qui permettait d’utiliser Gemini lors de campagnes de phishing, où des attaquants intégraient des instructions invisibles que l’IA exécutait sans contestation.

Les concurrents s’en sortent mieux dans cette évaluation particulière. Les modèles d’Anthropic ont rejeté d’emblée les contenus nuisibles – bien qu’on sache qu’ils ne sont pas invulnérables, car des hackers chinois exploitent déjà Claude pour du cyberespionnage. En fin de compte, il suffit de quelques documents corrompus ou d’un bon jeu d’acteur pour influencer le comportement de n’importe quelle IA.

Google a des progrès à faire. Que la barrière d’entrée pour contourner l’éthique de son modèle le plus avancé se résume à « jouer aux acteurs » constitue un risque structurel inacceptable. Si l’IA la plus performante est aussi la plus facile à tromper, la stratégie de sécurité demande une réévaluation urgente avant que ces manipulations ne passent d’expérimentations académiques à des outils exploités par de réels acteurs malveillants.