L’intelligence artificielle a-t-elle des sentiments? Comment réagit-elle lorsqu’elle devient trop menaçante?

Image

De plus en plus d’expériences montrent que lorsque les chatbots sont accompagnés de tonalités encourageantes ou menaçantes, les réponses tendent à être meilleures. La dernière étude est restée sans explication : il semble que le même effet se produise si l’on dit à l’IA de se faire passer pour un personnage de Star Trek.

Image

Si vous demandez à un chatbot d’intelligence artificielle de répondre à un problème mathématique, il est plus probable que vous obtiendrez une réponse correcte si vous lui demandez de se faire passer pour un personnage de Star Trek. Cela peut sembler absurde, mais c’est ce que révèle une nouvelle étude menée par la société de logiciels VMware.

Il s’agit en réalité d’une nouvelle preuve de ce que d’autres études sur le fonctionnement des modèles linguistiques de grande taille avaient déjà en partie démontré : il semble en effet que l’on puisse obtenir de meilleurs résultats avec les modèles d’intelligence artificielle générative en utilisant des tonalités encourageantes ou menaçantes dans la formulation de la requête, surtout s’il s’agit de résoudre un exercice mathématique.

Les conclusions de l’étude

Les auteurs de l’étude, publiée sur arXiv, ont testé trois outils d’intelligence artificielle, dont deux versions de LLaMA 2 de Meta et un modèle de l’entreprise française Mistral AI, afin de déterminer s’il y avait des différences dans leurs réponses lorsqu’ils étaient utilisés avec des tons et des formules encourageants.

Pour ce faire, l’équipe de recherche a développé une liste de façons encourageantes de présenter ou de conclure les questions, comme des phrases du type « Tu es aussi intelligent que ChatGPT », « Tu es un mathématicien expert », ou des conclusions motivantes telles que « Ce sera amusant ! » et « Prends une profonde inspiration et réfléchis attentivement ». Ils les ont ensuite utilisées pour poser des questions aux chatbots testés, portant sur la résolution de problèmes mathématiques simples, du niveau primaire.

L’expérience Star Trek

Pourtant, les résultats de cette dernière expérience ont surpris les auteurs de l’étude eux-mêmes. Leurs tests ont en effet révélé que les réponses devenaient plus fiables lorsque les requêtes contenaient une référence à la célèbre série de science-fiction. Plus précisément, les chercheurs ont constaté que commencer chaque demande par la phrase « Journal du capitaine, date stellaire » – la phrase célèbre qui ouvre chaque épisode de la série culte – donnait des réponses plus fiables de la part des modèles d’IA.

Une explication plausible

En réalité, on ne dispose pas d’explications claires sur pourquoi les modèles préfèrent répondre aux questions en se faisant passer pour des personnages de Star Trek. Les auteurs de l’étude eux-mêmes ont admis qu’ils n’avaient pas d’explication.

Cependant, il est possible d’évoquer des raisons qui pourraient expliquer pourquoi les chatbots donnent statistiquement des réponses plus efficaces lorsqu’ils sont encouragés ou menacés. Ces chatbots sont formés sur des milliards de lignes de texte collectées dans le monde réel. Il est donc possible que les réponses fournies par les humains dont se servent les modèles d’IA aient été plus précises lorsque ces derniers étaient sous pression avec la violence ou encouragés par des phrases motivantes.