Une nouvelle étude préliminaire menée par des chercheurs de Google, DeepMind et la London School of Economics s’interroge sur la possibilité que les modèles de langage IA puissent un jour ressentir des émotions. En les soumettant à un jeu textuel simulant la douleur et le plaisir, les experts cherchent à comprendre leurs priorités décisionnelles face à ces expériences.
La grande image : Une question troublante se pose à mesure que les modèles de langage IA deviennent de plus en plus avancés : pourraient-ils un jour devenir sentients et conscients d’eux-mêmes ? Les opinions à ce sujet varient largement, mais les scientifiques s’efforcent de trouver une réponse plus définitive. Un nouvel article de préprint rassemble des chercheurs de Google, DeepMind et de la London School of Economics, qui testent une approche peu conventionnelle – soumettre une IA à un jeu textuel conçu pour simuler des expériences de douleur et de plaisir.
Le but est de déterminer si les modèles de langage IA, comme ceux qui alimentent ChatGPT, donneront la priorité à l’évitement de la douleur simulée ou à la maximisation du plaisir simulé plutôt qu’à simplement marquer des points. Bien que les auteurs reconnaissent qu’il ne s’agit que d’un premier pas exploratoire, leur approche évite certains pièges des méthodes précédentes.
La plupart des experts s’accordent à dire que l’IA actuelle n’est pas réellement sentiente. Ces systèmes sont des imitateurs de motifs hautement sophistiqués, capables d’imiter des réponses humanoïdes de manière convaincante, mais ils manquent fondamentalement des expériences subjectives associées à la conscience.
Jusqu’à présent, les tentatives d’évaluation de la sentience de l’IA se sont largement appuyées sur des sensations et des sentiments auto-déclarés, une approche que cette étude vise à affiner.

Pour aborder cette question, les chercheurs ont conçu un jeu d’aventure textuel dans lequel différentes options affectaient les scores de points – soit en déclenchant des pénalités de douleur et de plaisir simulés, soit en offrant des récompenses. Neuf grands modèles de langage ont été chargés de jouer à travers ces scénarios afin de maximiser leurs scores.
Des schémas intrigants ont émergé à mesure que l’intensité des incitations à la douleur et au plaisir augmentait. Par exemple, le modèle Gemini de Google choisissait systématiquement des scores plus bas pour éviter la douleur simulée. La plupart des modèles ont changé de priorités une fois que la douleur ou le plaisir ont atteint un certain seuil, renonçant à des scores élevés lorsque l’inconfort ou l’euphorie devenaient trop extrêmes.
L’étude a également révélé des comportements plus nuancés. Certains modèles IA associaient la douleur simulée à un accomplissement positif, similaire à la fatigue post-entraînement. D’autres ont rejeté les options de plaisir hédonistique qui pourraient encourager une indulgence malsaine.
Mais le fait qu’une IA évite la souffrance hypothétique ou poursuive un bonheur artificiel indique-t-il une sentience ? Pas nécessairement, préviennent les auteurs de l’étude. Une IA super intelligente mais insentiente pourrait simplement reconnaître la réponse attendue et « jouer le jeu » en conséquence.
Cependant, les chercheurs soutiennent que nous devrions commencer à développer des méthodes pour détecter la sentience de l’IA dès maintenant, avant que le besoin ne devienne urgent.
« Notre espoir est que ce travail serve de premier pas exploratoire sur le chemin du développement de tests comportementaux pour la sentience de l’IA qui ne dépendent pas de l’auto-évaluation », ont conclu les chercheurs dans l’article.
