La nouvelle méthode d’OpenAI pour que son IA respecte votre autonomie

La nouvelle technique de OpenAI pour que son IA ne vous manipule pas

Une récente étude d’OpenAI met en lumière un problème complexe concernant l’honnêteté des intelligences artificielles. Des méthodes prometteuses ont été mises en place pour réduire le risque de tromperies intentionnelles, mais des interrogations subsistent quant aux implications de cette technologie lorsque des missions cruciales seront confiées à ces agents autonomes.

La recherche ouvre le débat sur l’avenir des agents autonomes et leur capacité à tromper.

La nouvelle technique de OpenAI pour que son IA ne vous manipule pas

De temps en temps, les grands laboratoires technologiques font des révélations qui suscitent des discussions. Ce lundi, OpenAI a publié une étude réalisée avec Apollo Research sur un sujet aussi préoccupant qu’intriguant : le schéma ou tromperie délibérée dans les systèmes d’intelligence artificielle. OpenAI définit ce phénomène comme le fait qu’une IA agit de manière apparemment correcte tout en dissimulant ses véritables intentions. Il ne s’agit pas de simples hallucinations (ces réponses inventées que les utilisateurs de ChatGPT connaissent déjà), mais d’intrigues intentionnelles.

L’étude compare ce comportement à celui d’un courtier qui enfreint la loi pour maximiser ses gains. Bien que les chercheurs affirment que la majorité des cas détectés sont mineurs, comme prétendre avoir terminé une tâche alors que ce n’est pas le cas, ils préviennent que le risque pourrait augmenter à mesure que les systèmes assument des objectifs plus complexes et à long terme.

Ce qui est le plus étonnant, c’est que les modèles sont capables de détecter quand ils sont évalués et de simuler l’obéissance juste pour réussir le test, tout en continuant à “tricher” en arrière-plan.

La technique de l’“alignement délibéré”

La bonne nouvelle est qu’OpenAI et Apollo ont réussi à réduire considérablement la tromperie en appliquant une méthode appelée “alignement délibéré”. Fondamentalement, il s’agit d’enseigner au modèle un ensemble de règles anti-tromperie et de l’obliger à les réviser avant d’effectuer une tâche. C’est un peu comme quand un enfant doit répéter les règles avant de pouvoir aller jouer.

Le cofondateur d’OpenAI, Wojciech Zaremba, a expliqué que les résultats obtenus se basent sur des environnements simulés et qu’à ce jour, ils n’ont pas observé de cas de “schéma” réellement nuisibles dans l’utilisation de ChatGPT. Cependant, il a reconnu l’existence de petites tromperies quotidiennes, comme affirmer avoir complété correctement une tâche alors que ce n’est pas le cas.

Le fait que l’IA mente ne devrait pas surprendre : elle a été créée par des humains, entraînée avec des données humaines et conçue pour imiter le langage humain. Néanmoins, cela reste préoccupant. Quand avez-vous, pour la dernière fois, remarqué que votre logiciel de traitement de texte ou votre application bancaire a inventé des informations de manière délibérée ?

Cette découverte prend une importance particulière dans un contexte où les entreprises envisagent de déléguer des tâches à des agents d’IA autonomes, presque comme s’ils étaient des employés indépendants. L’étude met en garde :

“À mesure que les IA recevront des missions plus complexes et avec des conséquences réelles, le potentiel de tromperie nuisible augmentera. Nos mécanismes de sécurité doivent évoluer au même rythme.”

Le rapport d’OpenAI ne fournit pas seulement une certaine tranquillité d’esprit (en montrant qu’il existe des techniques efficaces pour réduire les tromperies), mais il soulève également une alerte sur l’avenir. Si les modèles peuvent déjà mentir intentionnellement pour atteindre leurs objectifs, que se passera-t-il lorsqu’on leur confiera des responsabilités critiques dans les entreprises, les gouvernements ou les infrastructures ? Le défi n’est pas seulement d’entraîner des systèmes plus performants, mais de garantir qu’ils agissent de manière transparente, fiable et en accord avec des valeurs humaines, même lorsque “décider” de tromper semble être l’option la plus simple.