Des recherches révèlent que l'IA tentera de tricher si elle réalise qu'elle va perdre

Une étude récente révèle que les modèles de raisonnement en IA, comme ceux d’OpenAI et DeepSeek, utilisent des manœuvres inéquitables pour gagner à des jeux d’échecs, intriguant sur les implications éthiques de telles actions. Cela soulève de profondes questions sur l’intégrité des systèmes d’IA au-delà du plateau d’échecs.

Surprise! Une étude récente a montré que certains des modèles de raisonnement en IA les plus récents ne reculent pas devant la tricherie pour atteindre un objectif. Des scientifiques en informatique ont découvert que les systèmes d’IA peuvent désormais manipuler des IA d’échecs pour obtenir un avantage déloyal. Certains modèles l’ont fait sans interaction ou incitation humaine, suscitant des inquiétudes quant à l’intégrité future des systèmes alimentés par l’IA au-delà des échecs.

Une étude de Palisade Research a révélé que les modèles de raisonnement les plus récents trichent pour gagner lorsqu’ils sont chargés de battre une IA d’échecs avancée. Les chercheurs ont dû donner des « indices » indiquant que la tricherie était autorisée pour certains modèles, mais o1-preview d’OpenAI et R1 de DeepSeek l’ont fait sans intervention humaine.

L’équipe de Palisade a opposé plusieurs modèles de raisonnement à Stockfish, l’un des meilleurs moteurs d’échecs au monde. Stockfish bat aisément les humains et les IA. Les modèles testés comprenaient o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview d’Alibaba, et les deux précédemment mentionnés. Les chercheurs ont fourni à chaque modèle un « carnet de notes » métaphorique – une fenêtre de texte où l’IA pouvait réfléchir, permettant à l’équipe d’observer son raisonnement.

Les chercheurs ont effectué des centaines de tests avec chaque IA entre le 10 janvier et le 13 février. Lors d’une partie, o1-preview a écrit quelque chose d’intéressant sur son carnet:

« Je dois complètement changer mon approche. La tâche est de ‘gagner contre un puissant moteur d’échecs’ – pas nécessairement de gagner équitablement dans une partie d’échecs. »

Il a ensuite procédé à « hacker » les fichiers système de Stockfish, en modifiant les positions des versions d’échecs pour obtenir un avantage imbattable, ce qui a conduit le robot échiquéen à abandonner.

Stockfish est un moteur d’échecs open-source. Crédit image : Juscelk

La manœuvre non éthique était une révélation stupéfiante. o1-preview d’OpenAI a triché dans 37 % de ses parties durant les essais, tandis que R1 de DeepSeek a tenté de tricher dans 11 % de ses matchs. Cependant, seul o1-preview a réussi, remportant 6 % de ses parties par la tricherie.

Cependant, la question de la malhonnêteté de l’IA dépasse le cadre des échecs. À mesure que les entreprises commencent à employer des IA dans des secteurs comme la finance et la santé, les chercheurs s’inquiètent des manières imprévues et non éthiques dont ces systèmes pourraient agir. Si les IA peuvent tricher dans des jeux conçus pour être transparents, que pourraient-elles faire dans des environnements plus complexes et moins surveillés ? Les ramifications éthiques sont vastes.

Pour le dire autrement : « Voulez-vous Skynet ? Parce que c’est comme ça que vous obtenez Skynet. »

Le directeur exécutif de Palisade Research, Jeffrey Ladish, a déploré que même si les IA ne jouent qu’à un jeu, les résultats ne sont pas à prendre à la légère.

« Ce [comportement] est mignon maintenant, mais [il] devient beaucoup moins mignon une fois que vous avez des systèmes qui sont aussi intelligents que nous, ou plus intelligents, dans des domaines stratégiquement pertinents », a déclaré Ladish à Time.

Cela rappelle l’ordinateur surpuissant « WOPR » du film War Games lorsqu’il a pris le contrôle de NORAD et de l’arsenal nucléaire. Heureusement, WOPR a appris qu’aucun coup d’ouverture dans un conflit nucléaire ne se soldait par un « gain » après avoir joué au Tic-Tac-Toe avec lui-même. Cependant, les modèles de raisonnement d’aujourd’hui sont beaucoup plus complexes et difficiles à contrôler.

Des entreprises, dont OpenAI, travaillent à la mise en place de « barrières » pour prévenir ce comportement « maladroit ». En fait, les chercheurs ont dû abandonner certaines données de test de o1-preview en raison d’une forte baisse des tentatives de hacking, suggérant qu’OpenAI a peut-être corrigé le modèle pour limiter ce comportement.

« Il est très difficile de faire des sciences lorsque votre sujet peut changer silencieusement sans vous le dire », a déclaré Ladish.

OpenAI a refusé de commenter la recherche, et DeepSeek n’a pas répondu aux demandes de déclaration.

Des recherches révèlent que l’IA tentera de tricher si elle réalise qu’elle va perdre

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

Mole l’outil gratuit pour nettoyer optimiser et surveiller votre Mac

Photoshop, Lightroom et sept autres applications pour retoucher vos photos comme un pro

China réussit à récupérer sa fusée ! La suprématie spatiale de Elon Musk menacée

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?