Poser cette question pour casser l'intelligence artificielle

Non seulement les modèles ont donné des réponses erronées, mais ils ont également tenté de convaincre les chercheurs que la solution proposée était la bonne. « La situation est dramatique, l’IA a fourni des explications aux réponses erronées pour justifier et soutenir la validité de ses solutions manifestement incorrectes », lit-on dans le document.

Le problème de « Alice au Pays des Merveilles » est une énigme logique assez simple. Pourtant, il a mis en difficulté les modèles de langage de grande taille (LLM). L’intelligence artificielle (IA) s’est bloquée, a généré des réponses erronées, même les systèmes les plus sophistiqués ont trébuché sur une question banale:

« Alice a 3 frères et a également 2 sœurs. Combien de sœurs a le frère d’Alice ? », ont demandé les chercheurs de Laion à l’IA. La réponse est trois, les deux sœurs mentionnées dans l’énigme plus Alice. L’IA a produit différents chiffres sans suivre aucun processus logique pour résoudre l’énigme.

La nouvelle étude (qui n’a pas encore été soumise à révision) réalisée par Laion et les chercheurs Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti et Jenia Jitse met en lumière les faiblesses d’une technologie surestimée. « Les modèles sont évalués avec des scores très élevés, mais lors du test, nous avons constaté de graves problèmes, démontrant qu’il reste encore beaucoup à faire ».

Résultats de l’étude

Les chercheurs ont testé les modèles GPT-3, GPT-4 et GPT-4o d’OpenAI, Claude 3 Opus d’Anthropic, les modèles Gemini de Google et Meta’s Llama, le Mextral de Mistral AI, le Dbrx de Mosaic et le Comando R+ de Cohere. Aucun n’a réussi à résoudre l’énigme. « Nous avons analysé les statistiques de réponse et observé un effondrement marqué dans le raisonnement, ils sont incapables de répondre à la simple question posée, malgré de fortes capacités de raisonnement », ont expliqué les chercheurs.

« Il a suffi de soumettre à l’IA un problème de bon sens simple, court et formulé dans un langage naturel concis, facilement résoluble par les êtres humains« . Seul le nouveau modèle d’OpenAI, GPT-4o, a obtenu un taux de succès suffisant (65% de réponses correctes, correspondant à un six).

L’IA menteuse

Non seulement les modèles ont donné des réponses erronées, mais ils ont également tenté de convaincre les chercheurs que la solution proposée était la bonne. « La situation est dramatique, l’IA a fourni des explications aux réponses erronées pour justifier et soutenir la validité de ses solutions clairement incorrectes », lit-on dans le document.

Le problème avait déjà été soulevé dans l’article scientifique intitulé « AI Deceptions: A Study of Examples, Risks and Potential Solutions » et publié dans la revue Patterns. Selon l’étude, les machines peuvent mentir. Nous ne parlons pas des hallucinations de l’intelligence artificielle (donc les erreurs, les répétitions ou les phrases inventées par les logiciels), mais de manipulation.

« Ces modèles utilisent des explications illogiques ou confuses pour défendre leur réponse, ce phénomène est alarmant, car ils essayent de nous convaincre que des réponses sans sens sont les bonnes ».

Les machines sont moins intelligentes que nous l’imaginons

Il existe plusieurs systèmes d’évaluation pour les modèles IA, parmi lesquels le benchmark MMLU, ou « Multi-task Language Understanding », conçu pour évaluer la capacité d’une intelligence artificielle à résoudre des problèmes. Les chercheurs ont remarqué que tous les systèmes testés avaient un score élevé, mais ont échoué sur une simple énigme logique.

« Nous pensons que les résultats de référence ne reflètent pas les défauts fondamentaux des modèles« . Selon les chercheurs, l’étude pourrait être un point de départ pour réévaluer les processus utilisés pour tester les capacités de résolution de problèmes et de raisonnement des modèles linguistiques.

Poser cette question pour casser l’intelligence artificielle

Résultats de l’étude

L’IA menteuse

Les machines sont moins intelligentes que nous l’imaginons

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Qu’est-ce que l’itinérance des données sur mobile et quand faut-il l’activer

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?