Les avancées récentes en intelligence artificielle remettent en question les méthodes traditionnelles d’évaluation. Un groupe de chercheurs a développé un test ambitieux pour évaluer les limites des modèles d’IA actuels, mettant en lumière leurs lacunes malgré leur assurance excessive.

Ces dernières années, le progrès de l’intelligence artificielle a remis en cause les tests académiques traditionnels qui ont mesuré les avancées cognitives des machines pendant des décennies. Des évaluations comme le Test de Turing, élaboré par Alan Turing pour déterminer si un ordinateur peut simuler l’intelligence humaine, semblent maintenant démodées face aux capacités des modèles multimodaux récents, qui ont commencé à atteindre des résultats presque parfaits dans des épreuves considérées, il y a peu, comme très difficiles. Cela n’indique cependant pas que l’IA a atteint une perfection absolue. Bien au contraire.
Pour distinguer efficacement les niveaux de capacité des nouvelles machines, un groupe international de près de mille chercheurs a décidé d’élever la barre en concevant une épreuve bien plus complexe. Elle est nommée « Humanity’s Last Exam », un questionnaire créé spécifiquement pour mettre à l’épreuve les modèles d’IA et dévoiler leur excès de confiance, qui se manifeste lorsque, malgré des lacunes de connaissance, les machines continuent de proposer des réponses manifestement erronées. Le constat est clair : l’intelligence artificielle ne sait pas tout, mais est trop sûre d’elle pour l’admettre.
Un test de 2.500 questions pour défier l’IA
Le nouveau critère, décrit dans une étude publiée dans Nature, consiste en un test de 2.500 questions couvrant des domaines variés, comme les mathématiques, les sciences naturelles, les disciplines humaines, et même les langues anciennes. De nombreux sujets exigent des connaissances universitaires avancées, voire spécialisées. Pour concevoir le test, des experts du monde entier ont créé des questions avec une seule réponse vérifiable et difficiles à trouver en ligne. Chaque question, avant d’être incluse, a été testée sur les modèles d’IA les plus avancés : si la bonne réponse était trouvée, la question était éliminée.
L’objectif de l’expérience était de proposer un test volontairement « au-delà des limites » des capacités actuelles des machines. Parmi les exemples qui illustrent la nature des exigences, on trouve : la traduction d’une inscription en palmyrénien (langue parlée à Palmira, en Syrie, entre le Ier et le IIIe siècle après J.-C.), l’identification de certaines structures anatomiques microscopiques chez les oiseaux ou l’analyse des schémas phonétiques de l’hébreu biblique.
Une part importante du test (environ 41 % des questions) était dédiée aux problèmes mathématiques les plus complexes. Ainsi, les chercheurs ont pu évaluer les capacités de raisonnement logique de l’IA, en allant au-delà d’une simple évaluation de sa puissance de calcul.
Les résultats : les machines ne sont pas encore omniscientes
Étonnamment, lorsque les chercheurs ont soumis le test aux modèles linguistiques les plus avancés, les résultats ont été plutôt modestes. Les versions moins récentes des modèles de l’Anthropic, Google, OpenAI ont montré des lacunes significatives en termes d’exactitude des réponses. Même les modèles les plus avancés à la date de l’expérience (Claude 4 Sonetto, Gemini 2.5 Pro GPT-5) ont révélé des marges de progression importantes pour « réduire l’écart entre les LLM actuels et les capacités académiques experts sur les questions à réponse fermée ». En d’autres termes, aussi prometteuse qu’elle soit, l’intelligence artificielle doit encore apprendre énormément avant d’atteindre les connaissances et compétences analytiques, logiques et déductives que l’humanité a acquises.
De surcroît, tout comme une personne ayant des connaissances limitées qui s’exprime sur des sujets complexes, l’IA montre également une confiance mal placée dans la qualité de ses réponses. De nombreux modèles ont en effet affiché un degré élevé de confiance dans leurs réponses, même lorsque celles-ci étaient erronées ou incomplètes, indiquant que leur capacité à évaluer l’incertitude de leurs retours est encore limitée. Le modèle le plus « arrogant » s’est révélé être le GPT-4, qui, face à un misérable score d’exactitude de 2,7 %, a affiché une erreur de calibration de 89 %. Plus réalistes, le 3.1 Pro de Gemini et le Chat GPT-5.2 ont respectivement montré des erreurs de calibration de 50,3 % et 55,1 %.
À quoi sert vraiment le test
Malgré un nom évocateur, les auteurs du projet ont précisé que « Humanity’s Last Exam » n’est pas une annonce de l’Apocalypse pour l’intelligence humaine. En fait, l’objectif est davantage de comprendre les limites de l’IA pour rendre cet outil potentiellement plus efficace et favoriser une évolution sociétale.
Comme l’a souligné le professeur Tung Nguyen, enseignant à la Texas A&M University et contributeur avec 73 questions à la rédaction et révision du test, il est crucial de disposer d’outils d’évaluation fiables pour éviter des interprétations erronées d’une technologie de plus en plus influente, tant dans la recherche que dans la vie quotidienne. « Sans tests précis, les décideurs, développeurs et utilisateurs risquent de surestimer ce que l’IA peut réellement accomplir ».