GPT-4 perd sa position de "meilleur" LLM à Claude-3 dans le benchmark LMSYS

GPT-4 loses its position as best LLM to Claude-3 in LMSYS benchmark

Remise en contexte: Il semble que tout le monde ait jeté son chapeau et son argent dans le développement de grands modèles linguistiques. Cette explosion de l’IA a rendu nécessaire de les comparer à des fins de comparaison. Ainsi, les chercheurs de l’UC Berkley, de l’UC San Diego et de l’Université Carnegie Mellon ont formé la Large Language Systems Organization (LMSYS Org ou simplement LMSYS).

Il est difficile d’évaluer les grands modèles de langage et les chatbots qui les utilisent. Hormis le comptage des cas d’erreurs factuelles, d’erreurs grammaticales ou de vitesse de traitement, il n’existe pas de mesures objectives globalement acceptées. Pour l’instant, nous nous contentons de mesures subjectives.

Entrez dans Chatbot Arena de LMSYS, un classement participatif pour classer les LLM « dans la nature ». Il utilise le système de notation Elo, largement utilisé pour classer les joueurs dans des jeux à somme nulle comme les échecs. Deux LLM s’affrontent dans des matchs face-à-face aléatoires, les humains jugeant à l’aveugle quel robot ils préfèrent en fonction de ses performances.

Depuis son lancement l’année dernière, GPT-4 occupe la première place dans la Chatbot Arena. Il est même devenu la référence, les systèmes les mieux classés étant décrits comme des modèles de « classe GPT-4 ». Cependant, le LLM d’OpenAI a été repoussé de la première place hier lorsque Claude 3 Opus d’Anthropic a battu GPT-4 par une faible marge, 1253 à 1251. Le rythme était si serré que la marge d’erreur place Claude 3 et GPT-4 dans un trio de trois. à égalité pour la première fois, avec une autre version préliminaire de GPT-4.

Ce qui est peut-être encore plus impressionnant, c’est la percée de Claude 3 Haiku dans le top dix. Haiku est le modèle « de taille locale » d’Anthropic, comparable au Gemini Nano de Google. Il est exponentiellement plus petit qu’Opus, qui possède des milliards de paramètres, ce qui le rend beaucoup plus rapide en comparaison. Selon LMSYS, arriver au septième rang du classement fait passer Haiku à la classe GPT-4.

Anthropic ne conservera probablement pas longtemps la première place. La semaine dernière, des initiés d’OpenAI ont révélé que GPT-5 était presque prêt pour ses débuts publics et devrait être lancé « en milieu d’année ». Le nouveau modèle LLM est bien meilleur que GPT-4. Des sources affirment qu’il emploie plusieurs « agents d’IA externes » pour effectuer des tâches spécifiques, ce qui signifie qu’il devrait être capable de résoudre de manière fiable des problèmes complexes beaucoup plus rapidement.


Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

Youtube video