GPT-4 perd sa position de "meilleur" LLM à Claude-3 dans le benchmark LMSYS

Remise en contexte: Il semble que tout le monde ait jeté son chapeau et son argent dans le développement de grands modèles linguistiques. Cette explosion de l’IA a rendu nécessaire de les comparer à des fins de comparaison. Ainsi, les chercheurs de l’UC Berkley, de l’UC San Diego et de l’Université Carnegie Mellon ont formé la Large Language Systems Organization (LMSYS Org ou simplement LMSYS).

Il est difficile d’évaluer les grands modèles de langage et les chatbots qui les utilisent. Hormis le comptage des cas d’erreurs factuelles, d’erreurs grammaticales ou de vitesse de traitement, il n’existe pas de mesures objectives globalement acceptées. Pour l’instant, nous nous contentons de mesures subjectives.

Entrez dans Chatbot Arena de LMSYS, un classement participatif pour classer les LLM « dans la nature ». Il utilise le système de notation Elo, largement utilisé pour classer les joueurs dans des jeux à somme nulle comme les échecs. Deux LLM s’affrontent dans des matchs face-à-face aléatoires, les humains jugeant à l’aveugle quel robot ils préfèrent en fonction de ses performances.

[Arena Update]

Plus de 70 000 nouveaux votes dans l’arène sont disponibles !

Claude-3 Haiku a tout impressionné, atteignant même le niveau GPT-4 selon nos préférences d’utilisateur ! Sa vitesse, ses capacités et sa longueur de contexte sont désormais inégalées sur le marché.

Bravo @AnthropiqueAI sur l’incroyable lancement de Claude-3 !

Plus excitant… pic.twitter.com/p1Guuf0B3K

– lmsys.org (@lmsysorg) 26 mars 2024

Depuis son lancement l’année dernière, GPT-4 occupe la première place dans la Chatbot Arena. Il est même devenu la référence, les systèmes les mieux classés étant décrits comme des modèles de « classe GPT-4 ». Cependant, le LLM d’OpenAI a été repoussé de la première place hier lorsque Claude 3 Opus d’Anthropic a battu GPT-4 par une faible marge, 1253 à 1251. Le rythme était si serré que la marge d’erreur place Claude 3 et GPT-4 dans un trio de trois. à égalité pour la première fois, avec une autre version préliminaire de GPT-4.

Ce qui est peut-être encore plus impressionnant, c’est la percée de Claude 3 Haiku dans le top dix. Haiku est le modèle « de taille locale » d’Anthropic, comparable au Gemini Nano de Google. Il est exponentiellement plus petit qu’Opus, qui possède des milliards de paramètres, ce qui le rend beaucoup plus rapide en comparaison. Selon LMSYS, arriver au septième rang du classement fait passer Haiku à la classe GPT-4.

Anthropic ne conservera probablement pas longtemps la première place. La semaine dernière, des initiés d’OpenAI ont révélé que GPT-5 était presque prêt pour ses débuts publics et devrait être lancé « en milieu d’année ». Le nouveau modèle LLM est bien meilleur que GPT-4. Des sources affirment qu’il emploie plusieurs « agents d’IA externes » pour effectuer des tâches spécifiques, ce qui signifie qu’il devrait être capable de résoudre de manière fiable des problèmes complexes beaucoup plus rapidement.

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

GPT-4 perd sa position de "meilleur" LLM à Claude-3 dans le benchmark LMSYS

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Qu’est-ce que l’itinérance des données sur mobile et quand faut-il l’activer

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?