Le dernier modèle de ChatGPT pourrait être une régression en termes de performances

Une récente analyse d’Artificial Analysis soulève des doutes concernant la dernière version du modèle phare d’OpenAI, GPT-4o, dont les performances semblent avoir chuté de manière significative. Dans un contraste frappant, les résultats de cette mise à jour sont désormais comparables à ceux du modèle moins performant, GPT-4o-mini.

Selon un nouveau rapport d’Artificial Analysis, le modèle de langage phare d’OpenAI pour ChatGPT, GPT-4o, a régressé de manière significative ces dernières semaines, plaçant les performances du modèle à la pointe de la technologie sur un pied d’égalité avec le modèle beaucoup plus petit et notablement moins performant, GPT-4o-mini.

Cette analyse est publiée moins de 24 heures après l’annonce par l’entreprise d’une mise à niveau pour le modèle GPT-4o. « La capacité d’écriture créative du modèle a fait un bond en avant – une écriture plus naturelle, engageante, et adaptée pour améliorer la pertinence et la lisibilité, » a écrit OpenAI sur X. « Il est également meilleur pour travailler avec des fichiers téléchargés, fournissant des insights plus profonds et des réponses plus complètes. » Toutefois, la validité de ces affirmations est désormais remise en question.

“Nous avons terminé nos évaluations indépendantes sur la version GPT-4o d’OpenAI hier et mesurons systématiquement des scores d’évaluation sensiblement inférieurs à ceux de la version d’août de GPT-4o,” a annoncé Artificial Analysis via un post sur X ce jeudi, notant que l’Indice de Qualité d’Artificial Analysis du modèle a chuté de 77 à 71 (et est maintenant égal à celui de GPT-4o mini).

De plus, la performance de GPT-4o sur l’étalon de référence GPQA Diamond a diminué de 51 % à 39 %, tandis que ses benchmarks MATH ont chuté de 78 % à 69 %.

Simultanément, les chercheurs ont découvert un doublement de l’augmentation de la vitesse des réponses du modèle, passant d’environ 80 tokens de sortie par seconde à environ 180 tokens/s. “Nous avons généralement observé des vitesses significativement plus rapides le jour du lancement pour les modèles d’OpenAI (probablement à cause de la capacité provisionnée par OpenAI avant l’adoption), mais nous n’avions pas précédemment vu une différence de vitesse de 2x,” ont écrit les chercheurs.

Attendez – le nouveau GPT-4o est-il un modèle plus petit et moins intelligent?

Nous avons terminé nos évaluations indépendantes sur la version GPT-4o d’OpenAI hier et mesurons systématiquement des scores d’évaluation sensiblement inférieurs à ceux de la version d’août de GPT-4o.

GPT-4o (Nov) vs GPT-4o (Août):
➤… pic.twitter.com/gjY2pBFuUv

— Artificial Analysis (@ArtificialAnlys) 21 novembre 2024

“Sur la base de ces données, nous concluons qu’il est probable que le modèle GPT-4o du 20 novembre d’OpenAI soit un modèle plus petit que la version d’août,” ont-ils poursuivi. “Étant donné qu’OpenAI n’a pas réduit les prix pour la version du 20 novembre, nous recommandons aux développeurs de ne pas transférer leurs charges de travail vers la version d’août sans tests rigoureux.”

GPT-4o a été lancé pour la première fois en mai 2024 pour surpasser les modèles existants GPT-3.5 et GPT-4. GPT-4o offre des résultats au sommet des benchmarks dans les tâches de voix, multilingues et visuelles, selon OpenAI, le rendant idéal pour des applications avancées telles que la traduction en temps réel et l’IA de conversation.

Le dernier modèle de ChatGPT pourrait être une régression en termes de performances

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

Mole l’outil gratuit pour nettoyer optimiser et surveiller votre Mac

Photoshop, Lightroom et sept autres applications pour retoucher vos photos comme un pro

China réussit à récupérer sa fusée ! La suprématie spatiale de Elon Musk menacée

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?