ChatGPT se trompe sur plus de la moitié des questions de programmation dans une étude récente

Oops: Les intelligences artificielles génératives se trompent souvent – même leurs créateurs ne cachent pas ce fait -, c’est pourquoi les utiliser pour aider à créer du code n’est pas une bonne idée. Pour tester les capacités générales et les connaissances de ChatGPT dans ce domaine, le système a été interrogé sur un grand nombre de questions de programmation logicielle, dont plus de la moitié a été mal répondu. Cependant, il a quand même réussi à tromper un nombre significatif de personnes.

Une étude de l’Université Purdue (via The Reg) a consisté à poser 517 questions de Stack Overflow à ChatGPT et à demander à une douzaine de participants volontaires leur test sur les résultats. Les réponses ont été évaluées non seulement en fonction de leur correction, mais aussi de leur cohérence, de leur exhaustivité et de leur concision. L’équipe a également analysé le style linguistique et le sentiment des réponses.

Ce n’était pas une bonne performance pour ChatGPT. L’outil d’OpenAI a répondu correctement à seulement 48% des questions, tandis que 77% étaient décrites comme « verbeuses ».

Ce qui est particulièrement intéressant, c’est que la compréhensibilité de ChatGPT et son style de langage bien articulé ont fait que près de 40% de ses réponses ont été préférées par les participants. Malheureusement pour l’IA générative, 77% de ces réponses préférées étaient incorrectes.

« Au cours de notre étude, nous avons observé que seuls lorsque l’erreur dans la réponse de ChatGPT est évidente, les utilisateurs peuvent identifier l’erreur », indique l’article, rédigé par les chercheurs Samia Kabir, David Udo-Imeh, Bonan Kou et le professeur adjoint Tianyi Zhang. « Cependant, lorsque l’erreur n’est pas facilement vérifiable ou nécessite un IDE externe ou de la documentation, les utilisateurs ont souvent du mal à identifier l’incorrectitude ou à sous-estimer le degré d’erreur dans la réponse. »

Même lorsque la réponse de ChatGPT était évidemment fausse, deux des 12 participants l’ont quand même préférée en raison du ton plaisant, confiant et positif de l’IA. Sa compréhensibilité et le style d’écriture didactique ont également contribué à faire apparaître une réponse factuellement fausse comme étant correcte aux yeux de certaines personnes.

« De nombreuses réponses sont incorrectes en raison de l’incapacité de ChatGPT à comprendre le contexte sous-jacent de la question posée », explique l’article.

Les créateurs d’IA génératives incluent des avertissements sur les pages de leurs produits concernant le fait que les réponses qu’ils donnent peuvent potentiellement être fausses. Même Google a mis en garde ses employés contre les dangers des chatbots, y compris son propre Bard, et leur a conseillé d’éviter d’utiliser directement le code généré par ces services. Lorsqu’on lui a demandé pourquoi, l’entreprise a déclaré que Bard pouvait faire des suggestions de code indésirables, mais qu’il était malgré tout utile aux programmeurs. Google a également déclaré qu’il cherchait à être transparent sur les limites de sa technologie. Apple, Amazon et Samsung, quant à eux, font partie des entreprises qui ont interdit complètement ChatGPT.

Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :

ChatGPT se trompe sur plus de la moitié des questions de programmation dans une étude récente

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Qu’est-ce que l’itinérance des données sur mobile et quand faut-il l’activer

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?