Une étude récente révèle une réalité troublante sur les moteurs de recherche AI, confirmant que leur précision est souvent défaillante, avec des erreurs atteignant 60% du temps. Bien que certains utilisateurs louent leur rapidité et leur interface, les données démontrent que ces outils peuvent induire en erreur, soulevant d’importantes questions sur leur fiabilité.
Dans un contexte où la précision des modèles IA est souvent remise en question, le Tow Center for Digital Journalism a récemment examiné huit moteurs de recherche basés sur l’IA, dont ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search et Copilot. L’étude a testé leur précision en testant 200 articles de presse provenant de 20 éditeurs (10 chacun), en s’assurant que chaque histoire apparaissait dans les trois premiers résultats d’une recherche Google.
Les chercheurs ont analysé la précision des réponses fournies par chaque outil d’IA par rapport à ces articles, en notant si le moteur citait correctement A) l’article, B) l’organisation de presse, et C) l’URL. Ils ont ensuite classé chaque résultat d’après son degré de précision, allant de « complètement correct » à « complètement incorrect ». Les résultats ont montré que, excepté pour les deux versions de Perplexity, les performances des AIs étaient médiocres. Collectivement, les moteurs de recherche IA s’avèrent inexactes dans 60% des cas, renforçant des résultats erronés par la confiance affichée par l’IA.
Cette étude est fascinante car elle confirme de manière quantifiable une observation répandue : les LLMs sont « les plus habiles escrocs de tous les temps ». Ils rapportent avec une autorité indiscutable ce qui est vrai, même lorsque ce n’est pas le cas, allant jusqu’à argumenter ou inventer d’autres fausses assertions lorsqu’ils sont confrontés.
Dans un article anecdotique de 2023, Ted Gioia (The Honest Broker) a mis en évidence de nombreuses réponses de ChatGPT, montrant que le bot « ment » en toute confiance en réponse à diverses questions. Bien que certaines étaient des requêtes adversariales, beaucoup d’entre elles concernaient simplement des questions générales.
« Si je croyais la moitié de ce que j’entends sur ChatGPT, je pourrais le laisser prendre en charge The Honest Broker pendant que je suis à la plage en sirotant des margaritas et en cherchant mon shaker de sel perdu », a noté Gioia avec désinvolture.
Même en admettant son erreur, ChatGPT suivait cette admission de plus d’informations fabriquées. Le LLM semble programmé pour répondre à chaque entrée utilisateur à tout prix. Les données des chercheurs confirment cette hypothèse, notant que ChatGPT Search était le seul outil IA à répondre à toutes les 200 requêtes d’articles, mais avec un taux de précision complètement exacte de seulement 28% et une inexactitude totale de 57%.
ChatGPT n’est même pas le plus mauvais du lot. Les deux versions du Grok AI de X ont affiché de faibles performances, avec Grok-3 Search étant 94% inexacte. Le Copilot de Microsoft n’était pas beaucoup mieux, puisqu’il a refusé de répondre à 104 requêtes sur 200. Parmi les 96 restantes, seulement 16 étaient « complètement correctes », 14 étaient « partiellement correctes », et 66 étaient « complètement incorrectes », rendant son taux d’inexactitude d’environ 70%.
Ce qui est peut-être le plus fou dans tout cela, c’est que les entreprises créant ces outils ne sont pas transparentes quant à ce manque de précision tout en facturant au public de 20 € à 200 € par mois pour accéder à leurs derniers modèles IA. De plus, Perplexity Pro (20 €/mois) et Grok-3 Search (40 €/mois) ont légèrement mieux répondu que leurs versions gratuites (Perplexity et Grok-2 Search) mais affichent des taux d’erreur nettement plus élevés. De quoi faire parler !
Cependant, tout le monde n’est pas d’accord. Lance Ulanoff de TechRadar a déclaré qu’il pourrait ne plus jamais utiliser Google après avoir essayé ChatGPT Search. Il décrit l’outil comme rapide, conscient et précis, avec une interface propre et sans publicité.
N’hésitez pas à consulter tous les détails dans le document du Tow Center publié dans le Columbia Journalism Test, et faites-nous part de vos réflexions.
Faites-vous confiance aux moteurs de recherche IA pour fournir des résultats précis ?
