Une crise inattendue touche Wikipedia alors que des informations absurdes générées par l’IA inondent la plateforme. Pour contrer cela, un groupe de bénévoles s’emploie à vérifier et corriger les articles. Découvrez les répercussions de l’IA sur la fiabilité d’une des plus grandes ressources en ligne.
C’est pourquoi nous ne pouvons pas avoir de belles choses : Wikipedia traverse actuellement une crise d’édition à cause de l’IA. Les utilisateurs inondent le site d’informations absurdes générées par de grands modèles de langage comme ChatGPT. Mais honnêtement, qui ne s’y attendait pas ?
Wikipedia a lancé une nouvelle initiative nommée WikiProject AI Cleanup. Il s’agit d’un groupe de bénévoles qui parcoure actuellement les articles de Wikipedia, corrigeant ou supprimant les informations fausses qui semblent avoir été publiées par des personnes utilisant l’IA générative.
Ilyas Lebleu, membre fondateur de l’équipe de nettoyage, a déclaré à 404 Media que la crise a commencé lorsque les éditeurs et utilisateurs de Wikipedia ont commencé à voir des passages indéniablement rédigés par un chatbot. L’équipe a confirmé cette théorie en recréant certains passages avec ChatGPT.
« Plusieurs d’entre nous avaient remarqué la prévalence d’un style d’écriture non naturel montrant des signes clairs d’être généré par l’IA, et nous avons réussi à reproduire des ‘styles’ similaires en utilisant ChatGPT », a déclaré Lebleu. « Découvrir certaines phrases clés propres à l’IA nous a permis de repérer rapidement quelques exemples flagrants d’articles générés, que nous avons rapidement voulu formaliser dans un projet organisé pour compiler nos découvertes et techniques. »
1 : L’IA hallucine des événements, des figures historiques, des concepts entiers sur Wikipedia
2 : une task force d’éditeurs de Wikipedia détecte et supprime ces contenus https://t.co/PlfzVCZd4P
– Jason Koebler (@jason_koebler) 9 octobre 2024
Par exemple, un article concerne une forteresse ottomane construite dans les années 1400, nommée « Amberlisihar ». L’article de 2 000 mots détaille l’emplacement et la construction du site. Malheureusement, Amberlisihar n’existe pas, et toutes les informations à son sujet sont une complète hallucination, agrémentée de suffisamment de données factuelles pour lui conférer une certaine crédibilité.
Les méfaits ne se limitent pas uniquement aux nouveaux contenus. Les acteurs malveillants insèrent également de fausses informations générées par l’IA dans des articles existants que des éditeurs bénévoles ont déjà vérifiés. Dans un exemple, quelqu’un avait ajouté une section correctement citée concernant une espèce de crabe dans un article sur un coléoptère sans rapport.
Lebleu et ses collègues éditeurs affirment qu’ils ne savent pas pourquoi les personnes agissent ainsi, mais soyons honnêtes : nous savons tous que cela se produit pour deux raisons principales. La première est un problème inhérent au modèle de Wikipedia – tout le monde peut devenir éditeur sur la plateforme. De nombreuses universités n’acceptent pas les étudiants soumettre des travaux citant Wikipedia pour cette raison même.
La seconde raison est simplement que l’internet gâche tout. Nous avons constaté cela maintes et maintes fois, en particulier avec les applications d’IA. Vous vous souvenez de Tay, le bot Twitter de Microsoft qui a été retiré en moins de 24 heures après avoir commencé à publier des tweets vulgaires et racistes ? Les applications d’IA modernes sont tout aussi susceptibles d’être abusées, comme nous l’avons vu avec les deepfakes, des livres générés par l’IA de qualité douteuse sur Kindle, et d’autres frasques.
Chaque fois que le public a accès à quelque chose sans restriction, on peut s’attendre à ce qu’un petit pourcentage d’utilisateurs en abuse. Quand il s’agit de 100 personnes, cela peut ne pas poser de problème, mais quand il s’agit de millions, vous aurez des soucis. Parfois, c’est pour un gain illicite. D’autres fois, c’est simplement parce qu’ils le peuvent. C’est le cas avec le dilemme actuel de Wikipedia.
