Pouvons-nous encore faire confiance à Wikipedia ? Dans l’encyclopédie, les articles écrits par l’IA sont de plus en plus nombreux

Immagine

Des pages fictives, élaborées par l’intelligence artificielle, ont envahi l’encyclopédie en ligne. Pour contrer cette problématique croissante, un groupe d’éditeurs s’est constitué sous le nom de WikiProject AI Cleanup afin d’identifier et d’éliminer ces contenus fallacieux, parfois d’apparence convaincante.

Des pages fausses de lieux et de personnages inexistants sont apparues sur l’encyclopédie en ligne. De plus en plus de contenus créés par l’intelligence artificielle sont détectés, et maintenant l’équipe de WikiProject AI Cleanup les recherche pour les supprimer définitivement.

Immagine

“La forteresse d’Amberlihisar a été construite en 1466 par Mehmed le Conquérant à Trébizonde, en Turquie », peut-on lire sur Wikipedia. L’article est structuré en paragraphes, mentionnant les sièges, les influences architecturales et les opérations de restauration suite « aux dommages significatifs causés par les bombardements des forces russes pendant la Première Guerre mondiale ». Il n’y a qu’un problème. La forteresse d’Amberlihisar n’existe pas.

Chaque détail figurant sur la page a été écrit par l’intelligence artificielle (IA). La forteresse d’Amberlihisar n’est pas un cas isolé, l’IA envahit non seulement les résultats de Google et les descriptions de produits sur Amazon, mais aussi l’encyclopédie en ligne. Pour cette raison, un groupe d’éditeurs de Wikipedia a formé le WikiProject AI Cleanup, « une équipe qui lutte contre le problème croissant des contenus générés par l’intelligence artificielle sur Wikipedia, dépourvus de sources et mal écrits ».

« Certains d’entre nous avaient remarqué des pages avec une écriture étrange trahissant l’intervention de l’intelligence artificielle », a expliqué à Media 404 Ilyas Lebleu, membre fondateur de WikiProject AI Cleanup. « La découverte de certaines phrases d’impact communes à l’intelligence artificielle nous a permis de identifier rapidement quelques exemples les plus flagrants d’articles générés par l’IA, et nous avons voulu créer rapidement un projet organisé pour résoudre ce problème ».

Comment fonctionne le WikiProject AI Cleanup

Le WikiProject AI Cleanup détecte les contenus générés par l’IA de la manière traditionnelle. Il cherche en effet les phrases les plus couramment utilisées par ChatGPT. Prenons un exemple. Dans un article sur le Chester Mental Health Center, publié en novembre 2023, il était écrit : « Depuis ma dernière mise à jour datant de janvier 2022 », une référence claire à la dernière fois que le modèle linguistique de grande taille a été mis à jour. Cependant, ce n’est pas toujours aussi simple, comme le démontre le cas d’Amberlihisar. « Nous avons trouvé cet article sur cette prétendue forteresse ottomane », a expliqué Lebleu. Sur la page, il était écrit :

« La forteresse a été conçue par l’architecte arménien Ostad Krikor Baghsarajian. La construction de la forteresse a été achevée en utilisant une combinaison de matériaux en pierre et en briques, avec des artisans et des constructeurs venus de la région de la Roumélie pour travailler sur le projet. Le bois pour la forteresse provenait des forêts le long de la côte de la mer Noire. La durée de la construction n’est pas spécifiée, mais il est connu que la forteresse a été complétée en 1466. Il est probable que la construction ait nécessité plusieurs années pour être achevée. »

La forteresse n’a jamais existé, mais certains détails de l’article sont réels, par exemple Mehmed le Conquérant, ou Mehmed II, est un personnage historique réel. De plus, la page mentionnait également des sources pour donner de la véracité aux faits rapportés. « C’était une illusion générée par l’intelligence artificielle, mais avec des citations bien formatées faisant référence à des œuvres complètement fictives ».

Pourquoi est-il si difficile de détecter les textes générés par l’IA

« Bien que j’aimerais penser que les Wikipédiens sont compétents pour détecter et supprimer les contenus générés par l’IA, il est indéniable que beaucoup de matériel échappe à leur vigilance », a expliqué Queen of Hearts, un autre membre fondateur de WikiProject AI Cleanup. L’activité de contrôle ne peut pas reposer uniquement sur quelques bénévoles, il est nécessaire de développer des outils pour détecter la présence de contenus générés par l’intelligence artificielle.

Cependant, comme l’explique Lebleu, pour l’instant, « il n’existe pas de ‘machine oraculaire’ qui puisse distinguer parfaitement le texte de l’IA de celui non-IA. Ces outils de détection d’IA sont souvent imprécis et efficaces uniquement sur des modèles plus anciens comme GPT-2. » Les humains restent donc, pour l’instant, le meilleur antidote contre les contenus générés par l’IA. « Les membres de l’équipe sont familiers à la fois avec les directives de rédaction de Wikipedia et avec les mots-clés LLM courants, et ils sont souvent plus efficaces pour identifier les contenus d’IA dans ce contexte spécifique ».