Les responsables de l’étude soulignent l’importance de pouvoir détecter les textes générés par IA afin de vérifier leur validité scientifique et prévenir la diffusion de la désinformation

Il n’est pas nouveau que les IA génératives sont utilisées pour générer des œuvres écrites de toutes sortes. En fait, en mars de l’année dernière, nous parlions du fait qu’il y avait plus de 200 livres sur Amazon écrits avec ChatGPT ou une IA générative similaire, étant alors très difficiles à distinguer des livres écrits par de vraies personnes. De la même manière, l’écrivaine Jane Friedman a découvert des livres écrits par une IA et signés de son nom.
Et le fléau des textes générés par IA ne se limite pas seulement à la littérature, mais concerne au moins 10 % des articles académiques rédigés entre 2022 et aujourd’hui. C’est du moins ce que nous disent dans cet article paru dans Wired, où des scientifiques de l’Université de Tübingen et de Northwestern ont développé une méthode pour les trouver.
L’utilisation excessive de certains mots, un problème que l’IA n’a pas encore corrigé
Dans l’étude, consultable publiquement, les chercheurs ont déterminé que les IA génératives utilisent certains mots de manière excessive, une tendance qui a augmenté de manière exponentielle depuis l’émergence d’autres grands modèles de langage concurrents à ChatGPT. Cette augmentation aurait atteint son apogée entre 2023 et l’année actuelle, moment de la plus grande popularité des IA.
Les résultats de l’étude indiquent que certains termes courants dans les articles scientifiques ont été accrus jusqu’à 90 % dans certains cas, les principaux coupables étant « approfondir », « exposer », « souligner » et « potentiel » qui sont apparus dans les résultats.
Tout comme avec le langage naturel, le langage des IA comprend également des termes qui sont en usage ou tombent en désuétude selon l’époque, selon l’étude. Au début, repérer tous ces marqueurs n’était pas facile, mais une fois le progrès accompli, il a été très rapide et de plus en plus d’articles générés par IA étaient découverts.
Il est important de détecter l’utilisation de l’IA dans ce type d’écrits, en raison de la capacité à inventer des données que la plupart ont et, par conséquent, à contribuer à propager des mensonges et de la désinformation ; l’un des principaux points de contention pour ceux qui les développent.
