Pourquoi c’est important : le plagiat basé sur l’IA devient un phénomène de plus en plus ennuyeux et dangereux, en particulier pour les publications de recherche scientifique authentiques. De nombreuses personnes (et chercheurs) tentent de développer une solution pratique contre ce genre de petitesses gênantes, et une nouvelle approche semble fonctionner particulièrement bien pour un type spécifique d’articles scientifiques.
ChatGPT est extrêmement doué pour simuler du contenu créatif créé par l’homme, même si les vrais professionnels trouvent que le chatbot est plutôt « merdique » et redondant en tant qu’écrivain. Cependant, lorsqu’il s’agit d’écriture scientifique, les chatbots peuvent passer de simples nuisances ou d’outils de triche à l’école à de véritables menaces contre la science et les bonnes pratiques de recherche.
Des recherches récemment publiées par des scientifiques de l’Université du Kansas proposent une solution potentielle au problème du plagiat basé sur l’IA, offrant une capacité assez remarquable à distinguer l’écriture scientifique réelle d’origine humaine de la sortie ChatGPT « avec une précision de plus de 99 %. Un résultat évidemment obtenu grâce à des algorithmes d’IA et à un modèle de langage spécialement formé.
La professeure de chimie Heather Desaire et ses collègues combattent l’IA par l’IA, et ils obtiennent apparemment de très bons résultats à cet égard : les chercheurs ont concentré leurs efforts sur des articles « perspectifs », un style particulier d’article publié dans des magazines scientifiques pour donner un aperçu de recherches spécifiques. les sujets.

Les scientifiques ont choisi 64 articles de perspectives, sur des sujets allant de la biologie à la physique, puis ils ont demandé à ChatGPT de générer de nouveaux paragraphes sur la même recherche pour rassembler 128 « faux » articles. L’IA a craché 1 276 paragraphes, qui ont ensuite été utilisés pour former le modèle de langage choisi par les chercheurs pour essayer de classer le texte créé par l’IA.
Deux autres ensembles de données, l’un contenant 30 articles de perspectives réelles et l’autre avec 60 articles générés par ChatGPT, ont été compilés pour tester l’algorithme nouvellement formé. Et l’algorithme a apparemment passé avec brio les tests préparés par les chercheurs : le classificateur d’IA a pu détecter les articles ChatGPT 100 % du temps, tandis que la précision de détection des faux paragraphes individuels a chuté à 92 %.
Les scientifiques disent que les chatbots mutilent le contenu textuel en utilisant un style « d’écriture » particulier, par conséquent, leur « main » pourrait être identifiée de manière assez efficace. Les scientifiques humains ont tendance à avoir un vocabulaire plus riche et à écrire des paragraphes plus longs contenant des mots et des signes de ponctuation plus variés. De plus, ChatGPT n’est pas exactement réputé pour son niveau de précision, et il a tendance à éviter de fournir des chiffres spécifiques ou de citer d’autres noms de scientifiques.
Les chercheurs du Kansas ont défini leur approche contre le plagiat de l’IA comme une étude de « preuve de concept », même si elle s’est avérée très efficace pour identifier les faux articles de perspectives. D’autres recherches (créées par l’homme) sont nécessaires pour déterminer si cette même approche pourrait être appliquée à d’autres types d’articles scientifiques ou à des productions textuelles générales créées par l’IA.
Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :

