GPTZero : comment détecter le plagiat de ChatGPT

1723257011 Gptzero Comment Detecter Le Plagiat De Chatgpt.jpg

Dans le paysage technologique moderne, l’émergence de ChatGPT a suscité des réflexions profondes sur l’écriture et la programmation. Toutefois, cette innovation pose de nouveaux défis, notamment en matière d’intégrité académique. Les enseignants cherchent désormais des solutions pour identifier l’utilisation de cet outil par les étudiants, soulevant des questions essentielles sur l’éducation et l’apprentissage.

En matière de technologies révolutionnaires, ChatGPT a indéniablement eu un impact énorme sur la manière dont les personnes abordent l’écriture et la programmation en peu de temps.

Cependant, cette capacité présente un inconvénient majeur, surtout dans le domaine éducatif, où les étudiants sont tentés d’utiliser ChatGPT pour rédiger leurs devoirs ou lors des examens. Ce type de plagiat empêche les élèves d’apprendre pleinement et a créé un nouveau casse-tête pour les enseignants : détecter l’utilisation de l’intelligence artificielle.

Les enseignants et d’autres utilisateurs cherchent désormais des moyens pour repérer l’usage de ChatGPT dans les travaux des étudiants, et beaucoup se dirigent vers des outils comme GPTZero, un outil de détection de ChatGPT développé par Edward Tian, étudiant à l’université de Princeton. Le logiciel est accessible à tous, alors si vous souhaitez l’essayer pour évaluer les chances qu’un texte ait été rédigé à l’aide de ChatGPT, voici comment procéder.

Qu’est-ce que GPTZero ?

Une illustration générée par MidJourney montrant un étudiant et son ami robot devant un tableau noir.

GPTZero est une application web et un service destiné à déterminer si un texte a été rédigé par un humain ou par une intelligence artificielle. Actuellement, le système peut prétendument détecter les résultats de divers grands modèles de langage tels que ChatGPT, GPT-4 et Claude, ainsi que de vérifier si un texte a été écrit par un humain en collaboration avec une IA.

Conçu et lancé pour la première fois en janvier 2023 par Edward Tian, un étudiant de 22 ans en informatique à Princeton et ancien stagiaire en ingénierie logicielle chez Microsoft, GPTZero est basé sur les recherches du candidat au doctorat de Princeton, Sreejan Kumar, ainsi que sur le travail du groupe de traitement du langage naturel de l’université.

l’analyse repose sur des recherches continues avec @sreejan_kumar et @princeton_nlp. Nous espérons publier bientôt quelque chose de concret. En attendant, c’était amusant de créer cette application 🙂

— Edward Tian (@edward_the6) 3 janvier 2023

GPTZero est-il gratuit ?

Bien que GPTZero ait été conçu pour les éducateurs, il est accessible gratuitement à tout un chacun. Avec un compte gratuit, vous pouvez analyser 40 documents par heure et accéder au tableau de bord de GPTZero. Le plan Essentiel à 10 $/mois permet d’analyser jusqu’à 150 000 mots par mois et donne accès à des modèles de détection d’IA « premium », ainsi qu’à des fonctionnalités de « détection de plagiat » et des retours sur la « grammaire et l’écriture avancées ». Le forfait Premium à 16 $/mois augmente la limite à 300 000 mots par mois et inclut un « scan approfondi de l’IA » ainsi qu’une détection multilingue de l’IA, en plus des avantages au niveau Pro. L’abonnement professionnel le plus coûteux à 16 $/mois permet de traiter 500 000 mots par mois, avec un surplus de 10 millions de mots. Ça fait pas mal de plagiat potentiel.

GPTZero est-il précis ?

Bien que GPTZero prétende être très efficace, certains utilisateurs trouvent que son degré de précision est « incohérent, souvent en étiquetant des textes écrits par des humains comme générés par l’IA et en éprouvant des difficultés avec certains types de textes produits ». Après une suggestion d’un utilisateur de Reddit, j’ai demandé à ChatGPT d’écrire une courte histoire sur le livre Le Vieil Homme et la Mer comme si c’était un élève de lycée. GPTZero n’a pas été dupe.

ChatGPT écrivant comme un élève de lycée

J’ai réessayé, modifiant le texte avec une ponctuation mal placée, un temps verbal incorrect et d’autres petites erreurs, mais GPTZero a toujours déclaré : « votre texte est probablement entièrement rédigé par l’IA. »

La vérification a correctement identifié l’origine d’un passage comme étant d’une IA même en utilisant d’autres générateurs de texte que Claude ou GPT-4. J’ai fait rédiger un rapport différent sur Le Vieil Homme et la Mer à Gemini 1.5 Pro, mais GPTZero l’a également détecté.

La précision de GPTZero est encore en cours d’évaluation, mais sur la base de ces tests anecdotiques, il semble fonctionner de manière satisfaisante.

Si vous utilisez GPTZero, gardez à l’esprit qu’il est possible de faire des erreurs. Lorsque vous utilisez GPTZero pour détecter des textes de l’IA ou que ChatGPT vous aide à rédiger un document, il est important de vérifier le travail pour des erreurs.

Comment fonctionne GPTZero ?

L'évaluation des textes par GPTZero inclut des statistiques de perplexité et de variabilité.

GPTZero analyse le degré de « perplexité » du texte, qui mesure son aléatoire, et la « burstiness », ou uniformité de cette perplexité, dans le texte. Une IA présente une cohérence élevée en termes de perplexité et de burstiness, tandis que les rédacteurs humains varient ces caractéristiques de manière inconsciente.

Le travail n’est pas terminé, et Tian souligne que d’autres tests seront ajoutés pour améliorer la précision de la détection des textes IA. Plus particulièrement, le biais implicite est un domaine en exploration pour détecter si le texte est généré par une IA.

nous étudions encore le biais implicite dans les textes générés par les modèles de langage, donc nous espérons ajouter quelques tests et critères supplémentaires pour améliorer le modèle

— Edward Tian (@edward_the6) 3 janvier 2023

Comment utiliser GPTZero ?

GPTZero est disponible sur son site web. Il suffit de copier le texte que vous souhaitez vérifier et de le coller dans la grande zone intitulée Essayez-le.

Le site de GPTZero est assez simple avec une zone de texte et un bouton de soumission.

Il est également possible de télécharger un fichier PDF, un document Word ou un fichier texte, puis de cliquer sur le bouton Obtenir les résultats. Assurez-vous également de cocher la case indiquant que vous acceptez les conditions d’utilisation.

Alternatives à GPTZero

GPTZero n’est pas le seul détecteur de plagiat alimenté par l’IA sur le marché. OpenAI propose un détecteur de sortie GPT-2 et aurait développé une version mise à jour, bien qu’aucune annonce sur sa date de sortie ne soit faite. D’autres options incluent Content at Scale AI Content Detection, ZeroGPT, Writefull GPT Detector et Originality.ai, chacun offrant des services similaires avec des niveaux de précision divers.

Pourquoi mes écrits sont-ils signalés comme étant générés par l’IA ?

Avec la montée de ChatGPT et des outils de détection de l’IA, les écrivains et les lecteurs s’inquiètent maintenant de la manière de déterminer si un contenu est généré par l’IA et si un véritable écrit est étiqueté comme tel. Cela pose un problème particulier pour les étudiants, qui pourraient faire face à des conséquences de la part de leurs établissements s’ils sont suspectés d’utiliser l’IA. Certains étudiants passent maintenant régulièrement leurs propres travaux originaux à travers des détecteurs comme GPTZero, ne réalisant pas que certaines phrases sont signalées comme écrites par l’IA alors qu’elles ne le sont pas.

En 2024, Ian Bogost, un auteur pour The Atlantic, a décrit avoir vérifié ses travaux originaux avec un logiciel de détection de plagiat, découvrant que 74% de son travail était initialement signalé comme plagié. Après des vérifications minutieuses et des suppressions, il a réussi à ramener ce chiffre à zéro, mais cela lui a pris plusieurs heures de test et d’ajustements de paramètres.

La détection de l’IA est similaire à celle du plagiat, car toutes deux ne peuvent que fournir les meilleures estimations pour déterminer si un écrit est original et rédigé par un humain ou non. Ces outils exigent une révision minutieuse, car ils peuvent produire de nombreux faux positifs. Si vous constatez que votre travail est signalé comme généré par l’IA sur GPTZero, alors cela peut être dû à divers facteurs tels qu’une maîtrise insuffisante de l’anglais, une certaine répétition de vos idées, ou l’utilisation d’un logiciel comme Grammarly.

Si votre travail est marqué comme étant de l’IA, assurez-vous que toutes vos citations et références sont correctement formatées, essayez de ne pas recourir à des outils automatiques comme Grammarly pour vos révisions.

Enfin, gardez à l’esprit que c’est l’algorithme « secret » de GPTZero qui suggère que votre écriture ressemble statistiquement à d’autres exemples trouvés sur l’ensemble de l’internet public. L’entreprise n’expliquera pas comment son produit fonctionne réellement, ni ne prouvera son efficacité devant un tribunal. Ainsi, si jamais vous êtes dans une situation délicate à cause d’un allégement de plagiat génératif, ce sera votre parole contre celle de l’entreprise. Préparez-vous et demandez-leur de prouver leurs affirmations.

A-t-on réellement besoin de vérifications de plagiat ?

Dépassement des labos de recherche où de nombreuses IA de génération de texte ont été confinées, OpenAI a lancé ChatGPT au public fin novembre 2022. Dès janvier 2023, ChatGPT comptait plus de 100 millions d’utilisateurs, ce qui en réalité l’application publique à la croissance la plus rapide.

Cela signifie que les préoccupations concernant le plagiat vont croître avec la disponibilité croissante de cette assistance par IA dans tous les domaines de la vie. Microsoft intègre la technologie d’OpenAI dans la recherche Bing, tandis que Google teste sa propre version, nommée Gemini (anciennement Bard).

Une peinture colorée d'un robot riant, générée par Dall-E.

De plus, des générateurs d’images comme Dall-E et Stable Diffusion sont sous surveillance pour de potentiels violations de droits d’auteur. Tous ces services d’intelligence artificielle ont été entraînés sur des écrits, des photographies et des œuvres d’art créés en ligne par des milliards d’humains.

En quelque sorte, l’IA emprunte à l’intelligence humaine, sans créer de manière autonome. Si je m’inspire d’un autre humain, je dois lui donner du crédit et potentiellement payer une redevance. Avec l’IA générative, il devient plus difficile de citer une source, car chaque texte ou image est décomposé en éléments dispersés, puis réassemblé pour créer une nouvelle œuvre tirée de milliers ou millions de sources.

Nous devons soit repenser notre perception du droit d’auteur et du plagiat, soit trouver des outils qui aident à identifier le matériel généré par l’IA, et éventuellement développer une méthode de reconnaître toutes les personnes qui contribuent à chaque œuvre générée par IA.