Quelque chose à anticiper : Le grand modèle de langage ChatGPT a été dévoilé en novembre 2022 et, en seulement quelques mois, la technologie a suscité une multitude de tests et d’accusations venant de différents horizons d’Internet. OpenAI, l’entreprise qui a développé l’algorithme, commence maintenant à donner des réponses initiales et prudentes pour faire face à cette test.
LLM de ChatGPT a été développé en collectant de vastes quantités de contenu Internet librement disponible, un fait que OpenAI reconnaît volontiers. L’entreprise fournit désormais des instructions sur la manière dont les webmasters, les administrateurs de serveurs et les entreprises Internet peuvent empêcher sa technologie de crawl d’accéder à leurs sites Web.
Dans un message officiel, OpenAI explique que GPTBot est le bot web de l’entreprise conçu pour collecter du contenu Internet gratuit pour l’entraînement de ChatGPT. Les pages Web parcourues avec l’agent utilisateur « GPTBot » peuvent être utilisées pour améliorer les futurs modèles LLM, comme mentionné par OpenAI. Le crawler utilise des filtres pour exclure les sources payantes, les sites connus pour collecter des informations personnellement identifiables ou les textes qui enfreignent les politiques de l’entreprise.
OpenAI affirme que permettre à GPTBot d’accéder à un site peut contribuer à améliorer l’exactitude des modèles d’IA, aidant ainsi ChatGPT à améliorer sa capacité globale et sa « sécurité ». Cependant, les personnes et les entreprises qui ne souhaitent pas contribuer gratuitement à l’amélioration de ChatGPT ont la possibilité de désactiver le crawler. Cela peut être réalisé en ajustant les règles du fichier « robots.txt » pour empêcher GPTBot d’accéder à leur site Web ou domaine.
Le fichier texte robots.txt met en œuvre le protocole d’exclusion des robots, couramment utilisé par les sites Web pour permettre ou empêcher partiellement ou totalement le balayage de leur contenu par les robots d’exploration. Ce protocole repose sur le respect volontaire des entités de balayage Web, et tous les robots Web n’adhèrent pas aux règles de désactivation personnalisées. OpenAI semble s’engager à respecter les règles de robots.txt, allant jusqu’à fournir le bloc d’adresses IP utilisé par son crawler pour simplifier le processus de blocage.
Avant la nouvelle règle de blocage, Deviant Art a introduit sa propre balise « NoAI » pour les artistes qui souhaitaient exclure leur contenu de l’entraînement non rémunéré de LLM. Cependant, l’utilisation de robots.txt offre beaucoup plus de contrôle aux sociétés tierces et aux webmasters, à condition qu’OpenAI respecte ses propres réglementations proposées.
Il est important de souligner que l’entreprise a récemment soutenu un document suggéré par la Maison Blanche qui s’engage à poursuivre volontairement le développement de l’IA de manière sûre, sécurisée et digne de confiance.
Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :
