Les sites web peuvent maintenant bloquer le robot de web crawling d'OpenAI

Quelque chose à anticiper : Le grand modèle de langage ChatGPT a été dévoilé en novembre 2022 et, en seulement quelques mois, la technologie a suscité une multitude de tests et d’accusations venant de différents horizons d’Internet. OpenAI, l’entreprise qui a développé l’algorithme, commence maintenant à donner des réponses initiales et prudentes pour faire face à cette test.

LLM de ChatGPT a été développé en collectant de vastes quantités de contenu Internet librement disponible, un fait que OpenAI reconnaît volontiers. L’entreprise fournit désormais des instructions sur la manière dont les webmasters, les administrateurs de serveurs et les entreprises Internet peuvent empêcher sa technologie de crawl d’accéder à leurs sites Web.

Dans un message officiel, OpenAI explique que GPTBot est le bot web de l’entreprise conçu pour collecter du contenu Internet gratuit pour l’entraînement de ChatGPT. Les pages Web parcourues avec l’agent utilisateur « GPTBot » peuvent être utilisées pour améliorer les futurs modèles LLM, comme mentionné par OpenAI. Le crawler utilise des filtres pour exclure les sources payantes, les sites connus pour collecter des informations personnellement identifiables ou les textes qui enfreignent les politiques de l’entreprise.

OpenAI affirme que permettre à GPTBot d’accéder à un site peut contribuer à améliorer l’exactitude des modèles d’IA, aidant ainsi ChatGPT à améliorer sa capacité globale et sa « sécurité ». Cependant, les personnes et les entreprises qui ne souhaitent pas contribuer gratuitement à l’amélioration de ChatGPT ont la possibilité de désactiver le crawler. Cela peut être réalisé en ajustant les règles du fichier « robots.txt » pour empêcher GPTBot d’accéder à leur site Web ou domaine.

Le fichier texte robots.txt met en œuvre le protocole d’exclusion des robots, couramment utilisé par les sites Web pour permettre ou empêcher partiellement ou totalement le balayage de leur contenu par les robots d’exploration. Ce protocole repose sur le respect volontaire des entités de balayage Web, et tous les robots Web n’adhèrent pas aux règles de désactivation personnalisées. OpenAI semble s’engager à respecter les règles de robots.txt, allant jusqu’à fournir le bloc d’adresses IP utilisé par son crawler pour simplifier le processus de blocage.

Avant la nouvelle règle de blocage, Deviant Art a introduit sa propre balise « NoAI » pour les artistes qui souhaitaient exclure leur contenu de l’entraînement non rémunéré de LLM. Cependant, l’utilisation de robots.txt offre beaucoup plus de contrôle aux sociétés tierces et aux webmasters, à condition qu’OpenAI respecte ses propres réglementations proposées.

Il est important de souligner que l’entreprise a récemment soutenu un document suggéré par la Maison Blanche qui s’engage à poursuivre volontairement le développement de l’IA de manière sûre, sécurisée et digne de confiance.

Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :

Les sites web peuvent maintenant bloquer le robot de web crawling d’OpenAI

Offres JIMMY Prime Day : Grosses réduction sur les purificateurs d’eau et aspirateurs anti-acariens

Lymow One Plus : la tondeuse autonome aux doubles lames rotatives à -18% !

Jimmy : Aspirateurs anti-acariens indispensables en promo jusqu’au 26 juin !

Qu’est-ce que l’itinérance des données sur mobile et quand faut-il l’activer

Des rétines humaines « ressuscitées » ont réagi à la lumière dix heures après la mort

Vous avez un iPhone 17 les 3 meilleures coques chargeur et protection dont vous avez besoin

Tu n’es pas fou, il y a une raison pour laquelle la batterie de ton téléphone tient moins longtemps en été

Tout ce que vous pouvez faire pour résoudre les problèmes de l’application Cita Sanitaria avant de vous décourager

TEST UGREEN Maxidok 17 en 1 Thunderbolt 5 : Notre verdict sur la station d’accueil qui fait tout

TEST AFERIY P280 + Extension : Batterie de 4096Wh à 1439€, le meilleur rapport qualité-prix ?

TEST UGREEN Maxidok 10 en 1 Thunderbolt 5 pour Mac Mini : La station d’accueil parfaitement taillée ?