OpenAI ne veut pas que tu saches que ChatGPT a été entraîné à l’aide de livres protégés par des droits d’auteur

OpenAI no quiere que sepas que ChatGPT se entrenó usando libros protegidos por derechos de autor

IA pourrait avoir appris en utilisant des livres de J.K. Rowling.

OpenAI ne veut pas que vous sachiez que ChatGPT a été formé en utilisant des livres protégés par des droits d'auteur
OpenAI est l’entreprise derrière ChatGPT

ChatGPT-4 est peut-être l’une des grandes avancées technologiques de ces dernières années. Cependant, il y a de nombreuses raisons d’être sceptique quant à ses performances actuelles. Tout d’abord, il ne peut pas rivaliser avec les informaticiens car il ne répond correctement qu’à la moitié des questions. Ainsi, ce qui suscitait auparavant des doutes sur les professions qui allaient disparaître à cause de lui a maintenant suscité beaucoup de scepticisme, car il semble que le service se soit légèrement détérioré.

Dans ce contexte, il existe plusieurs manières d’apprentissage de l’IA qui ont été plus que discutables, car elle a été formée en utilisant des livres protégés par des droits d’auteur, ce qui pourrait constituer une grave violation de ces droits mais qui semble avoir été dissimulée. Cette dissimulation et cette dissimulation de l’information n’ont pas été utiles à l’entreprise derrière l’IA, car il semble que l’information se soit répandue dans tous les coins du réseau.

OpenAI a utilisé, semble-t-il, des livres protégés par des droits d’auteur

Tous les modèles de langage (LLM) actuellement formés ont utilisé de grands volumes de données par l’IA. Ce n’est pas surprenant, car pour qu’une IA soit fiable, elle doit utiliser une quantité massive d’informations pour pouvoir comparer, avoir plus de perspectives et apprendre à distinguer l’essentiel du superflu. De nombreux modèles de langage, la plupart étant en code source ouvert, utilisent des données également en code source ouvert, s’inspirant d’une série de connaissances disponibles en ligne pour tous.

En revanche, les IA propriétaires utilisent des quantités gigantesques de données provenant de leurs propres entreprises, ainsi que d’autres contenus de tiers protégés par des droits d’auteur. Le problème est que ces données n’ont pas été accordées, mais simplement prises et utilisées. Selon Business Insider, lorsque l’on leur a demandé pourquoi ils utilisaient ces données, les entreprises ont retiré la source de données qu’elles utilisaient du domaine public. Cela montre, comme il est évident, qu’elles étaient conscientes que ce qu’elles faisaient ne serait prétendument pas légal.

Parmi les livres utilisés pour apprendre se trouve la saga en sept volumes de Harry Potter de l’écrivaine J.K. Rowling.

Selon le même média, ils tentent maintenant de faire en sorte que l’IA ne réponde pas avec des extraits littéraux de ces livres, mais qu’ils soient réécrits comme si l’argument d’autorité avait été émis par l’IA elle-même et non par une source secondaire. Cela va à l’encontre du style suivi par d’autres IA basées sur ChatGPT, comme Bing, qui fournissent toujours les sources des informations utilisées.

En résumé :

  • Pour alimenter l’algorithme de l’IA, de grands volumes de données sont utilisés, dont beaucoup sont protégés par des droits d’auteur.
  • Cela est préjudiciable à tous les créateurs qui voient leur information utilisée sans autorisation.
  • Les entreprises derrière ces actes ont choisi de garder cela secret.
  • Les IA en code source ouvert n’utilisent que des informations en code source ouvert.

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

YouTube video