OpenAI a transcrit plus d’un million d’heures de vidéos YouTube pour former ses LLM, Google s’est engagé dans la même pratique

OpenAI transcribed over a million hours of YouTube videos to train its LLMs, Google engaged in same practice

En bref : L’un des nombreux éléments controversés entourant les IA génératives et les données d’entraînement de leurs grands modèles de langage (LLM) concerne les violations potentielles du droit d’auteur. C’est un sujet à nouveau sous le feu des projecteurs suite à un rapport selon lequel OpenAI a transcrit plus d’un million d’heures de vidéos YouTube pour entraîner GPT-4. Pourquoi Google, propriétaire de YouTube, ne s’est-il pas opposé ? Parce que ça faisait la même chose.

Afin d’accéder à des textes en anglais plus réputés sur Internet en 2021, les chercheurs d’OpenAI ont créé un outil de reconnaissance vocale appelé Whisper, écrit le New York Times. Il a été conçu pour transcrire l’audio des vidéos YouTube, fournissant ainsi à l’entreprise une mine de données pour former ses LLM.

OpenAI savait que la récupération des données YouTube était légalement discutable, mais l’a quand même fait, en supposant qu’une telle action serait un usage loyal. Le Times écrit que le président d’OpenAI, Greg Brockman, a été personnellement impliqué dans la collecte de vidéos transcrites.

On pourrait imaginer que Google ne soit pas satisfait des actions d’OpenAI, mais cela aurait été hypocrite étant donné que Google a également transcrit des vidéos YouTube pour ses modèles d’IA, violant potentiellement le hardware protégé par le droit d’auteur des créateurs.

Le PDG de YouTube, Neal Mohan, a déclaré lors d’un entretien avec Bloomberg la semaine dernière que les conditions d’utilisation de la plateforme n’autorisent pas les transcriptions ou le téléchargement non autorisés de contenu vidéo. Interrogé sur la transcription d’OpenAI, il a répondu : « J’ai vu des rapports selon lesquels elle aurait pu ou non être utilisée. Je n’ai aucune information moi-même. »

Le porte-parole de Google, Matt Bryant, a répété les règles du ToS, ajoutant que l’entreprise prenait des « mesures techniques et juridiques » pour empêcher ce type de pratique non autorisée « lorsque nous disposons d’une base juridique ou technique claire pour le faire ». Google a déclaré que ses modèles d’IA « sont formés sur certains contenus YouTube » autorisés dans le cadre d’accords avec les créateurs.

OpenAI a transcrit plus dun million dheures de videos YouTube

Le NY Times indique que Google a élargi ses conditions de service, lui donnant davantage de droits pour utiliser les données des consommateurs telles que Google Docs accessibles au public et les test de restaurants sur Google Maps pour les modèles d’IA de l’entreprise. La politique révisée a été publiée le 1er juillet dans l’espoir que le week-end du Jour de l’Indépendance servirait de distraction.

Meta envisagerait également des méthodes douteuses pour obtenir plus de données pour sa formation LLM. Le New York Times écrit que la société mère de Facebook a envisagé de collecter des données protégées par le droit d’auteur sur Internet, même si cela impliquait des poursuites judiciaires, car les négociations avec les titulaires de licence prendraient trop de temps.

Des milliers d’organisations et d’individus portent plainte et engagent des poursuites contre de grandes sociétés d’IA pour l’utilisation de leur contenu sans paiement ni reconnaissance. Le New York Times poursuit OpenAI et Microsoft pour avoir utilisé ses articles de presse protégés par le droit d’auteur. En février, OpenAI a accusé la publication d’avoir payé quelqu’un pour « pirater » son célèbre chatbot et d’autres produits afin de générer des preuves trompeuses étayant ces affirmations.

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

Youtube video