On y va encore une fois: Des entreprises géantes, dont Apple et NVIDIA, ont utilisé des transcriptions vidéo de milliers de créateurs YouTube pour former des IA sans leur consentement ni compensation. La nouvelle n’est pas si surprenante, car elle semble normale. Elles rejoignent simplement les rangs de Microsoft, Google, Meta et OpenAI dans l’utilisation contraire à l’éthique de hardware protégé par le droit d’auteur.
Une enquête menée par Proof News a révélé que certaines des entreprises d’IA les plus riches, dont Anthropic, NVIDIA, Apple et Salesforce, ont utilisé du contenu provenant de milliers de vidéos YouTube pour former leurs modèles d’IA. Cette pratique contredit directement les conditions d’utilisation de YouTube, qui interdisent la collecte de données sur la plateforme sans autorisation, mais s’inscrit dans une tendance établie par Google, OpenAI et d’autres.
Les données, appelées « YouTube Subtitles », sont un sous-ensemble d’un ensemble de données plus vaste appelé « The Pile ». Il comprend des transcriptions de 173 536 vidéos YouTube provenant de plus de 48 000 chaînes couvrant des fournisseurs de contenu éducatif comme Khan Academy, MIT et Harvard, ainsi que des médias populaires comme The Wall Street Journal, NPR et la BBC. Le cache comprend même des émissions de divertissement comme « The Late Show With Stephen Colbert ». Même les mégastars de YouTube comme MrBeast, Jacksepticeye et PewDiePie ont du contenu dans le cache.
Alex Reisner, collaborateur de Proof News, a découvert The Pile l’année dernière. Il contient des bribes de tout, des livres et articles universitaires protégés par le droit d’auteur aux conversations en ligne et aux transcriptions de sous-titres YouTube. En réponse à cette découverte, Reisner a créé une base de données consultable du contenu, car il estimait que les propriétaires de propriété intellectuelle devaient savoir si les entreprises d’IA utilisaient leur travail pour entraîner leurs systèmes.
« Je pense qu’il est difficile pour nous, en tant que société, d’avoir une conversation sur l’IA si nous ne savons pas comment elle est construite », a déclaré Reisner. « J’ai pensé que les créateurs de YouTube pourraient vouloir savoir que leur travail est utilisé. C’est également pertinent pour quiconque publie des vidéos, des photos ou des écrits n’importe où sur Internet, car à l’heure actuelle, les entreprises d’IA abusent de tout ce qui leur tombe sous la main. »

David Pakman, animateur de « The David Pakman Show », a exprimé sa frustration, révélant avoir trouvé près de 160 de ses vidéos dans l’ensemble de données. Ces transcriptions ont été extraites de sa chaîne, stockées et utilisées à son insu. Pakman, dont la chaîne fait vivre quatre employés à temps plein, a fait valoir qu’il méritait une compensation si des entreprises d’IA bénéficiaient financièrement de son travail. Il a souligné les efforts et les ressources considérables investis dans la création de son contenu, qualifiant l’utilisation non autorisée de vol.
« Personne n’est venu me voir pour me dire : « Nous aimerions utiliser ce contenu », a déclaré Pakman. « C’est mon gagne-pain, et j’y consacre du temps, des ressources, de l’argent et du personnel. Le travail ne manque pas. »
Dave Wiskus, PDG du service de streaming Nebula, détenu par des créateurs, a fait écho à ce sentiment, qualifiant cette pratique d’irrespectueuse et d’exploiteuse. Il a averti que l’IA générative pourrait potentiellement remplacer les artistes et nuire à l’industrie créative. Le problème est aggravé par le fait que certains grands producteurs de contenu comme l’Associated Press signent des contrats lucratifs avec des créateurs d’IA tandis que les plus petits se font voler leur travail sans préavis.
L’enquête a révélé qu’EleutherAI est la société à l’origine de la base de données The Pile. Son objectif déclaré est de mettre à la disposition de tous les utilisateurs des technologies d’IA de pointe. Cependant, ses méthodes soulèvent des questions éthiques, notamment celles liées aux accords secrets conclus avec les grands acteurs de l’IA. Plusieurs développeurs d’IA, dont des géants technologiques de plusieurs milliards de dollars comme Apple et NVIDIA, ont utilisé la base de données The Pile pour former leurs modèles. Aucune des entreprises impliquées n’a répondu aux demandes de commentaires.
Les législateurs ont tardé à réagir aux diverses menaces que représente l’IA. Après des années d’avancées et d’abus de la technologie deepfake, le Sénat américain a finalement présenté un projet de loi visant à limiter les abus de deepfake et d’IA, baptisé « Content Origin Protection and Integrity from Edited and Deepfaked Media Act » ou COPIED Act. Le projet de loi vise à créer un cadre pour la zone grise juridique et éthique du développement de l’IA. Il promet entre autres la transparence et la fin du vol généralisé de propriété intellectuelle via le scraping d’Internet.
Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

