Meta a utilisé des livres piratés pour former ses IA, des e-mails le prouvent !

Meta A Utilisé Des Livres Piratés Pour Former Ses Ia,

Un contentieux majeur : des auteurs accusent Meta d’avoir utilisé illégalement leurs œuvres pour former ses modèles d’IA. Des communications internes nouvellement révélées mettent en lumière des pratiques douteuses, ainsi que des avertissements d’employés concernant les implications légales de leurs actions. Ces révélations pourraient bouleverser la défense de l’entreprise.

Oops : Un groupe d’auteurs a poursuivi Meta, affirmant que l’entreprise avait utilisé des copies non autorisées de leurs livres pour former ses modèles d’IA générative. Bien que Meta ait nié toute faute, des messages récemment dévoilés suggèrent que des cadres et des ingénieurs étaient bien conscients de leurs actes – et qu’ils violaient le droit d’auteur.

Le procès intenté par Sarah Silverman, Richard Kadrey et d’autres écrivains et titulaires de droits contre Meta pourrait entrer dans sa phase la plus test. Les auteurs ont obtenu des emails internes de l’entreprise dans lesquels des employés de Meta discutaient ouvertement de « torrenting » d’archives bien connues de contenu piraté pour former des modèles d’IA plus puissants.

Meta a précédemment reconnu avoir utilisé certains ensembles de données controversés, arguant que de telles pratiques devraient être considérées comme un usage équitable. L’entreprise a également admis avoir téléchargé un ensemble de données massif connu sous le nom de « LibGen », qui contient des millions de livres piratés. Cependant, les emails récemment dévoilés révèlent des préoccupations plus profondes au sein de Meta concernant l’acquisition et la distribution de ces données via le réseau BitTorrent.

Selon les emails, Meta a téléchargé et partagé au moins 81,7 téraoctets de données à partir de plusieurs ensembles de données contestés, dont 35,7 téraoctets des archives Z-Library et LibGen. Les plaignants affirment que Meta s’est engagé dans un schéma de torrenting « ahurissant », distribuant des livres piratés à une échelle sans précédent.

Meta a utilise des livres pirates pour former ses IA

Dans un message d’avril 2023, le chercheur de Meta, Nikolay Bashlykov, a écrit : « torrenting depuis un ordinateur portable d’entreprise ne semble pas juste. » Le message se terminait par un émoji souriant, mais quelques mois plus tard, son ton a radicalement changé.

En septembre 2023, Bashlykov a déclaré qu’il consultait l’équipe juridique de Meta parce que l’utilisation des torrents – et donc le « semis » de téraoctets de données piratées – n’était clairement « pas acceptable » d’un point de vue légal.

Il semblerait que Meta était consciente que ses ingénieurs s’engageaient dans un torrenting illégal pour entraîner les modèles d’IA, et Mark Zuckerberg lui-même était apparemment au courant de LibGen. Pour dissimuler cette activité, l’entreprise a tenté de masquer son torrenting et son semis en utilisant des serveurs en dehors du réseau principal de Facebook. Dans un autre message interne, l’employé de Meta, Frank Zhang, a qualifié cette approche de « mode furtif ».

Comme d’autres grandes entreprises technologiques, Meta investit d’énormes sommes d’argent dans le développement de l’IA et des services d’IA générative. L’entreprise, qui vise à peupler ses réseaux sociaux vieillissants avec des personnages et des bots générés par IA, a récemment déposé une requête pour rejeter le procès dirigé par Silverman et d’autres auteurs. Cependant, les emails récemment révélés site de ventes l’implication de Meta dans le torrenting et la distribution de livres piratés pourraient compliquer fortement sa défense juridique.