Les répercussions d’un récent procès révèlent des pratiques controversées de l’IA générative. En détruisant des millions de livres physiques pour entraîner son modèle, une entreprise a changé la donne dans le domaine. Les implications légales et éthiques de cette stratégie soulèvent des questions cruciales pour l’avenir de la technologie.
L’IA générative a déjà fait l’objet de vives critiques en raison de ses problèmes de fiabilité, de sa consommation massive d’énergie et de l’utilisation non autorisée de hardware protégé par le droit d’auteur. Un récent procès a mis en lumière une pratique choquante : la destruction à grande échelle de livres physiques pour entraîner ces modèles IA.
Embouillé dans les détails d’un jugement partagé contre Anthropic, une révélation surprenante a émergé : la société d’IA générative a détruit des millions de livres en découpant leurs reliures et en jetant les restes, tout cela pour entraîner son assistant IA. Étonnamment, cette destruction a été citée comme un facteur ayant influencé la décision du tribunal en faveur d’Anthropic.
Pour construire Claude, son modèle de langage concurrent de ChatGPT, Anthropic a utilisé autant de livres que possible. L’entreprise a acheté des millions de volumes physiques et les a numérisés en déchirant et en scannant les pages, détruisant ainsi les livres de manière permanente.

De plus, Anthropic n’a aucune intention de rendre les copies numériques résultantes disponibles au public. Ce détail a convaincu le juge que la numérisation et l’extraction des livres constituaient une transformation suffisante pour être qualifiées d’utilisation équitable. Bien que Claude utilise probablement cette bibliothèque numérisée pour générer du contenu unique, des critiques ont montré que les grands modèles de langage pouvaient parfois reproduire des matériaux tels quels à partir de leurs données d’entraînement.
La victoire légale partielle d’Anthropic lui permet maintenant d’entraîner des modèles IA sur des livres protégés sans notifier les éditeurs ou les auteurs originaux, éliminant potentiellement un des plus grands obstacles pour l’industrie de l’IA générative. Un ancien cadre de Metal a récemment admis que l’IA s’effondrerait du jour au lendemain si elle devait se conformer à la législation sur le droit d’auteur, probablement parce que les développeurs n’auraient pas accès aux vastes bases de données nécessaires pour entraîner de grands modèles de langage.
Cela dit, les combats en cours sur le droit d’auteur continuent de poser une menace majeure pour la technologie. Plus tôt ce mois-ci, le PDG de a reconnu que la société ne pouvait pas se permettre de contester chaque violation de droit d’auteur liée à l’IA. Pendant ce temps, le procès de Disney contre Midjourney – où la société a démontré la capacité du générateur d’images à reproduire du contenu protégé – pourrait avoir des conséquences significatives pour l’écosystème global de l’IA générative.
Cependant, le juge de l’affaire Anthropic a jugé contre l’entreprise pour avoir partiellement reposé sa formation de Claude sur des bibliothèques de livres piratés. Anthropic devra encore faire face à un procès pour droit d’auteur en décembre, où elle pourrait être condamnée à verser jusqu’à 150 000 € par œuvre piratée.
