Après Reddit, même Automattic, la société propriétaire de WordPress et Tumblr, serait en négociation avec OpenAI et Midjourney pour vendre les données dont elle dispose : celles-ci seront utilisées comme base d’entraînement pour les nouveaux modèles d’IA générative.

Si vous avez déjà posé une question à ChatGPT, vous vous êtes probablement demandé d’où le chatbot d’OpenAI tire toutes les informations nécessaires pour pouvoir répondre à vos questions ou exécuter vos demandes. Eh bien, la réponse n’est pas si simple : ChatGPT, comme les autres modèles de langage à grande échelle (LLM), a été entraîné sur un énorme ensemble de données de textes, extraits de livres, d’articles et de contenus web.
Donc, la principale source de collecte de données pour les chatbots est le web, mais il est clair que les entreprises d’IA cherchent à obtenir de plus en plus de données afin de les utiliser dans l’entraînement des nouveaux modèles d’IA. Il est donc dans leur intérêt d’acquérir une quantité croissante de données et pour ce faire, elles sont prêtes à les acheter, même à prix élevé. Par exemple, mi-février, un accord de 60 millions de dollars entre Reddit et une entreprise d’IA a été annoncé, dans lequel celle-ci a acheté les données de ses utilisateurs.
Mais le réseau social américain ne serait pas la seule entité intéressée à vendre les données dont elle dispose pour gonfler ses coffres : d’autres seraient prêtes à le faire dans un monde pas toujours aussi clair. Parmi elles, il y aurait aussi Automattic, la société mère de Tumblr et WordPress, qui pourrait être sur le point de vendre les données des millions d’utilisateurs à OpenAI et Midjourney. Cependant, quelque chose a peut-être mal tourné.
Quelles sont les entreprises qui pourraient vendre leurs données
Rien n’est encore officiel, mais selon ce que 404 Media a découvert grâce à une source anonyme, Tumblr et WordPress seraient en négociation avec Midjourney, le système d’intelligence artificielle de génération d’images, et OpenAI, pour céder les données des utilisateurs aux deux entreprises.
À partir de documents confidentiels que la source interne chez Automattic a montrés à 404 Media, il n’est pas possible de déterminer le type de données qui pourraient être bientôt cédées, mais apparemment, il y a eu une erreur de communication dans la phase de sélection des données à remettre aux acheteurs : parmi celles-ci pourraient se trouver des données confidentielles qu’Automattic n’aurait pas le droit de céder. Il n’est cependant pas clair si ces données ont déjà été envoyées ou si les responsables de l’accord s’en sont rendu compte à temps et ont pu bloquer le transfert des données.
Le problème des données confidentielles
Plus précisément, la source anonyme a montré un message interne de Cyle Gage, chef de produit chez Tumblr, où l’on apprend que parmi ces données se trouvent également des informations provenant de « messages privés sur des blogs publics, de messages sur des blogs supprimés ou suspendus, de questions sans réponse (qui ne sont normalement pas publiques tant qu’elles n’ont pas reçu de réponse), de réponses privées (qui ne sont visibles que par le destinataire et ne sont pas publiques), de messages marqués comme « à caractère explicite » selon nos dernières normes ».
Après que la nouvelle de l’accord hypothétique avec Midjourney et OpenAI a fuité, il semble qu’Automattic ait l’intention de lancer, au cours de la première semaine de mars, un nouveau paramètre sur ses plateformes qui permettra aux utilisateurs de renoncer au partage de leurs données avec des tiers, y compris les sociétés d’IA. Dans une nouvelle section des FAQ examinée en exclusivité par 404 Media, intitulée « Que se passe-t-il lorsque vous renoncez ? », il est mentionné que « si vous renoncez dès le départ, l’accès à vos contenus sera bloqué en ajoutant votre compte à une liste d’utilisateurs dont les données ne peuvent pas être cédées ».
