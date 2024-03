Après Reddit, même Automattic, la société propriétaire de WordPress et Tumblr, serait en négociation avec OpenAI et Midjourney pour vendre les données dont elle dispose : celles-ci seront utilisées comme base d’entraînement pour les nouveaux modèles d’IA générative.

Si vous avez déjà posé une question à ChatGPT, vous vous êtes probablement demandé d’où le chatbot d’OpenAI tire toutes les informations nécessaires pour pouvoir répondre à vos questions ou exécuter vos demandes. Eh bien, la réponse n’est pas si simple : ChatGPT, comme les autres modèles de langage à grande échelle (LLM), a été entraîné sur un énorme ensemble de données de textes, extraits de livres, d’articles et de contenus web.

Donc, la principale source de collecte de données pour les chatbots est le web, mais il est clair que les entreprises d’IA cherchent à obtenir de plus en plus de données afin de les utiliser dans l’entraînement des nouveaux modèles d’IA. Il est donc dans leur intérêt d’acquérir une quantité croissante de données et pour ce faire, elles sont prêtes à les acheter, même à prix élevé. Par exemple, mi-février, un accord de 60 millions de dollars entre Reddit et une entreprise d’IA a été annoncé, dans lequel celle-ci a acheté les données de ses utilisateurs.