En bref : Le droit à l’oubli, également connu sous le nom de droit à l’effacement dans le cadre du règlement européen GDPR, permet aux individus de demander aux entreprises technologiques de supprimer définitivement leurs données personnelles. Toutefois, en ce qui concerne les LLM et les chatbots d’IA, la technologie n’a pas encore fourni de solutions claires aux utilisateurs qui souhaitent voir leur personnalité numérique disparaître du monde.
Une nouvelle étude menée par des chercheurs de la Data61 Business Unit, division de la National Science Agency australienne spécialisée dans l’intelligence artificielle, la robotique et la cybersécurité, cherche à évaluer les implications de la popularité croissante des grands modèles de langage (LLM) et des services basés sur les chatbots sur le droit à l’oubli (RTBF). L’étude conclut que la technologie a dépassé les limites fixées par le cadre juridique existant.
Le droit à l’oubli ne se limite pas au GDPR européen, puisque des lois similaires peuvent être invoquées par les citoyens au Canada (CCPA), au Japon (APPI) et dans d’autres pays. Les procédures de droit à l’oubli ont été principalement conçues pour les moteurs de recherche Internet, ce qui permet à des sociétés comme Google, Microsoft et d’autres entreprises technologiques d’identifier et de supprimer des données spécifiques de leurs index Web propriétaires.
Toutefois, lorsqu’il s’agit de LLM, les choses deviennent nettement plus complexes. Selon les chercheurs australiens, les algorithmes basés sur l’apprentissage automatique ne sont pas aussi simples que les moteurs de recherche. Par ailleurs, il est extrêmement difficile de déterminer quelles données personnelles ont été utilisées pour former des modèles d’IA et d’établir l’attribution de ces données à des personnes spécifiques.

Selon les chercheurs, les utilisateurs ne peuvent avoir un aperçu de leurs données personnelles dans ces modèles LLM « qu’en inspectant l’ensemble de données d’entraînement original ou peut-être en invitant le modèle à le faire ». Toutefois, les entreprises qui proposent des services de chatbot peuvent choisir de ne pas divulguer leur ensemble de données d’entraînement, et le fait de s’engager avec un chatbot ne garantit pas que les résultats textuels fourniront les informations précises recherchées par les utilisateurs intéressés par une procédure de RTBF.
Par ailleurs, les chatbots ont la capacité de générer des réponses fictives, appelées « hallucinations », ce qui fait des interactions basées sur des invites un moyen peu fiable d’accéder aux données sous-jacentes du chatbot. Les chercheurs soulignent que les LLM stockent et traitent les informations « d’une manière complètement différente » par rapport à l’approche d’indexation employée par les moteurs de recherche.
Ces services d’IA émergents et de plus en plus populaires présentent de nouveaux défis pour le droit à l’oubli. Toutefois, il est important de noter que les LLM ne sont pas exemptés du respect des droits à la vie privée. Pour y remédier, les chercheurs proposent diverses solutions pour supprimer les données des modèles d’apprentissage de l’IA, telles que la technique SISA de « désapprentissage de la machine », le désapprentissage inductif du graphe et la suppression approximative des données, entre autres.
Les grandes entreprises qui opèrent actuellement dans le secteur du LLM tentent également de résoudre le problème de conformité de la RTBF. OpenAI, probablement l’acteur le plus important dans les services modernes d’IA générative, propose un formulaire permettant aux utilisateurs de demander la suppression de leurs données personnelles dans les résultats de ChatGPT. Toutefois, le traitement spécifique de ces demandes reste flou.
Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :

