En résumé : Pourriez-vous dire si une voix a été générée par une IA, même lorsque vous savez qu’il s’agit d’un enregistrement audio deepfake ? Ce n’est peut-être pas aussi facile que vous le pensez. Une nouvelle étude montre que les êtres humains ne sont capables de détecter la parole générée artificiellement que 73 % du temps, aussi bien en anglais qu’en mandarin.
L’étude a été réalisée par Kimberly Mai de l’University College London et ses collègues, qui ont utilisé un algorithme de synthèse de la parole entraîné sur deux ensembles de données disponibles au public. Cinquante échantillons de parole deepfake ont été créés dans les deux langues pour déterminer si les humains pouvaient identifier les faux des voix réelles.
529 personnes ont participé à l’étude. Elles ont écouté une locutrice réelle lisant des phrases génériques en anglais ou en mandarin, entrecoupées de phrases générées par une IA.
Le premier groupe a écouté 20 échantillons de voix dans leur langue maternelle et devait décider s’ils étaient réels ou faux. Les participants ont choisi la bonne option 73 % du temps.
Un deuxième groupe a entendu 20 paires d’extraits audio choisis aléatoirement, l’un prononcé par un humain et l’autre par une IA. Les personnes ont réussi à repérer le deepfake 85 % du temps lors de ce test, bien que la présence de deux extraits exacts pour la comparaison rende toujours ce défi plus facile.
Les voix deepfake sont souvent reconnaissables grâce à des signes distinctifs tels qu’une parole raide et monotone ou un saccade artificiel. Cependant, les chiffres d’exactitude n’ont augmenté que légèrement après que les participants ont reçu une formation sur la reconnaissance des caractéristiques de la parole générée par une IA.
« Dans notre étude, nous avons montré que former les personnes à détecter les deepfakes n’est pas nécessairement un moyen fiable de les aider à s’améliorer. Malheureusement, nos expériences montrent également que les détecteurs automatiques ne sont pas non plus fiables à l’heure actuelle », a déclaré Mai.
« Ils sont très bons pour détecter les deepfakes s’ils ont vu des exemples similaires pendant leur phase de formation, si le locuteur est le même ou si les extraits sont enregistrés dans un environnement audio similaire, par exemple. Mais ils ne sont pas fiables en cas de changements dans les conditions audio du test, comme lorsque le locuteur est différent. »
Il est important de noter que les personnes participant à l’étude savaient qu’elles écoutaient une voix générée par une IA ; une personne qui ne s’y attend pas aurait probablement plus de mal à reconnaître un faux. Des cas ont déjà été signalés d’escrocs utilisant des voix clonées pour appeler des personnes et les tromper en leur faisant croire qu’elles parlent à des membres de leur famille, à des amis ou à des responsables et en leur fournissant des données sensibles. Il y a aussi des inquiétudes concernant certains systèmes de sécurité utilisant l’identification vocale.
Mai a également indiqué que les algorithmes utilisés pour créer les deepfakes dans l’étude sont relativement anciens, de sorte que ceux générés avec des technologies plus récentes et futures ressembleront davantage à des enregistrements réels et auront moins d’effet de la vallée dérangeante.
En janvier, des chercheurs de Microsoft ont annoncé la création d’une nouvelle IA capable de reproduire avec précision la voix humaine à partir d’un simple exemplaire audio de trois secondes.
Découvrez le reportage du mois (sous-titré en français), l’IA gagnera t-elle face aux champion du monde du jeu de Go ? :
