OpenAI a dévoilé ses dernières avancées dans le domaine de la génération de voix synthétiques. Maintenant, il peut cloner une voix dans n’importe quelle langue en seulement 15 secondes d’écoute

OpenAI a révélé ses dernières avancées dans le domaine de la génération de voix synthétiques. La société a partagé un communiqué où elle explique comment son système Voice Engine, présenté pour la première fois fin 2022, est désormais capable de cloner n’importe quelle voix avec précision à partir d’un exemplaire audio de seulement 15 secondes.

Les démonstrations partagées par l’entreprise sont tout simplement spectaculaires. Voice Engine est capable de générer des voix ultra réalistes à partir d’échantillons courts, ouvrant ainsi la voie à différentes utilisations telles que l’assistance à la lecture, la traduction de contenu ou l’aide aux personnes atteintes de troubles de la parole.

Voice Engine peut cloner n’importe quelle voix avec des échantillons de 15 secondes

Ce n’est pas la première fois que nous voyons des systèmes basés sur l’intelligence artificielle destinés à cloner des voix à partir d’échantillons. Des sociétés comme Meta avaient déjà montré leurs avancées dans ce domaine. Cependant, OpenAI a été capable d’aller plus loin et de réduire considérablement la durée de l’audio de référence nécessaire pour que l’IA puisse reproduire la voix de n’importe qui.

Le fonctionnement est (apparemment) simple : l’utilisateur devrait simplement fournir un enregistrement vocal de 15 secondes et un texte. L’IA sera capable de « cloner » la voix et de narrer le contenu du texte de manière « réaliste et émotive ».

Vous pouvez ensuite écouter certains des échantillons partagés par OpenAI des audios générés par Voice Engine, ainsi que l’audio de référence utilisé par l’IA pour « cloner » la voix.

OpenAI évaluera l’impact potentiel de cette technologie avant de la rendre disponible au public

L’entreprise dirigée par Sam Altman est consciente des risques que cela peut entraîner de mettre une technologie de ce type à la disposition de tous. C’est pourquoi elle insiste pour suivre une approche « prudente et éclairée » et pour analyser tous les risques que pourrait entraîner une utilisation abusive de cette technologie. Après tout, nous avons déjà vu des escroqueries qui utilisent des techniques de clonage vocal pour tromper leurs victimes.

C’est pourquoi, pour le moment, il n’est pas disponible pour le grand public, et la société n’a pas révélé si elle prévoit de lancer cet outil en tant que service accessible à tous, à l’instar de ChatGPT. Ils assurent que ces tests à petite échelle serviront à prendre une décision sur l’opportunité d’implémenter cette technologie dans leurs services.