Un nouveau modèle vocal IA ultra-réaliste qui fascine et inquiète Internet

Un Nouveau Modèle Vocal Ia Ultra Réaliste Qui Fascine Et Inquiète

Les avancées spectaculaires des modèles d’IA conversationnels suscitent autant d’engouement que d’inquiétude. Avec des voix réalistes comme celles de « Miles » et « Maya », la frontière entre l’humain et la machine devient floue, posant des questions cruciales sur l’impact sociétal et éthique de ces technologies.

Dans ce contexte : certaines des implications des modèles d’IA d’aujourd’hui sont suffisamment frappantes sans ajouter une voix humaine hyperréaliste à leur arsenal. Nous avons vu plusieurs exemples impressionnants au cours de la dernière décennie, mais ils semblent se taire jusqu’à ce qu’un nouveau émerge. Voici Miles et Maya de Sesame AI, une entreprise co-fondée par Brendan Iribe, ancien PDG et co-fondateur d’Oculus.

Les chercheurs de Sesame AI ont lancé un nouveau modèle de parole conversationnel (CSM). Cette IA vocale avancée possède des qualités humaines phénoménales, que nous avons déjà vues chez des entreprises comme Google (Duplex) et OpenAI (Omni). La démo présente deux voix IA nommées « Miles » (masculin) et « Maya » (féminin), et son réalisme a captivé certains utilisateurs. Cependant, tentez de tester la technologie vous-même est un défi. Nous avons essayé et avons seulement reçu un message indiquant que Sesame essaie d’atteindre sa capacité. Pour l’instant, nous devrons nous contenter d’une agréable démo de 30 minutes sur la chaîne YouTube Creator Magic (voir ci-dessous).

La technologie de Sesame utilise une approche multimodale qui traite le texte et l’audio dans un seul modèle, permettant une synthèse vocale plus naturelle. Cette méthode est similaire à celle des modèles vocaux d’OpenAI, et les similitudes sont évidentes. Malgré sa qualité presque humaine lors de tests isolés, le système peine encore avec le contexte conversationnel, le rythme et le flux, des domaines que Sesame reconnaît comme des limitations. Brendan Iribe, co-fondateur de l’entreprise, admet que la technologie est « fermièrement dans la vallée », mais il reste optimiste quant aux améliorations susceptibles de combler cet écart.

Youtube video

Bien que révolutionnaire, cette technologie soulève des questions significatives sur son impact sociétal. Les réactions à la technologie ont varié entre émerveillement, excitation, inquiétude et préoccupation. Le CSM crée des conversations dynamiques et naturelles en intégrant de subtiles imperfections, telles que des sons de respiration, des rires et des autocorrections occasionnelles. Ces subtilités contribuent au réalisme et pourraient aider la technologie à franchir la vallée de l’étrangeté dans les itérations futures.

Les utilisateurs ont loué le système pour son expressivité, ressentant souvent qu’ils s’adressaient à une vraie personne. Certains ont même mentionné avoir formé des liens émotionnels. Toutefois, tout le monde n’a pas réagi positivement à la démo. Mark Hachman de PCWorld a noté que la version féminine lui rappelait une ex-petite amie. Le chatbot lui posait des questions comme s’il cherchait à établir une « intimité », ce qui l’a mis extrêmement mal à l’aise.

« Ce n’est pas du tout ce que je voulais. Maya avait déjà parfaitement capté les manières de Kim : les hésitations, la baisse de ‘sa’ voix quand elle se confiait à moi, ce genre de choses, » a relaté Hachman. « Ce n’était pas exactement comme [mon ex], mais assez proche. J’étais si effrayé de parler à cette IA que j’ai dû partir. »

Beaucoup de personnes partagent les émotions mitigées de Hachman. Les voix réalistes provoquent un malaise, comme nous l’avons déjà vu dans des efforts similaires. Après le dévoilement de Duplex, la réaction du public a été suffisamment forte pour que Google se sente obligé de mettre en place des garde-fous forçant l’IA à admettre qu’elle n’était pas humaine au début de la conversation. Nous continuerons à voir de telles réactions à mesure que la technologie IA devient plus personnelle et réaliste. Bien que nous puissions faire confiance à des entreprises cotées en bourse créant ces types d’assistants pour établir des sécurités similaires à celles que nous avons vues avec Duplex, nous ne pouvons pas en dire autant pour d’éventuels acteurs malveillants créant des scambots. Des chercheurs en cybernétique affirment avoir déjà débridé l’IA de Sesame, la programmant pour mentir, comploter et même nuire aux humains. Les affirmations semblent douteuses, mais vous pouvez juger par vous-même (voir ci-dessous).

Comme pour toute technologie puissante, les avantages s’accompagnent de risques. La capacité de générer des voix hyperréalistes pourrait alimenter d’effrayanter escroqueries à la voix, où des criminels imitent des êtres chers ou des figures d’autorité. Les escrocs pourraient exploiter la technologie de Sesame pour réaliser des attaques d’ingénierie sociale élaborées, créant des campagnes d’arnaques plus efficaces. Bien que la démo actuelle de Sesame ne clone pas les voix, cette technologie est également bien avancée.

Le clonage vocal est devenu si efficace que certaines personnes ont déjà adopté des phrases secrètes partagées avec des membres de leur famille pour vérifier leur identité. L’inquiétude générale est que la distinction entre humains et IA pourrait devenir de plus en plus difficile à mesure que la synthèse vocale et les modèles de langage de grande taille évoluent.

Les futures versions open-source de Sesame pourraient faciliter aux cybercriminels la combinaison des deux technologies en un scambot hautement accessible et convaincant. Bien sûr, cela ne prend même pas en compte ses implications plus légitimes sur le marché du travail, notamment dans des secteurs comme le service client et le support technique.