Des chercheurs de l’Université de Californie à Berkeley et de l’Université de Californie à San Francisco ont mis au point un système d’interface cerveau-ordinateur capable de restaurer la parole naturelle chez des individus souffrant de paralysie sévère. Cette avancée permet des communications en temps réel et représente une avancée majeure dans le domaine des neuroprothèses.
Les chercheurs ont surmonté le problème de la latence – le délai entre l’intention de parler d’une personne et la production du son – grâce aux progrès de l’intelligence artificielle. Leur système de diffusion décode les signaux neuronaux en parole audible en temps presque réel.
« Notre approche de diffusion apporte la même capacité de décodage rapide de la parole que des dispositifs comme Alexa et Siri aux neuroprothèses », a expliqué Gopala Anumanchipalli, co-chercheur principal et professeur adjoint à UC Berkeley. « En utilisant un algorithme similaire, nous avons découvert que nous pouvions décoder les données neuronales et, pour la première fois, permettre un streaming vocal presque synchronisé. Le résultat est une synthèse de la parole plus naturelle et fluide. »
Cette technologie promet d’améliorer considérablement la vie des individus atteints de maladies comme la SLA ou de paralysie après un AVC. « C’est enthousiasmant de voir que les dernières avancées en IA accélèrent considérablement les interfaces cerveau-ordinateur pour un usage pratique dans un avenir proche », a déclaré Edward Chang, neurochirurgien à UCSF et chercheur principal senior de l’étude.
Le système fonctionne en échantillonnant les données neuronales du cortex moteur – la partie du cerveau responsable de la production de la parole – et en utilisant l’IA pour décoder cette activité en mots prononcés. Les chercheurs ont testé leur méthode sur Ann, une femme de 47 ans qui n’a pas pu parler depuis un AVC survenu il y a 18 ans. Ann a participé à un essai clinique où des électrodes implantées sur la surface de son cerveau enregistraient l’activité neuronale alors qu’elle tentait silencieusement de prononcer des phrases affichées sur un écran. Ces signaux ont ensuite été décodés en parole audible en utilisant un modèle d’IA entraîné avec sa voix d’avant l’accident.

« Nous interceptons essentiellement des signaux là où la pensée est traduite en articulation », a expliqué Cheol Jun Cho, doctorant à UC Berkeley et co-auteur principal de l’étude. « Ce que nous décodons se produit après qu’une pensée a eu lieu – après que nous ayons décidé quoi dire et comment déplacer nos muscles du tractus vocal. » Cette approche a permis aux chercheurs de cartographier l’activité neuronale d’Ann vers des phrases cibles sans nécessiter qu’elle vocalise.
Une des avancées clés a été d’atteindre une synthèse de la parole proche du temps réel. Les précédents systèmes BCI avaient des délais significatifs – pouvant aller jusqu’à huit secondes pour décoder une seule phrase – mais cette nouvelle méthode a réduit la latence de manière spectaculaire. « Nous pouvons voir qu’en relation avec ce signal d’intention, nous commençons à obtenir le premier son en moins d’une seconde », a noté Anumanchipalli.
Le système a également démontré des capacités de décodage continu, permettant à Ann de « parler » sans interruptions.
Malgré sa rapidité, le système a maintenu une grande précision dans le décodage de la parole. Pour tester son adaptabilité, les chercheurs ont testé s’il pouvait synthétiser des mots en dehors de son jeu de données d’entraînement.
En utilisant des mots rares de l’alphabet phonétique de l’OTAN comme « Alpha » et « Bravo », ils ont confirmé que leur modèle pouvait généraliser au-delà de vocabulaire familier. « Nous avons constaté que notre modèle le fait bien, ce qui montre qu’il apprend effectivement les éléments constitutifs du son ou de la voix », a déclaré Anumanchipalli.
Ann elle-même a noté une différence profonde entre cette nouvelle approche de diffusion et les méthodes antérieures de synthèse vocale utilisées dans les études précédentes. D’après Anumanchipalli, elle a décrit entendre sa propre voix en temps quasi réel comme augmentant son sentiment d’incarnation – une étape essentielle pour rendre les interfaces cerveau-ordinateur plus naturelles.
Les chercheurs ont également exploré comment leur système pourrait fonctionner avec différentes technologies de détection cérébrale, y compris des réseaux de microélectrodes (MEAs) qui pénètrent les tissus cérébraux, et des capteurs d’électromyographie de surface non invasive (sEMG) qui détectent l’activité musculaire sur le visage. Cette polyvalence suggère des applications potentielles plus larges à travers diverses plateformes BCI.
L’équipe se concentre désormais sur la poursuite de l’amélioration et de l’optimisation de sa technologie. Un domaine de recherche en cours concerne l’amélioration de l’expressivité en incorporant des caractéristiques paralinguistiques telles que le ton, la hauteur et le volume dans la parole synthétisée. « C’est un problème de longue date même dans les domaines classiques de la synthèse audio », a déclaré Kaylo Littlejohn, un autre co-auteur principal et doctorant à UC Berkeley. « Cela comblerait le fossé vers un naturalisme complet et total. »
Bien qu’encore expérimental, cette avancée offre l’espoir que des interfaces cerveau-ordinateur capables de restaurer une parole fluide pourraient devenir largement disponibles dans la prochaine décennie avec un investissement et un développement continus.
Le projet a reçu un financement d’organisations telles que le National Institute on Deafness and Other Communication Disorders (NIDCD), le Moonshot Program de l’agence japonaise de science et de technologie, ainsi que plusieurs fondations privées.
« Ce cadre de preuve de concept constitue une avancée considérable », a déclaré Cho. « Nous sommes optimistes quant à notre capacité à réaliser des progrès à chaque niveau. »
