Décodage de la parole à partir de l'activité cérébrale à l'aide de méthodes linéaires

Thèse / Eq B.Yvert

Le 28 juin 2022

Soutenance de thèse de Gaël Le Godais

Le mardi 28 juin 2022, Gaël LE GODAIS soutiendra sa thèse intitulée "Décodage de la parole à partir de l'activité cérébrale à l'aide de méthodes linéaires".

Cette thèse a été dirigée par Blaise YVERT de l'équipe "Neurotechnologies et Dynamiques des Réseaux".

Composition du jury :

Frank GUENTHER, Professeur, Boston University - Rapporteur
Fabien LOTTE, Professeur, INRIA Bordeaux Sud-Ouest - Rapporteur
Olivier DAVID, Directeur de Recherche, INS Marseille - Examinateur
Tetiana AKSENOVA, Directeur de Recherche, CEA Grenoble - Examinatrice
Anne GUERIN-DUGUE, Professeur des universités, UGA - Examinatrice
Blaise YVERT, Directeur de Recherche, INSERM Grenoble - Directeur de thèse

Résumé :

Le contrôle d’une interface cerveau-ordinateur invasive par une personne paralysée pourrait restaurer une production naturelle de la parole en permettant une synthèse vocale en temps réel à partir de l’activité corticale. Cette thèse vise à décoder de manière hors ligne des enregistrements invasifs existants de l’activité corticale de la parole, en utilisant des méthodes compatibles temps réel qui pourraient ensuite être utilisées dans une interface cerveau-ordinateur générant de la parole naturelle. L’accent a été mis sur l’utilisation de méthodes linéaires pour le décodage de la parole à partir de l’activité corticale. En particulier la régression des moindres carrés partiels, qui a déjà été utilisée avec succès dans des interfaces cerveau-ordinateur moteur, mais pas encore pour le décodage de la parole. Deux principales approches ont été comparées : 1. le décodage direct de F0 et des coefficients mel cepstraux de la parole, et 2. le décodage indirect de la parole via une représentation articulatoire. Afin de décoder les trajectoires articulatoires à partir de l’activité corticale, celles-ci ont d’abord été déduites des enregistrements audio du patient à l’aide d’un algorithme de déformation temporelle dynamique. Différents réseaux de neurones récurrents ou à propagation avant ont été entraînés à effectuer une synthèse articulatoire-acoustique sur des données d’articulographie électromagnétique, et ont été évalués à l’aide de critères objectifs et perceptifs. Le meilleur modèle a été ajusté par fine- tuning à prédire les coefficients mel cepstraux de la parole à partir des trajectoires articulatoires décodées. La parole a été synthétisée par un filtre MLSA à partir de F0 et des coefficients mel cepstraux décodés.
Le décodage direct et indirect des caractéristiques acoustiques de la parole ont atteint des performances similaires, toutes deux significativement meilleures que la chance bien que non intelligibles. La régression des moindres carrés partiels s’est avérée effectuer une réduction des caractéristiques neurales plus efficace que les régressions linéaires basées sur l’ACP, pour une performance similaire. Avant d’effectuer le décodage, les canaux bruyants et les caractéristiques spectrales de l’activité corticale qui ne contiennent pas d’information sur la parole ont été supprimés avec succès par une sélection automatique. Nous avons constaté que le décodage à partir de spectrogrammes de l’activité corticale était optimal lors de l’utilisation de toutes les fréquences sélectionnées, jusqu’à 200Hz, et en concaténant les 200 dernières millisecondes d’activité cérébrale. Les électrodes frontales ont permis de mieux décoder les trajectoires articulatoires que les électrodes temporales, tandis que l’inverse était vrai pour les caractéristiques acoustiques. Dans les deux cas cependant, le décodage a été significativement meilleur en utilisant toutes les électrodes à la fois. Enfin, nos expériences suggèrent que le décodage pourrait être amélioré en divisant le décodeur en un modèle classifiant le voisement d’un côté et une régression active uniquement sur les segments vocaux de l’autre.
Dans cette thèse, nous avons mis en place un pipeline de décodage complet basé sur des méthodes linéaires et compatibles temps réel. Il devrait maintenant être implémenté pour une évaluation plus approfondie dans une expérience en boucle fermée. En parallèle, bien que le décodage soit bien meilleur que la chance, les
méthodes linéaires ne sont probablement pas encore assez performantes pour être utilisées dans une interface cerveau-ordinateur produisant de la parole naturelle. De prochains travaux devraient se concentrer sur le développement d’autres décodeurs compatibles temps réel, basés notamment sur des réseaux de neurones.

Date

Le 28 juin 2022

14h

Localisation

Amphithéâtre Wilfrid Kilian 1381 Rue de la Piscine Saint Martin d'Hères
& visioconférence par Zoom