On en sait plus sur le rôle du thalamus dans l’apprentissage par essai-erreur chez l’humain

Parution / Eq J.Bastin, Recherche

Le 3 avril 2024

Des chercheurs du GIN ont réussi à prouver que le thalamus est bien impliqué dans l’apprentissage par essai-erreur. Leurs résultats ont été publiés dans la revue scientifique Nature Communications.

Selon le philosophe John Locke, « la récompense et la punition sont les seules motivations d’une créature rationnelle : ce sont l’aiguillon et les rênes par lesquels toute l’humanité est mise au travail et guidée ». La recherche sur l’apprentissage par renforcement vise à caractériser les processus par lesquels les gens apprennent, par essais et erreurs, à sélectionner des actions qui maximisent ou minimisent respectivement l’occurrence de récompenses ou de punitions.

Cette forme d’apprentissage « par renforcement » recrute dans notre cerveau un circuit fronto-striatal. Bien que le thalamus soit un nœud critique de ce circuit, il n’existait aucune preuve directe de son implication dans l’apprentissage par renforcement chez l’homme. La haute résolution spatiotemporelle nécessaire pour distinguer les activités neuronales thalamiques durant de tels processus cognitifs est inaccessible avec les outils d’imagerie ordinaires utilisés chez l’homme.

Pour combler cette lacune, Julien Bastin et son équipe « Cerveau, Comportement et Neuromodulation » ont mené une étude en s’appuyant sur de rares enregistrements intracrâniens directs obtenus à partir du thalamus limbique humain de huit patients souffrant d’épilepsie pharmaco-résistante. Ces patients bénéficiaient d’implants neuronaux thalamiques utilisés dans le cadre d’un essai clinique visant à tester les effets d’une stimulation cérébrale profonde du thalamus antérieur dans l’épilepsie.

Les scientifiques ont constaté que dans le thalamus antérieur (ATN) et le thalamus dorsomédial (DMTN), les oscillations de basse fréquence (LFO, 4-12 Hz) étaient positivement corrélées avec la valeur attendue (estimée à partir d’un modèle computationnel) pendant l’apprentissage basé sur la récompense (après la délivrance du résultat) ou l’apprentissage basé sur la punition (pendant le processus de choix).

En outre, les oscillations de base fréquences enregistrées dans ces noyaux thalamiques (ATN/DMTN) étaient également corrélées négativement avec les renforcements, de sorte que les deux composantes des erreurs de prédiction étaient signalées dans le thalamus humain.

Les différences observées dans les signaux de prédiction entre les conditions de récompense et de punition mettent en lumière les mécanismes neuronaux qui sous-tendent l’inhibition de l’action dans l’apprentissage de l’évitement de la punition.

Ces résultats permettent de mieux comprendre le rôle du thalamus dans la prise de décision basée sur le renforcement chez l’homme.

Paradigme d'apprentissage par renforcement et résultats électrophysiologiques. Position schématique des électrodes de stimulation cérébrale profonde utilisées pour enregistrer les signaux intra-thalamiques et le paradigme expérimental utilisé pour distinguer l'apprentissage basé sur la récompense de celui basé sur la punition. Les deux composantes du "signal d'apprentissage" (erreurs de prédiction) ont été associées au LFO thalamique.

Référence :

Human thalamic low-frequency oscillations correlate with expected value and outcomes during reinforcement learning.

Collomb-Clerc A, Gueguen MCM, Minotti L, Kahane P, Navarro V, Bartolomei F, Carron R, Regis R, Chabardes S, Palminteri S* and Bastin* J.

Nat Commun 14, 6534 (2023). https://doi.org/10.1038/s41467-023-42380-6

Date

Le 3 avril 2024