Technologie de pointe de Meta : portez un casque pour permettre à l'IA de lire votre cerveau, le taux de précision du texte atteint 61 %

Meta lance cette semaine Brain2Qwerty v2, un système d'IA non invasif de conversion du cerveau en texte, sans chirurgie. En utilisant un scanner MEG (magnétoencéphalographie) en forme de casque pour enregistrer l'activité neuronale du cerveau, puis un modèle d'apprentissage profond de bout en bout pour décoder directement les phrases que l'utilisateur souhaite taper, la précision moyenne par mot atteint 61 %, soit une amélioration significative par rapport aux méthodes non invasives précédentes d'environ 8 %.
(Rappel : Elon Musk : le premier testeur de Neuralink « presque complètement rétabli » ! Peut contrôler le curseur de la souris par la pensée)
(Contexte supplémentaire : Samsung remporte une commande pour la quatrième génération de puces Neuralink, qui peut non seulement lire mais aussi « écrire » dans le cerveau)

Table des matières

Toggle

  • Extraire le sens du bruit : ce que le modèle de bout en bout réalise
  • Pourquoi le non invasif a longtemps perdu face à la chirurgie
  • L'intention de l'open source : accélérer l'IA, d'abord relever la ligne de base

Implanter des électrodes dans le crâne ouvert, ou porter un casque ? C'est le conflit de voie le plus fondamental dans le domaine des interfaces cerveau-machine : Elon Musk avec Neuralink choisit la première en implantant des puces dans le cortex cérébral ; Meta choisit la seconde avec Brain2Qwerty v2, faisant passer la précision moyenne par mot des méthodes non invasives d'environ 8 % à 61 %, se rapprochant des niveaux autrefois réservés à la chirurgie.

Pas d'incision, pas d'implant, juste un casque et un modèle d'apprentissage profond.

Extraire le sens du bruit : ce que le modèle de bout en bout réalise

MEG, nom complet magnétoencéphalographie, imagerie des champs magnétiques cérébraux. En termes simples, elle utilise des capteurs supraconducteurs pour détecter les champs magnétiques extrêmement faibles générés par l'activité neuronale. C'est un dispositif d'imagerie cérébrale non invasive couramment utilisé dans les laboratoires de neurosciences, sans rien implanter dans le cerveau.

L'approche de Brain2Qwerty v2 est la suivante : les sujets portent un scanner MEG en forme de casque, enregistrent l'activité cérébrale tout en tapant, puis ces signaux neuronaux bruts sont directement introduits dans un modèle d'IA de bout en bout (end-to-end). En termes simples, il n'y a pas d'étapes intermédiaires conçues manuellement entre l'entrée et la sortie ; le modèle apprend lui-même l'intégralité du chemin de décodage pour reconstruire les phrases que l'utilisateur souhaite taper.

L'ancienne approche consistait à concevoir manuellement un pipeline : d'abord détecter des événements neuronaux spécifiques (par exemple, les réactions électriques du cerveau lors de l'apparition d'une lettre), puis dériver progressivement le texte. Brain2Qwerty v2 abandonne cette voie et utilise l'apprentissage profond pour décoder directement les signaux cérébraux bruts et chaotiques, puis utilise un grand modèle de langage pour corriger les erreurs dues au bruit en fonction du contexte sémantique.

Taille de l'entraînement : environ 22 000 phrases, 9 volontaires, chacun avec 10 heures de données enregistrées. Meta déclare que la précision continuera d'augmenter avec l'augmentation des données d'entraînement, ce chiffre n'a pas encore atteint le plafond.

À titre de comparaison, la version précoce v1 sous MEG avait un taux d'erreur de caractères (CER) d'environ 32 %, et la même tâche avec EEG (électroencéphalographie) grimpait à 67 %. La précision de 61 % par mot de v2 signifie que le système a globalement franchi un seuil d'un ordre de grandeur.

Pourquoi le non invasif a longtemps perdu face à la chirurgie

La voie principale de la recherche sur les interfaces cerveau-machine a été orientée vers les implants depuis des décennies. La raison est simple : en enregistrant directement près des neurones, le signal est propre, la latence faible, la précision élevée. Neuralink, Synchron, et Merge Labs soutenu par Sam Altman suivent tous cette voie.

Le défaut fatal du non invasif est le rapport signal/bruit. Le crâne, le cuir chevelu et les cheveux sont des couches d'atténuation du signal, particulièrement graves pour l'EEG. La pénétration magnétique du MEG est relativement meilleure, mais le casque est coûteux (souvent des millions de dollars) et nécessite un environnement spécial pour protéger des champs magnétiques externes, ce qui explique pourquoi le MEG reste confiné aux laboratoires de neurosciences et non à une utilisation clinique.

Malgré cela, le choix de Meta pour la voie MEG a sa logique. Les interfaces implantables font face à deux défis : le risque chirurgical lui-même et le problème de maintenance à long terme de l'implant dans le cerveau. Pour les patients ayant perdu la capacité de communiquer en raison de lésions cérébrales, le seuil chirurgical exclut souvent la plupart des bénéficiaires potentiels.

Si la voie non invasive peut atteindre une précision suffisamment élevée, elle pourrait couvrir la population inaccessible aux implants, sans aucune intervention chirurgicale.

Meta a également publié le code du système et l'ensemble de données dans le cadre de son Digital Brain Project, et a créé un fonds de 5 millions de dollars pour soutenir la construction d'ensembles de données neuroscientifiques ouverts. L'article associé a été publié dans Nature Neuroscience.

L'intention de l'open source : accélérer l'IA, d'abord relever la ligne de base

La publication du code et des données par Meta à ce moment a une intention stratégique claire.

L'un des goulots d'étranglement de la recherche sur les BCI (interfaces cerveau-machine) non invasives est le manque d'ensembles de données neuronales à grande échelle disponibles publiquement. Chaque laboratoire répète la collecte de données de base, avec une efficacité très faible. Le fonds de 5 millions de dollars de Meta cible précisément cet aspect, permettant à la communauté de construire ensemble des données de référence pour accélérer la courbe d'apprentissage de tout le domaine.

À la même époque, il y a d'autres acteurs non invasifs à suivre : Neurable a lancé des écouteurs EEG pilotés par l'IA en septembre 2024 ; AlterEgo, une spin-off du MIT, emprunte une autre voie en détectant les signaux neuromusculaires silencieux du visage et de la gorge pour convertir la parole non dite en texte et en commandes. Les chemins diffèrent, mais la question fondamentale est la même : est-il possible, sans ouvrir le crâne, de faire comprendre à une machine ce à quoi une personne pense ou veut dire ?

Le processus d'ingénierie de Brain2Qwerty v2 révèle également un détail : Meta a laissé des agents IA explorer systématiquement l'espace d'optimisation possible du pipeline de décodage, puis les ingénieurs ont sélectionné la configuration finale d'entraînement. C'est une pratique standard consistant à utiliser l'IA pour concevoir des systèmes d'IA, mais appliquée au décodage des signaux cérébraux, cela a plus une signification symbolique qu'ingénierique.

61 % contre 8 % est un contraste frappant. Mais la question qui mérite plus d'attention est : si la précision augmente linéairement avec la quantité de données, où cette ligne s'arrêtera-t-elle ?

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé