banner

Blog

Nov 09, 2023

EEG temporal

Rapports scientifiques volume 12, Numéro d'article : 14378 (2022) Citer cet article

4079 accès

1 Citations

3 Altmétrique

Détails des métriques

Un nombre croissant d'études ont été consacrées à la reconnaissance d'identité par électroencéphalogramme (EEG) car les signaux EEG ne sont pas facilement volés. La plupart des études existantes sur l'identification des personnes par EEG n'ont abordé que les signaux cérébraux dans un seul état, en fonction de stimuli sensoriels spécifiques et répétitifs. Cependant, en réalité, les états humains sont divers et évoluent rapidement, ce qui limite leur utilité dans des contextes réalistes. Parmi de nombreuses solutions potentielles, le transformateur est largement utilisé et atteint d'excellentes performances dans le traitement du langage naturel, ce qui démontre la capacité exceptionnelle du mécanisme d'attention à modéliser les signaux temporels. Dans cet article, nous proposons une approche basée sur le transformateur pour la tâche d'identification de personne EEG qui extrait des caractéristiques dans les domaines temporel et spatial à l'aide d'un mécanisme d'auto-attention. Nous menons une étude approfondie pour évaluer la capacité de généralisation de la méthode proposée parmi différents états. Notre méthode est comparée aux techniques biométriques EEG les plus avancées et les résultats montrent que notre méthode atteint des résultats de pointe. Notamment, nous n'avons pas besoin d'extraire manuellement les fonctionnalités.

Dans le monde globalisé de l'information d'aujourd'hui, la sécurité des informations personnelles est devenue particulièrement importante1, d'où le besoin de technologies d'identification nouvelles et plus sophistiquées. Même si les technologies d'identification existantes se sont largement appliquées dans la vie quotidienne et ont atteint une grande précision, y compris les empreintes digitales, l'iris ou la reconnaissance faciale2,3,4 et atteint des taux de précision de reconnaissance élevés. Cependant, le problème avec ces données biométriques est qu'elles peuvent être facilement volées ou révélées par inadvertance. La sécurité de ces technologies n'est pas effectivement garantie. Par rapport à la biométrie conventionnelle mentionnée ci-dessus, la biométrie cognitive a suscité plus d'intérêt dans la recherche pour ses raisons de sécurité.

Contrairement à la biométrie conventionnelle, qui repose sur des caractéristiques physiologiques ou comportementales, la biométrie cognitive est un type de biométrie qui mesure l'activité cérébrale humaine et analyse la façon dont les gens « pensent »5. Il existe différentes méthodes de mesure de l'activité cérébrale humaine, et ces méthodes sont basées sur différents principes pour refléter l'activité cérébrale. L'imagerie par résonance magnétique fonctionnelle (fMRI) a mesuré la concentration d'oxyhémoglobine et de désoxyhémoglobine, ce qui peut indiquer les changements hémodynamiques causés par l'activité neuronale. La tomographie par émission de positrons (TEP) mesure le métabolisme neuronal en injectant une substance radioactive dans le corps du sujet. La spectroscopie dans le proche infrarouge (NIRS) mesure la concentration d'oxyhémoglobine et de désoxyhémoglobine par l'intensité de la réflexion de la lumière infrarouge du cortex cérébral pour refléter l'activité cérébrale. La magnétoencéphalographie (MEG) collecte le champ magnétique généré par les courants cérébraux tandis que l'électroencéphalographie (EEG) collecte les champs électriques générés.

Nous avons choisi l'EEG pour la tâche d'identification. Comparé à d'autres techniques, l'EEG peut être acquis par des appareils portables et relativement peu coûteux6,7. En particulier, la technologie d'interface cerveau-ordinateur non invasive est souvent utilisée pour capturer les signaux EEG, ce qui est plus sûr et plus pratique que les approches invasives. L'amplitude du signal EEG des humains normaux varie de 10 à 200 \(\upmu \)V, tandis que la fréquence varie généralement entre 0,5 et 40 Hz. Il a une résolution temporelle élevée, généralement de l'ordre de la milliseconde5. En termes de résolution spatiale, l'EEG révèle une résolution spatiale inférieure en raison de la taille limitée du dispositif d'acquisition et de l'interaction des champs électriques entre les différentes régions du cerveau. Pourtant, il convient de noter que la variabilité individuelle est la base de l'identification de la personne, et l'EEG ne fait pas exception. Certaines études8,9 ont démontré que les signaux EEG ont une forte variabilité individuelle, notamment dans les ondes alpha10. La cohérence est un autre facteur crucial pour l'identification, car cette biométrie nécessite un test-retest, ce qui signifie que les caractéristiques restent stables dans le temps et dans l'espace11,12. Le signal EEG est également hautement sécurisé. Ceci est particulièrement important pour l'identification des personnes car l'identification des personnes nécessite un équipement d'acquisition spécialisé et des amplificateurs pour collecter des informations. Ces informations personnelles ne doivent pas être divulguées par inadvertance ou consultées à distance. Par conséquent, du point de vue de la sécurité des données, l'identification basée sur l'EEG est fiable car elle est plus difficile à exploiter pour les criminels. L'EEG assure la sécurité des informations grâce à la détection des émotions. L'identification ne peut être traitée sans le consentement des utilisateurs, car la nervosité détectée par l'EEG peut entraîner un échec de l'authentification. De plus, alors que le signal EEG est un trait interne qui ne peut être généré que lorsque le cerveau est actif, il porte naturellement la fonction de détection de la vivacité13. Enfin et surtout, les signaux EEG sont universels et les signaux EEG peuvent être capturés chez chaque individu à moins qu'une pathologie ne cause des dommages structurels au cerveau qui empêchent la production de signaux EEG.

En résumé, l'identification des personnes par EEG est très prometteuse pour l'application. Cependant, la plupart des recherches actuelles n'ont étudié que la reconnaissance dans un seul état, ce qui est encore incapable de garantir l'exactitude et la robustesse de la reconnaissance. Par conséquent, nous avons appliqué le mécanisme d'attention pour construire un réseau pour les tâches d'identification et avons fait de grands progrès. Les principales contributions de cet article sont décrites ci-dessous :

Nous proposons le modèle de réseau neuronal basé sur l'encodeur de transformateur ETST, transformateur temporel-spatial EEG, qui peut extraire de manière louable les informations des signaux EEG sur les différences individuelles dans les domaines temporels et spatiaux et assurer l'exactitude de l'identification même dans le cas d'états croisés. .

Des expériences approfondies sont menées et les résultats montrent que notre modèle surpasse tous les modèles de pointe. Nous étudions le rôle des informations temporelles et spatiales des signaux EEG sur la tâche d'identification de la personne. De plus, l'effet d'un codage de position différent sur le transformateur EEG est étudié.

Nous explorons l'effet de la longueur de l'échantillon sur notre modèle basé sur le transformateur et introduisons une méthode d'augmentation des données pour améliorer les performances. La méthode augmente la taille de l'échantillon en augmentant le taux de chevauchement entre les échantillons dans le temps et une amélioration comprise entre 1 et 3% est observée avec la stratégie enfin.

Les systèmes biométriques actuels basés sur l'EEG sont généralement divisés en deux approches. L'une consiste à extraire d'abord les caractéristiques distinctes, puis à utiliser les méthodes traditionnelles d'apprentissage automatique pour la classification, et l'autre consiste à utiliser une approche d'apprentissage en profondeur de bout en bout, qui accomplit à la fois l'extraction des caractéristiques et la classification. Kong et al. supposons que l'EEG lié à la tâche peut être décomposé en deux parties, y compris l'EEG de fond (BEEG) et l'EEG résiduel (REEG). Le BEEG contient les traits distinctifs d'une personne tandis que le REEG est composé d'EEG et de bruits évoqués par des tâches. Kong a utilisé l'algorithme d'identification basé sur la décomposition matricielle de rang inférieur (LRDM) pour décomposer le signal EEG, puis a utilisé l'algorithme du critère de correntropie maximale (MCC) pour accomplir la classification14. Wang et al. ont soutenu que la connectivité fonctionnelle du cerveau reflète la spécificité individuelle. Ils ont calculé la connectivité du signal EEG en calculant les métriques des signaux EEG en tant que vecteurs de caractéristiques, puis ont utilisé un modèle discriminant basé sur la distance de Mahalanobis pour procéder à l'identification de la personne15. Moctezuma et al. ont adopté la décomposition de mode empirique (EMD) pour décomposer les signaux EEG en un ensemble de fonctions de mode intrinsèque (IMF), puis ont sélectionné les deux IMF les plus proches et les ont décomposées en quatre caractéristiques. De cette façon, chaque canal renverra huit caractéristiques. Finalement, ils ont utilisé la machine à vecteurs de support (SVM) avec fonction de base radiale (RBF) comme classificateur16. Outre l'utilisation de SVM comme classificateur, Alyasseri et al. appliqué FPA\(\beta \)-hc, qui est une technique d'optimisation hybride basée sur l'algorithme binaire de pollinisation des fleurs (FPA) et \(\beta \)-hill climbing pour extraire les caractéristiques17. Yıldırım et al. construit un modèle CNN 1D empilé avec plusieurs couches pour extraire les caractéristiques de niveau profond des signaux EEG sur la spécificité individuelle18. Wilaiprasitporn et al. ont essayé de combiner le réseau de neurones convolutifs (CNN) et le réseau de neurones récurrent (RNN), où le CNN est utilisé pour extraire les caractéristiques spatiales et le RNN est utilisé pour extraire les caractéristiques temporelles19. Özdenizci et al. ont essayé une approche d'inférence contradictoire au sein d'une structure de réseau convolutif profond, qui est capable d'apprendre des caractéristiques invariantes de session et discriminantes de personne20.

Actuellement, Transformer a montré de bons résultats dans les domaines du traitement du langage naturel (TAL) et de la vision par ordinateur (CV)21,22,23. Transformer est capable de modéliser les dépendances à longue portée et a une vitesse de calcul plus rapide par rapport à RNN ou à la mémoire longue à court terme (LSTM) en raison de sa caractéristique de calcul parallèle. Par conséquent, Transformer a pris les devants dans le domaine de la PNL, suscitant l'intérêt des chercheurs. Cependant, la capacité de Transformer à traiter les signaux EEG n'a pas encore été étudiée par les chercheurs. Arjun et al. ViT directement migré, qui fonctionne bien sur les images, vers les signaux EEG. Le signal EEG en 1D a été découpé en différents patchs dans la dimension temporelle et utilisé comme entrée du modèle ViT24. Lee et al. combiné EEGNet et transformateur, utilisant un réseau neuronal convolutif basé sur EEGNet pour obtenir les caractéristiques temporelles-spectrales-spatiales25. Tao et al. a proposé un transformateur contrôlé, qui est une combinaison du mécanisme auto-attentif et du mécanisme de déclenchement dans GRU pour obtenir les informations des signaux EEG sur des séries temporelles26. Song et al. ont proposé une méthode basée sur le modèle spatial commun (CSP) pour extraire les caractéristiques spatiales des signaux EEG ainsi qu'un algorithme d'auto-attention pour les décoder. Cette méthode permet d'obtenir un effet de pointe27. Ces approches montrent que le mécanisme d'auto-attention peut améliorer les performances des systèmes d'interface cerveau-ordinateur (BCI). Par conséquent, nous avons conçu notre modèle basé sur le mécanisme d'auto-attention.

Dans cet article, nous proposons un modèle d'identification de personne EEG basé sur le mécanisme d'attention21, et le schéma général du cadre est illustré à la Fig. 1. Contrairement à d'autres modèles, notre approche ne nécessite pas d'extraction supplémentaire de caractéristiques artificielles des signaux EEG, et uniquement des Les signaux EEG sont utilisés pour la tâche d'identification. Considérant que le signal EEG est à la fois continu dans le temps et fonctionnellement connecté entre les canaux, nous concevons le modèle pour capturer les caractéristiques temporelles et spatiales. Le modèle se compose de deux parties principales, contenant un encodeur à transformateur temporel (TTE) et un encodeur à transformateur spatial (STE). Dans la partie TTE, nous utilisons le mécanisme d'attention dans le domaine temporel pour calculer la corrélation entre les points d'échantillonnage dans les échantillons, qui est utilisée pour extraire les caractéristiques du domaine temporel de l'EEG. Puisqu'il existe une spécificité individuelle dans la relation de couplage des canaux entre les individus, nous concevons la partie STE pour calculer l'attention du domaine spatial pour les canaux afin de capturer la relation de couplage entre les différents signaux de canal, ce qui permet au modèle d'identifier différents individus de manière plus stable en fonction de la relation de couplage spécifique. Enfin, une simple couche entièrement connectée est appliquée pour agréger les informations globales et effectuer la classification. Dans ce qui suit, nous expliquerons en détail le prétraitement de l'EEG brut et des composants du modèle ETST.

L'architecture du modèle ETST.

Avant d'introduire des données dans ETST, nous avons d'abord traité l'EEG brut. Le signal EEG d'origine est filtré à l'aide d'un filtre passe-bande [0,5 42] Hz pour éliminer les bruits de basse et de haute fréquence. Nous supprimons les artefacts oculaires et musculaires à l'aide d'une analyse en composantes indépendantes (ICA). La taille de chaque échantillon est T \(\times \) C, où T est le nombre de points d'échantillonnage et C est le nombre de canaux EEG. Pour chaque échantillon, la normalisation suivante du score z sera utilisée au fil du temps pour chaque canal :

où t , c dans \(x_{t,c}\) désigne le point d'échantillonnage et le canal de l'échantillon, \({\overline{x}}_{c}\) désigne la moyenne de l'échantillon sur le canal c et \(\sigma _{c}\) désigne l'écart type de l'échantillon sur le canal c. Après normalisation, la moyenne des données sur chaque canal de l'échantillon est de 0 et l'écart type est de 1.

Nous utilisons la corrélation temporelle, ou la corrélation entre deux points dans le temps, pour capturer les informations du domaine temporel des signaux EEG. Inspirés par le mécanisme de l'attention21, nous utilisons plusieurs blocs transformateurs pour coder les informations temporelles de l'EEG. Au lieu de la convolution se concentrant sur les informations locales, TTE prend en compte la dépendance à longue distance dans le temps. Nous alimentons directement les données EEG prétraitées dans le transformateur, au lieu d'employer des transformations compliquées telles que des convolutions28,29 ou des projections linéaires entraînables24. Pour une entrée donnée \(X=[x^{1},x^{2},\ldots ,x^{T}]\in {\mathbb {R}}^{T\times C}\), nous calculons l'auto-attention dans le bloc transformateur pour estimer les corrélations temporelles, puis nous pondérons la somme pour obtenir la nouvelle représentation. L'auto-attention est calculée comme suit :

où Q, K et V sont toutes des matrices obtenues par des projections linéaires de l'entrée et \(d_{k}\) est un facteur scalaire. Pour assister conjointement à des informations provenant de différents sous-espaces de représentation à différentes positions, nous adoptons le mécanisme d'attention multi-tête21 sur l'entrée. Chaque encodeur de transformateur contient deux parties : l'attention multi-tête (MHA) et le perceptron multicouche (MLP). Chaque partie utilise la connexion résiduelle30 et la normalisation de couche (LN)31 pour améliorer la vitesse d'apprentissage et la robustesse du modèle. La figure 2 illustre le processus de calcul ci-dessus. La partie TTE peut être exprimée par :

(à gauche) L'architecture d'un codeur de transformateur. (à droite) Attention multi-tête.

Les canaux du signal EEG représentent les emplacements des électrodes sur le cuir chevelu, et la connectivité fonctionnelle entre les différentes régions du cerveau peut être calculée en tenant compte des dépendances entre les différents canaux. Semblable à TTE, dans STE, nous avons également utilisé le mécanisme d'attention pour modéliser les informations spatiales entre différents canaux. Afin de préserver les informations de localisation spatiale, nous avons ajouté le codage de position du domaine spatial à l'entrée, puis transmis le résultat à STE :

où tran() représente l'opération de transposition et \(E_{pos}\in {\mathbb {R}}^{C\times T}\) représente l'encodage de position. Dans cet article, nous utilisons le codage de position sous la forme d'une fonction trigonométrique à une position fixe. \(z^{s}_{0}\) désigne la représentation avec l'ajout d'informations de position spatiale. Dans le STE, nous utilisons une structure similaire à celle du TTE pour apprendre les informations spatiales sur les différents canaux de l'EEG. L'équation du processus s'exprime comme suit :

La sortie des couches de codeur de transformateur, TTE et STE, donne une meilleure représentation contenant à la fois les caractéristiques du domaine temporel et du domaine spatial. ETST apprend les informations de domaine temporel des données EEG sur les différents points d'échantillonnage dans TTE. Dans le STE suivant, ETST apprend les informations spatiales entre les canaux. Ensuite, pour fusionner les informations globales dans la représentation pour la classification, une simple couche entièrement connectée avec une seule couche est utilisée pour obtenir la sortie de classification finale qui est optimisée à l'aide de la fonction de perte d'entropie croisée.

où N désigne le nombre de tailles de lots et C désigne le nombre de catégories. \(y^{c}_{n}\) est le vrai hot label, \({\hat{y}}^{c}_{n}\) est la probabilité prédite de la catégorie correspondante.

Cet article ne contient aucune étude avec des participants humains ou animaux réalisée par l'un des auteurs.

Nous validons notre méthode sur un jeu de données EEG fourni par PhysioNet32. Cet ensemble de données a été enregistré à l'aide du système BCI200033 et se compose de plus de 1500 enregistrements EEG de 1 et 2 minutes, obtenus à partir de 109 sujets. La fréquence d'échantillonnage était de 160 Hz. Ces données EEG ont été enregistrées avec 64 électrodes, conformes au système 10–10. Les sujets ont été invités à effectuer des tâches motrices/d'imagerie pendant que le signal EEG était enregistré par le système. Chaque sujet a effectué 14 exécutions expérimentales, dont 2 exécutions de base de 1 min et 12 exécutions de tâche de 2 min. Dans les séries de référence, les signaux EEG ont été enregistrés pendant que les sujets gardaient les yeux ouverts (EO) et les yeux fermés (EC), respectivement. Dans les exécutions de tâches, les sujets devaient effectuer quatre tâches motrices / d'imagerie, y compris effectuer réellement l'action physique correspondante (PHY) ou imaginer terminer l'action correspondante (IMA) lorsque la cible est apparue sur l'ordinateur, et se reposer lorsque la cible a disparu. La tâche 1 consiste à ouvrir et à serrer le poing correspondant lorsqu'une cible se trouve à gauche ou à droite de l'écran de l'ordinateur. La tâche 2 consiste à imaginer ouvrir et serrer le poing correspondant lorsqu'une cible se trouve à gauche ou à droite de l'écran de l'ordinateur. La tâche 3 consiste à ouvrir et à serrer les deux poings lorsqu'une cible apparaît en haut ou en bas de l'ordinateur. La tâche 4 consiste à imaginer ouvrir et serrer les deux poings lorsqu'une cible apparaît en haut ou en bas de l'ordinateur. Chaque tâche est répétée trois fois, totalisant douze exécutions de tâche. Dans nos expériences, nous utilisons tous les sujets de l'ensemble de données. Une fenêtre de 1 s avec un chevauchement de 50 % de chaque canal est utilisée pour générer des échantillons. Par conséquent, la forme d'un échantillon est 160 \(\times \) 64.

Pour rendre la technologie d'identification de personne EEG réaliste et faisable, la stabilité et la robustesse du système doivent pouvoir être garanties. Cela signifie également que le modèle doit être capable d'identifier de manière cohérente et précise les sujets par leurs signaux EEG, même si les sujets sont dans des états différents, comme heureux ou calmes, ou même en train de penser à quelque chose. Nous avons mené plusieurs expériences pour vérifier l'efficacité et la praticabilité de l'ETST sur la biométrie EEG. Le signal EEG dans le jeu de données Physionet contient quatre états, EO, EC, PHY et IMA. Nous avons conçu diverses expériences basées sur ces quatre états différents pour tester les performances de l'ETST dans divers scénarios. Les expériences que nous avons menées sont décrites ci-dessous.

Nous avons comparé notre modèle avec des méthodes d'identification EEG de pointe, ainsi qu'avec des méthodes de réseau neuronal traditionnelles telles que CNN, MLP et des méthodes d'apprentissage automatique traditionnelles telles que SVM. Dans les expériences de comparaison avec d'autres méthodes, nous avons mis en place trois sous-expériences. Le premier est la formation et les tests dans un seul état humain, et nous avons effectué une formation et des tests dans quatre états, EC, EO, IMA et PHY, ce qui correspond au cas de l'identification EEG d'une personne dans un état fixe. Le second est de s'entraîner dans un état et de tester dans un autre état, nous nous entraînerons sous les données EC et EO et testerons sous IMA et PHY. Ce type de tâche est le plus difficile, et il teste si le modèle obtenu par la formation sous un paradigme EEG peut être généralisé à d'autres paradigmes EEG. Le troisième est un mélange d'ensembles de données EC, EO, IMA et PHY pour la formation et les tests. Pour les expériences intra-état et divers états, nous divisons au hasard l'ensemble de données en 4: 1 en tant qu'ensemble d'apprentissage et ensemble de test respectivement.

Nous avons effectué des expériences d'ablation pour explorer l'effet de chaque partie du modèle sur les résultats. Le codage de position est un élément important du modèle. Le signal EEG contient des informations de position dans les domaines temporel et spatial. Le transformateur garantit que le modèle conserve les informations de localisation en ajoutant un codage de position aux espèces d'entrée. Nous étudions séparément l'effet de l'ajout d'un codage de position dans le domaine temporel et d'un codage de position dans le domaine spatial sur l'identification de la personne. En plus de comparer les codages de position spatiale et temporelle, nous avons également mené des expériences d'ablation sur la partie codeur d'ETST. Nous avons étudié les performances d'ETST lors de la suppression de TTE et STE respectivement, afin d'explorer le rôle de chaque partie de l'encodeur.

Dans les méthodes d'identification EEG, il n'y a pas eu de consensus sur la meilleure longueur de segmentation des échantillons. Par exemple, la longueur de segmentation utilisée par Wang et al. est de 1s34, tandis que la longueur de segmentation utilisée par Thiago Schons et al. est de 12s35, et il peut y avoir un grand écart entre les longueurs de segmentation des échantillons de différentes méthodes. Par conséquent, nous avons divisé l'ensemble de données avec différentes longueurs de fractionnement dans nos expériences pour explorer les performances de l'ETST avec différentes longueurs de fractionnement d'échantillon.

En plus des différentes longueurs de segmentation, le taux de chevauchement des échantillons affecte également directement la taille de l'échantillon résultant et le degré de chevauchement des informations entre les différents échantillons. La fonction de perte de Transformer est plus lisse que celle de CNN36, ce qui rend potentiellement Transformer plus difficile à faire converger avec des tailles d'échantillons plus petites, ce qui entraîne de moins bonnes performances. Par conséquent, nous concevons des expériences avec différentes longueurs de chevauchement d'échantillons et avons obtenu des ensembles de données d'apprentissage avec différentes tailles d'échantillons pour explorer l'effet de la taille de l'échantillon sur notre modèle.

Toutes les expériences de cet article sont réalisées sur le GPU NVIDIA TITAN Xp. Le nombre de couches TTE, le nombre de têtes de couches TTE, le nombre de couches STE et le nombre de têtes de couches STE dans le modèle sont respectivement définis sur 2, 8, 2 et 8. Nous utilisons l'optimiseur AdamW37 avec un taux d'apprentissage, une décroissance du poids et une taille de lot de 4e-5, 1e-6 et 256, respectivement, pour optimiser le réseau.

Actuellement, les algorithmes d'identification de personnes basés sur l'EEG sont généralement classés en deux catégories. L'un est les algorithmes d'apprentissage automatique traditionnels, qui nécessitent généralement une extraction manuelle des caractéristiques, notamment la densité spectrale de puissance (PSD), le coefficient auto-régressif (AR) et l'entropie floue (FuzzEn). Une autre catégorie est celle des algorithmes d'apprentissage en profondeur, tels que les modèles de réseaux neuronaux basés sur CNN ou RNN. De plus, comme le concept de graphe correspond bien à la connectivité fonctionnelle en neurosciences, où les caractéristiques des graphes sont utilisées pour représenter les relations entre les régions du cerveau, les réseaux de neurones à convolution de graphes (GCNN) gagnent également en popularité dans le domaine de l'EEG. Wang et al. calculé la valeur de verrouillage de phase (PLV) et la corrélation de Pearson (COR) comme caractéristique de bord entre les nœuds pour construire des graphiques et obtenir des résultats de pointe34. Nous avons comparé notre méthode avec d'autres méthodes avancées15. Nous avons également exploré l'effet des récents modèles basés sur les transformateurs, qui combinent CNN et attention38,39. Par conséquent, nous avons utilisé les méthodes susmentionnées comme référence et les avons comparées aux résultats de notre modèle.

Dans la première expérience, nous avons étudié les performances de l'ETST dans le même état unique. Nous avons formé et testé ETST sur un ensemble de données à un seul état pour évaluer les performances mentionnées. Les résultats sont présentés dans le tableau 1. Les résultats expérimentaux montrent que notre méthode proposée surpasse toutes les méthodes lorsque les données sont dans le même état, à l'exception d'un résultat qui est légèrement inférieure à celle de GCNN, seulement 0,2 % inférieure.

Les signaux EEG peuvent varier considérablement selon différents états, par exemple, les ondes delta sont associées à une attention accrue40, les ondes alpha sont liées à diverses caractéristiques cognitives telles que la performance des tâches41, tandis que les ondes bêta sont liées au mouvement ou à l'imagerie motrice42. Mais pour que la biométrie EEG soit pratique dans la vie réelle, l'algorithme doit être robuste aux changements d'état. En d'autres termes, le modèle doit être capable de reconnaître l'identité de l'utilisateur dans différents états. Par conséquent, dans la deuxième expérience, nous évaluons la capacité de généralisation de notre méthode proposée dans différents états en formant et en testant ETST sur différents ensembles de données. Les données EO et EC ont été utilisées comme ensembles d'apprentissage et testées respectivement sur les données PHY et IMA. Le tableau 2 montre les résultats de cette expérience, qui est l'ensemble d'apprentissage et les ensembles de test sont dans différents états. Les résultats montrent que l'ETST présente une amélioration significative par rapport aux autres méthodes dans la condition des différents états. Par rapport au GCNN, les améliorations sont de 10,3 % en PHY et de 10,27 % en IMA. Lorsque les états des ensembles d'entraînement et de test étaient différents, toutes les méthodes souffraient d'une dégradation des performances à des degrés divers, le GCNN diminuant d'environ 13 %, le SVM d'environ 40 % et la précision des méthodes restantes tombant à moins de 30 % . Cela indique que les autres modèles se limitent à extraire des caractéristiques des mêmes états et ont une faible capacité de généralisation pour différents états. En revanche, le modèle ETST ne diminue que d'environ 3 %, ce qui indique que l'ETST est capable d'extraire des caractéristiques valables dans divers états.

Pour améliorer la robustesse du modèle à divers états mentaux, en plus de la forte capacité de généralisation du modèle lui-même, une autre approche consiste à inclure plusieurs états dans l'ensemble d'apprentissage et à faire apprendre au modèle à extraire des caractéristiques communes à tous les états. Par conséquent, dans la troisième expérience, nous avons inclus tous les états dans les ensembles d'entraînement et de test, y compris EO, EC, PHY et IMA. ETST obtient des résultats proches des meilleurs, comme le montre le tableau 3. Par rapport aux résultats de l'expérience précédente, les résultats de cette expérience montrent une moindre diminution de la précision, et seul SVM a une diminution considérable, jusqu'à 73 %. Il montre que différents algorithmes peuvent obtenir de bons résultats dans le cas où les ensembles d'apprentissage et de test contiennent toutes les données d'état. Cependant, cette méthode d'amélioration n'est pas applicable à des scénarios réalistes. En raison de la complexité et de la variabilité des états humains, il est impossible de contenir les données de tous les états dans l'ensemble d'apprentissage. Par conséquent, la clé pour résoudre le problème d'identification de personne basé sur l'EEG est d'améliorer la capacité de généralisation du modèle entre différents états. Et notre ETST proposé possède une forte capacité de généralisation.

Dans Transformer, l'auto-attention calcule les pondérations d'attention pour toutes les entrées simultanément et additionne les pondérations pour obtenir la sortie. Dans ce processus, l'auto-attention considère les informations globales et ignore les informations de localisation des données d'entrée. Pour les données EEG, le signal contient des informations de localisation dans les domaines temporel et spatial, représentant respectivement différents points d'échantillonnage temporels et diverses régions du cerveau. Pour étudier l'effet des informations de localisation dans l'EEG sur l'identification de la personne, nous avons essayé de conserver les informations de localisation de l'EEG en ajoutant un codage de position à l'entrée des couches TTE et STE, respectivement. Nous comparons l'effet de l'ajout d'un codage positionnel à ETST dans les domaines temporel et spatial sous l'ensemble de données inter-états, et les résultats sont présentés dans le tableau 4. Il montre que l'ajout uniquement du codage de position spatiale produit un meilleur résultat que celui du codage temporel. encodage de position. Cette conception de modèle a également donné les meilleures performances de notre modèle (97 % en IMA, 97 % en PHY). L'ajout de l'encodage de position temporelle et spatiale a généré le deuxième meilleur résultat (96 % en IMA, 95 % en PHY). Nous avons constaté que les performances du modèle peuvent être améliorées en ajoutant des informations spatiales, tout en étant diminuées en ajoutant des informations temporelles. De plus, en observant le processus de formation du modèle, nous avons découvert que l'ajout des informations de localisation dans le domaine temporel affecte également l'efficacité de la formation dans une certaine mesure, rendant le modèle plus susceptible de converger vers des minima moins bons, ce qui conduit à de mauvais résultats. Nous pensons que le codage de position absolue dans le domaine temporel rompt l'invariance de traduction des signaux EEG, ce qui rend plus difficile pour le modèle d'extraire les caractéristiques du domaine temporel. Le codage de position spatiale absolue conserve les informations de position des différents canaux. Contrairement au même point d'échantillonnage qui peut apparaître à différents emplacements dans des échantillons adjacents, les positions des canaux dans les échantillons sont fixes. Ainsi, l'inclusion d'un codage de position absolue dans le domaine spatial pourrait plutôt améliorer la capacité du modèle à extraire des caractéristiques spatiales.

Le modèle ETST contient deux parties, la couche TTE et la couche STE, pour extraire les caractéristiques du domaine temporel et du domaine spatial, respectivement. Pour illustrer l'importance des deux caractéristiques distinctes sur les résultats expérimentaux, nous avons mené des expériences d'ablation sous cross-state pour que le modèle reflète la nécessité de chaque partie de notre modèle. Comme on peut le voir dans le tableau 5, nous avons comparé les résultats sous les modèles TTE, STE et TTE + STE. Les résultats indiquent que l'utilisation uniquement de la couche TTE ou uniquement de la couche STE réduit considérablement la précision. De plus, les résultats montrent que la couche TTE a une précision de classification légèrement supérieure à celle de STE (75,19 % en IMA et 72,98 % en PHY contre 70,22 % en IMA et 68,98 % en PHY). Par conséquent, on peut montrer que les informations du domaine temporel sont plus importantes que les informations du domaine spatial pour l'identification des personnes. Afin d'acquérir simultanément des informations temporelles et spatiales EEG, notre modèle se compose de couches TTE et STE, ce qui peut considérablement améliorer les performances du modèle et ainsi obtenir l'effet de pointe.

La longueur de segmentation de l'échantillon varie dans les méthodes précédentes. En conséquence, certaines méthodes peuvent ne fonctionner qu'avec des longueurs de segmentation d'échantillon plus courtes, tandis que d'autres font le contraire. La même méthode avec des échantillons de différentes longueurs divisées peut donner des résultats très variables. Pour illustrer la généralisation de la longueur d'échantillon de notre méthode, nous avons comparé la précision de classification du modèle sous différents échantillons de longueur de segmentation. Il convient de noter que l'utilisation d'un échantillon plus long entraînerait une taille d'échantillon plus petite. Par exemple, la taille de l'échantillon de longueur de segmentation de 5 s n'est qu'environ un cinquième de celle de 1 s. D'après la figure 3, l'échantillon de longueur 1 s obtient les meilleurs résultats avec le même taux de chevauchement. De plus, nous pouvons voir que plus la longueur de l'échantillon est longue, plus la précision de la classification est faible. Namuk Park et al.36 ont mentionné que pour Transformer, la taille de l'ensemble de données affecte directement les résultats de formation finaux en raison de sa fonction de perte plus lisse, c'est-à-dire que le transformateur fonctionne moins bien avec moins d'échantillons.

Nous essayons d'augmenter le nombre d'échantillons en augmentant le taux de recouvrement de la fenêtre glissante. L'augmentation des données des échantillons est effectuée en utilisant un taux de chevauchement de 80 % et les résultats sont comparés pour différentes tailles d'ensembles d'apprentissage. Comme le montre la figure 3, lorsque nous avons modifié le taux de chevauchement à 80 %, et donc agrandi la taille de l'échantillon de l'ensemble de données de deux fois, la précision du modèle a augmenté. La précision 5 s monte à 95,44 %, légèrement inférieure d'environ 2 % par rapport à la précision 1 s. Cela suggère qu'une taille d'échantillon insuffisante des données détériore les performances du modèle basé sur le transformateur. En général, quelle que soit la longueur de l'échantillon, notre modèle atteint des résultats de pointe.

Résultats du modèle ETST dans différentes longueurs de segment et chevauchements.

Dans cet article, nous proposons ETST, un modèle d'apprentissage profond basé sur le mécanisme de l'attention. Nous avons utilisé un mécanisme d'attention à plusieurs têtes pour extraire les caractéristiques temporelles et spatiales des signaux EEG. L'encodeur de transformateur temporel dans le modèle est capable d'extraire des représentations distinguables à longue portée, et l'encodeur de transformateur spatial est capable d'acquérir des dépendances spatiales entre les canaux, ce qui caractérise la connectivité fonctionnelle entre les régions du cerveau. De cette façon, grâce à plusieurs cycles de pondération de l'attention, le modèle est capable de se concentrer sur les caractéristiques les plus pertinentes pour les véritables étiquettes de classification. Les résultats expérimentaux indiquent que notre méthode atteint une précision de pointe sur l'identification de la personne, ce qui valide également la faisabilité de l'EEG sur la biométrie. Le modèle est également robuste à différents états. Les résultats des expériences d'ablation montrent que les caractéristiques temporelles ont un effet relativement significatif sur le résultat de la biométrie EEG. Il démontre également que le codage de position absolue dans l'espace améliore le modèle. Cela indique que des canaux spécifiques et la corrélation entre les canaux peuvent tous deux avoir un impact sur l'identification de la personne. Les expériences démontrent que des données EEG plus longues entraînent une légère diminution des performances du mécanisme de l'attention. En outre, l'application de Transformer dans l'EEG nécessite suffisamment de données pour garantir ses performances. Par conséquent, il est nécessaire d'étudier la méthode d'argumentation des données pour les données EEG dans les études futures. De plus, le choix des hyper-paramètres pour notre modèle n'est pas encore optimal en raison de la limitation du temps, ce qui conduit à des performances sous-optimales du modèle.

Les problèmes de stabilité et de cohérence sont deux problèmes clés dans la mise en œuvre de la biométrie EEG dans des applications pratiques, et il est nécessaire de s'assurer que le modèle peut réidentifier correctement les utilisateurs, quelles que soient les conditions et les heures. Cela nécessite que le modèle soit capable d'extraire des caractéristiques invariantes dans le temps et dans l'état. Dans les travaux futurs, nous explorerons de nouvelles approches pour effectuer une extraction de caractéristiques plus efficace pour les signaux EEG. Les méthodes potentielles incluent le filtrage des caractéristiques de la bande alpha des signaux EEG, qui présentent une forte variance interindividuelle à l'état de repos ; et sélectionner les canaux avec une forte corrélation avec l'identification de la personne tout en supprimant l'effet des canaux redondants. Dans le même temps, des expériences sur l'identification de personnes basée sur l'EEG à des jours différents doivent encore être menées.

L'ensemble de données utilisé pour cette étude est accessible au public et accessible en ligne sur la base de données PhysioNet [https://physionet.org/content/eegmmidb/1.0.0/]32.

Soomro, ZA, Shah, MH et Ahmed, J. La gestion de la sécurité de l'information nécessite une approche plus holistique : une revue de la littérature. Int. J. Inf. Géré. 36, 215-225 (2016).

Article Google Scholar

Cappelli, R., Ferrara, M. & Maltoni, D. Code-cylindre Minutia : Une nouvelle technique de représentation et d'appariement pour la reconnaissance d'empreintes digitales. IEEE Trans. Modèle Anal. Mach. Renseignement. 32, 2128-2141 (2010).

Article Google Scholar

Masek, L. et al. Reconnaissance des modèles d'iris humains pour l'identification biométrique. doctorat thèse, Citeseer (2003).

Guillaumin, M., Verbeek, J. & Schmid, C. Est-ce vous ? Approches d'apprentissage métrique pour l'identification des visages. En 2009, 12e Conférence internationale de l'IEEE sur la vision par ordinateur 498–505 (IEEE, 2009).

Campisi, P. & La Rocca, D. Ondes cérébrales pour la reconnaissance automatique des utilisateurs basée sur la biométrie. IEEE Trans. Inf. Sécurité médico-légale. 9, 782–800 (2014).

Article Google Scholar

Tan, D. & Nijholt, A. Interfaces cerveau-ordinateur et interaction homme-ordinateur. Dans Interfaces cerveau-ordinateur (eds Tan, DS & Nijholt, A.) 3–19 (Springer, 2010).

Chapitre Google Scholar

Min, B.-K., Marzelli, MJ & Yoo, S.-S. Approches basées sur la neuroimagerie dans l'interface cerveau-ordinateur. Tendances Biotechnol. 28, 552–560 (2010).

Article CAS Google Scholar

Berkhout, J. & Walter, DO Stabilité temporelle et différences individuelles dans l'EEG humain : analyse de la variance des valeurs spectrales. IEEE Trans. Biomédical. Ing. 3, 165-168 (1968).

Article Google Scholar

Vogel, F. La base génétique de l'électroencéphalogramme humain normal (EEG). Génétique humaine 10, 91–114 (1970).

Article CAS Google Scholar

Van Dis, H., Corner, M., Dapper, R., Hanewald, G. & Kok, H. Différences individuelles dans l'électroencéphalogramme humain pendant l'éveil calme. Électroencéphalogramme. Clin. Neurophysiol. 47, 87–94 (1979).

Article Google Scholar

Henry, CE Différences individuelles électroencéphalographiques et leur constance : I. Pendant le sommeil. J. Exp. Psychol. 29, 117 (1941).

Article Google Scholar

Henry, CE Différences individuelles électroencéphalographiques et leur constance : II. Au réveil. J. Exp. Psychol. 29, 236 (1941).

Article Google Scholar

Ruiz-Blondet, MV, Jin, Z. & Laszlo, S. Cerebre : Une nouvelle méthode d'identification biométrique potentielle liée à un événement de très haute précision. IEEE Tran. Inf. Sécurité médico-légale. 11, 1618-1629 (2016).

Article Google Scholar

Kong, X., Kong, W., Fan, Q., Zhao, Q. et Cichocki, A. Identification EEG indépendante de la tâche via la décomposition matricielle de rang inférieur. En 2018, Conférence internationale IEEE sur la bioinformatique et la biomédecine (BIBM) 412–419 (IEEE, 2018).

Wang, M., Hu, J. & Abbass, HA Empreinte cérébrale : identification biométrique EEG basée sur l'analyse des graphiques de connectivité cérébrale. Reconnaissance de modèle. 105, 107381 (2020).

Article Google Scholar

Moctezuma, LA & Molinas, M. Optimisation multi-objectifs pour la sélection des canaux EEG et la détection précise des intrus dans un système d'identification de sujet basé sur l'EEG. Sci. Rép. 10, 1–12 (2020).

Article Google Scholar

Alyasseri, ZAA, Khader, AT, Al-Betar, MA & Alomari, OA Identification de la personne à l'aide de la sélection du canal EEG avec l'algorithme de pollinisation des fleurs hybrides. Reconnaissance de modèle. 105, 107393 (2020).

Article Google Scholar

Yıldırım, Ö., Baloglu, UB & Acharya, UR Un modèle de réseau neuronal à convolution profonde pour l'identification automatisée des signaux EEG anormaux. Calcul neuronal. Appl. 32, 15857–15868 (2020).

Article Google Scholar

Wilaiprasitporn, T. et al. Identification affective de la personne basée sur l'EEG en utilisant l'approche d'apprentissage en profondeur. IEEE Trans. Connaître. Dév. Syst. 12, 486–496 (2019).

Article Google Scholar

Özdenizci, O., Wang, Y., Koike-Akino, T. & Erdoğmuş, D. Apprentissage approfondi contradictoire en biométrie EEG. Processus de signal IEEE. Lett. 26, 710–714 (2019).

Annonces d'article Google Scholar

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Dans Advances in Neural Information Processing Systems, vol. 30 (2017).

Dosovitskiy, A. et al. Une image vaut 16x16 mots : Transformateurs pour la reconnaissance d'images à grande échelle. prétirage arXiv arXiv:2010.11929 (2020).

Liu, Z. et al. Transformateur Swin : Transformateur de vision hiérarchique utilisant des fenêtres décalées. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur 10012–10022 (2021).

Arjun, A., Rajpoot, AS & Panicker, MR Présentation du mécanisme d'attention pour les signaux EEG : reconnaissance des émotions avec les transformateurs de vision. En 2021, 43e conférence internationale annuelle de l'IEEE Engineering in Medicine and Biology Society (EMBC) 5723–5726 (IEEE, 2021).

Lee, Y.-E. & Lee, S.-H. Transformateur EEG : Auto-attention de l'architecture du transformateur pour décoder l'EEG de la parole imaginée. En 2022, 10e Conférence internationale d'hiver sur l'interface cerveau-ordinateur (BCI) 1–4 (IEEE, 2022).

Tao, Y. et al. Transformateur à grille pour décoder les signaux EEG du cerveau humain. En 2021, 43e Conférence internationale annuelle de l'IEEE Engineering in Medicine and Biology Society (EMBC) 125–130 (IEEE, 2021).

Song, Y., Jia, X., Yang, L. & Xie, L. Apprentissage de caractéristiques spatio-temporelles basé sur un transformateur pour le décodage EEG. prétirage arXiv arXiv:2106.11170 (2021).

Kostas, D., Aroca-Ouellette, S. & Rudzicz, F. Bendr : Utilisation de transformateurs et d'une tâche d'apprentissage auto-supervisée contrastive pour apprendre à partir de quantités massives de données EEG. Devant. Hum. Neurosci. 15, 1–15 (2021).

Article Google Scholar

Bagchi, S. & Bathula, DR EEG-convtransformer pour la classification des stimuli visuels basés sur l'EEG à essai unique. Reconnaissance de modèle. 129, 108757 (2022).

Article Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes 770–778 (2016).

Ba , JL , Kiros , JR & Hinton , GE Normalisation des couches . prétirage arXiv arXiv:1607.06450 (2016).

Goldberger, AL et al. Physiobank, physiotoolkit et physionet : composants d'une nouvelle ressource de recherche pour les signaux physiologiques complexes. Circulation 101, e215–e220 (2000).

CAS PubMed Google Scholar

Schalk, G., McFarland, DJ, Hinterberger, T., Birbaumer, N. & Wolpaw, JR BCI 2000 : Un système d'interface cerveau-ordinateur (BCI) à usage général. IEEE Trans. Biomédical. Ing. 51, 1034-1043 (2004).

Article Google Scholar

Wang, M., El-Fiqi, H., Hu, J. & Abbass, HA Réseaux de neurones convolutifs utilisant une connectivité fonctionnelle dynamique pour l'identification de personnes basée sur l'EEG dans divers états humains. IEEE Trans. Inf. Sécurité médico-légale. 14, 3259–3272 (2019).

Article Google Scholar

Schons, T., Moreira, GJ, Silva, PH, Coelho, VN & Luz, EJ Réseau convolutionnel pour la biométrie basée sur l'EEG. Dans Congrès ibéro-américain sur la reconnaissance des formes, 601–608 (Springer, 2017).

Park, N. & Kim, S. Comment fonctionnent les transformateurs de vision ? prétirage arXiv arXiv:2202.06709 (2022).

Loshchilov, I. & Hutter, F. Régularisation de la décroissance du poids découplée. prétirage arXiv arXiv:1711.05101 (2017).

Wu , Z. , Liu , Z. , Lin , J. , Lin , Y. & Han , S. Transformateur Lite avec attention longue-courte portée . prétirage arXiv arXiv:2004.11886 (2020).

Wang, Y. et al. Attention évolutive avec circonvolutions résiduelles. Dans Conférence internationale sur l'apprentissage automatique 10971–10980 (PMLR, 2021).

Harmony, T. et al. Activité delta EEG : un indicateur de l'attention portée au traitement interne lors de l'exécution de tâches mentales. Int. J. Psychophysiol. 24, 161-171 (1996).

Article CAS Google Scholar

Jann, K., Koenig, T., Dierks, T., Boesch, C. et Federspiel, A. Association de la fréquence EEG alpha de l'état de repos individuel et du flux sanguin cérébral. Neuroimage 51, 365–372 (2010).

Article Google Scholar

McFarland, DJ, Miner, LA, Vaughan, TM & Wolpaw, JR Mu et topographies rythmiques beta pendant l'imagerie motrice et les mouvements réels. Cerveau Topogr. 12, 177-186 (2000).

Article CAS Google Scholar

Télécharger les références

Ces auteurs ont contribué à parts égales : Yang Du, Yongling Xu et Xiaoan Wang.

Big Data Center, Nanfang Hospital, Southern Medical University, Guangzhou, 510515, Chine

Yang Du, Li Liu et Pengcheng Ma

Brainup Research Lab, Naolu Technology Co., Ltd., Pékin, 100124, Chine

Yongling Xu et Xiaoan Wang

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

YD et YX ont proposé la méthode, réalisé les expériences et rédigé le manuscrit. XW, LL et PM ont donné des conseils sur l'expérience et examiné le manuscrit.

Correspondance à Xiaoan Wang, Li Liu ou Pengcheng Ma.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Du, Y., Xu, Y., Wang, X. et al. Transformateur EEG spatio-temporel pour l'identification des personnes. Sci Rep 12, 14378 (2022). https://doi.org/10.1038/s41598-022-18502-3

Télécharger la citation

Reçu : 11 avril 2022

Accepté : 12 août 2022

Publié: 23 août 2022

DOI : https://doi.org/10.1038/s41598-022-18502-3

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER