Ordinateur de réservoir physique Hopf pour la reconnaissance sonore reconfigurable

Rapports scientifiques volume 13, Numéro d'article : 8719 (2023) Citer cet article

271 accès

3 Altmétrique

Détails des métriques

L'oscillateur de Hopf est un oscillateur non linéaire qui présente un mouvement de cycle limite. Cet ordinateur réservoir utilise la nature vibratoire de l'oscillateur, ce qui en fait un candidat idéal pour les tâches de reconnaissance sonore reconfigurables. Dans cet article, les capacités de l'ordinateur du réservoir Hopf effectuant la reconnaissance sonore sont systématiquement démontrées. Ce travail montre que l'ordinateur du réservoir Hopf peut offrir une précision de reconnaissance sonore supérieure par rapport aux approches héritées (par exemple, une approche spectre Mel + apprentissage automatique). Plus important encore, l'ordinateur du réservoir Hopf fonctionnant comme un système de reconnaissance sonore ne nécessite pas de prétraitement audio et a une configuration très simple tout en offrant un degré élevé de reconfigurabilité. Ces caractéristiques ouvrent la voie à l'application de l'informatique de réservoir physique pour la reconnaissance sonore dans les dispositifs de périphérie à faible consommation.

Il existe des méthodes omniprésentes de classification des signaux audio, en particulier pour la reconnaissance vocale1,2. Cependant, le machine learning souffre de plusieurs inconvénients qui entravent sa large diffusion sur l'Internet des objets (IoT)3. Premièrement, l'apprentissage automatique, en particulier les réseaux de neurones profonds (DNN), s'appuient sur l'infrastructure cloud pour effectuer des calculs massifs à la fois pour la formation de modèles et l'inférence. Les modèles d'apprentissage en profondeur de pointe (SOTA), tels que GPT-3, peuvent avoir plus de 175 milliards de paramètres et des exigences de formation de 3,14 \(\times\) \(10^{23}\) FLOPS (opérations flottantes par seconde)4,5. La formation du modèle de transcription vocale SOTA, Whisper, a utilisé une bibliothèque de mots contenant autant de mots qu'une personne parlerait en continu pendant 77 ans6. Aucune de ces exigences techniques mentionnées ne pourrait être satisfaite par des dispositifs de périphérie pour l'IdO ; ainsi, l'infrastructure cloud est une nécessité pour les tâches DNN. Deuxièmement, le recours au cloud computing pour l'apprentissage automatique pose de grands risques pour la sécurité et la confidentialité. Plus de 60 % des failles de sécurité précédentes se sont produites lors de la communication de données brutes entre le cloud et la périphérie pour l'apprentissage automatique7. De plus, chaque violation entraîne une perte moyenne de 4,24 millions de dollars, et ce nombre ne cesse d'augmenter8. Le problème de confidentialité provoque la méfiance des utilisateurs d'appareils intelligents et conduit à l'abandon des appareils intelligents9,10. Troisièmement, l'impact environnemental de la mise en œuvre de DNN via une infrastructure cloud est souvent négligé mais ne peut être négligé. La formation d'un modèle de transformateur avec 213 millions de paramètres générera des émissions de dioxyde de carbone équivalant à quatre fois celles d'un véhicule d'un constructeur américain sur toute sa durée de vie11. Par conséquent, la prochaine génération d'appareils IoT intelligents doit posséder une puissance de calcul suffisante pour exploiter l'apprentissage automatique ou même l'apprentissage en profondeur à la périphérie.

Parmi les efforts visant à amener l'apprentissage automatique aux appareils de pointe, l'informatique de réservoir, en particulier l'informatique de réservoir physique, a généré un succès précoce au cours des deux dernières décennies. À partir des concepts de machines à état liquide et de réseaux d'état d'écho, les chercheurs ont démontré que les ondulations induites par le son à la surface d'un seau d'eau pouvaient être utilisées pour effectuer la reconnaissance du signal audio12. En un mot, l'informatique de réservoir exploite la non-linéarité intrinsèque d'un système physique pour reproduire le processus de connexions nodales dans un réseau de neurones afin d'extraire des caractéristiques à partir de signaux de séries temporelles pour la perception de la machine13,14. L'informatique de réservoir effectue directement des calculs de manière analogique en utilisant le système physique, ce qui élimine en grande partie la nécessité d'un stockage, d'une organisation et d'une perception d'apprentissage automatique des données séparés. Notamment, l'informatique de réservoir est naturellement adaptée aux tâches de traitement audio, qui sont un sous-ensemble de signaux de séries temporelles.

Les chercheurs ont exploré de nombreux systèmes physiques pour fonctionner comme des ordinateurs réservoirs pour le traitement temporel du signal. Ces systèmes comprennent le réseau de portes programmables par champ (FPGA)15, les réactions chimiques16, les memristors17, les jonctions tunnel superparamagnétiques18, la spintronique19, l'atténuation de la longueur d'onde des lasers dans des milieux spéciaux20, les MEMS (systèmes microélectromécaniques)21 et autres13,22. Bien que ces études aient démontré que l'informatique de réservoir pouvait gérer le traitement du signal audio, le système physique de calcul est généralement très lourd20, et elles nécessitent toutes un prétraitement des clips audio originaux à l'aide de méthodes telles que le spectre Mel, qui annule en grande partie les avantages de la réduction de la exigences de calcul de l'apprentissage automatique via l'informatique de réservoir. Plus important encore, pour augmenter la puissance de calcul, les techniques de calcul de réservoir conventionnelles utilisent une rétroaction temporisée obtenue par une conversion numérique-analogique23, et la rétroaction temporisée entravera la vitesse de traitement du calcul de réservoir tout en augmentant considérablement l'enveloppe de consommation d'énergie pour le calcul. . Nous suggérons que les performances moins que satisfaisantes du calcul des réservoirs physiques sont en grande partie causées par la puissance de calcul insuffisante des systèmes de calcul choisis par les travaux précédents.

Récemment, nous avons découvert que l'oscillateur de Hopf, qui est un modèle courant pour de nombreux processus physiques, dispose d'une puissance de calcul suffisante pour effectuer un apprentissage automatique. Bien qu'il s'agisse d'un système physique très simple, le calcul peut être réalisé sans nécessiter de traitement de données supplémentaire, de rétroaction temporisée ou de composants électriques auxiliaires24,25,26,27. Fait intéressant, l'activation non linéaire d'un réseau de neurones peut aussi parfois être capturée par le réservoir physique, ce qui peut encore simplifier l'architecture de l'ordinateur du réservoir physique (par exemple, un ordinateur du réservoir physique de l'actionneur en alliage à mémoire de forme28). Les performances de l'ordinateur de réservoir à oscillateur de Hopf sur un ensemble de tâches d'analyse comparative (par exemple, des tâches logiques, l'émulation de signaux de séries chronologiques et des tâches de prédiction) sont exceptionnelles par rapport à des réservoirs physiques beaucoup plus complexes.

Cet article est une extension des travaux antérieurs pour démontrer davantage les capacités exceptionnelles de l'ordinateur du réservoir Hopf pour les tâches de reconnaissance du signal audio. L'oscillateur de Hopf agit comme un filtre non linéaire, mais une partie de la tâche de calcul est également déchargée sur l'ordinateur du réservoir physique de Hopf. Sur la base de nos travaux précédents, l'oscillateur de Hopf effectue à la fois des calculs et stocke des informations dans ses états dynamiques24,25. Fondamentalement, la réponse non linéaire de l'oscillateur est un type d'informatique non traditionnelle, qui est déverrouillée grâce à l'apprentissage automatique. De plus, les états dynamiques de l'oscillateur agissent comme un type de mémoire locale, car aucune mémoire supplémentaire n'a été introduite via des lignes à retard. Dans ce travail précédent sur l'oscillateur de Hopf, une seule couche de lecture a été formée pour effectuer une batterie de tâches. Ici, la couche de lecture unique est remplacée par un réseau neuronal relativement peu profond pour des tâches plus difficiles, telles que la reconnaissance sonore. Ces résultats indiquent l'efficacité de l'utilisation de ce type d'ordinateur réservoir pour l'informatique de pointe, ce qui pourrait ouvrir la voie à l'obtention d'une intelligence artificielle de pointe et d'un apprentissage en profondeur décentralisé dans un avenir prévisible.

L'oscillateur de Hopf forcé est représenté dans l'équation. (1)27,29 :

Dans les équations ci-dessus, x et y font respectivement référence aux premier et deuxième états de l'oscillateur de Hopf. Le terme \(\omega _0\) est la fréquence de résonance de l'oscillateur de Hopf. Le paramètre \(\mu\) affecte le rayon du mouvement du cycle limite. Par exemple, sans forçage externe, l'oscillateur de Hopf aurait un cycle limite de rayon \(\mu\), et il oscillerait à une fréquence de \(\omega _0\). Ce paramètre est également vaguement corrélé au facteur de qualité de l'oscillateur. A est l'amplitude d'une force sinusoïdale.

Pour que l'oscillateur classe les signaux audio, un signal de forçage externe contenant le signal audio, a(t) est construit, ce qui est illustré dans l'équation. (2); celui-ci est ensuite utilisé comme entrée de l'oscillateur de Hopf. L'oscillateur de Hopf modifié en tant que réservoir est représenté par les équations. (3) et (4) :

Le signal externe, f(t), est composé d'un décalage CC et du signal audio, a(t). Le décalage DC garantit que le paramètre de rayon n'est pas négatif. Ce signal externe est injecté à la fois dans le paramètre de rayon, \(\mu\), et dans la sinusoïde, \(A\sin (\Omega t)\). L'oscillateur Hopf répond dynamiquement au signal audio, et l'état x correspond aux fonctionnalités audio pour la tâche de classification audio d'apprentissage automatique. L'état y, bien qu'il ne soit pas explicitement utilisé dans la tâche de classification (comme illustré à la Fig. 1), stocke probablement des informations et aide à la tâche de calcul. Contrairement à la forme originale de l'ordinateur de réservoir d'oscillateur de Hopf, nous utilisons les oscillations de Hopf pour extraire les caractéristiques audio pour la classification au lieu d'utiliser directement les deux sorties d'état pour la prédiction du signal de série temporelle24. En tant que tel, plusieurs modifications sont apportées au schéma de calcul de l'ordinateur du réservoir de l'oscillateur de Hopf. Premièrement, cette formulation du réservoir n'inclut pas la procédure typique de multiplication des entrées avec la fonction de masquage, car aucune fonction de masquage n'est incluse. L'informatique de réservoir conventionnelle utilise un masque prédéfini multipliant les sorties du réservoir pour créer des neurones dans le système de réservoir. L'entraînement du masque équivaut à la mise à jour des paramètres lors de l'entraînement des réseaux de neurones réalisés numériquement. Cependant, cette méthode est coûteuse en mémoire et inefficace pour le traitement du signal audio, car la longueur du masque doit être suffisante pour couvrir la longueur du clip audio et les connexions nodales nécessaires à la classification du signal. Au lieu de masques d'entraînement, nous utilisons une lecture de réseau neuronal convolutif à plusieurs couches plus efficace pour alimenter directement les sorties du réservoir et former les connexions entre chaque couche en tant que paramètres. Deuxièmement, le bruit gaussien n'est pas multiplié par le signal audio, car les signaux audio ont déjà un bruit de fond. Ce masque de bruit a été utilisé dans une précédente étude informatique du réservoir Hopf pour mettre en évidence sa robustesse24. Troisièmement, au lieu d'utiliser une pseudo-période pour guider la formation de la lecture de l'apprentissage automatique, nous utilisons le nombre d'échantillons collectés pour la classification afin de contrôler les connexions nodales au sein de chaque point caractéristique collecté généré à partir du réservoir traitant les données audio 1D. N nœuds virtuels signifient que pour chaque point d'échantillonnage de l'audio d'origine, le réservoir générera \(N-1\) connexions nodales en 1D pour chaque état du réservoir pour la classification. Par exemple, avec N nœuds virtuels, un point de données audio échantillonné est traité par le nœud physique (c'est-à-dire x sur la Fig. 1) \(N-1\) fois, ce qui crée N points caractéristiques à partir d'un échantillon audio et \(N -1\) connexions nodales dans ces N points caractéristiques. Dans le présent article, nous définissons N sur 100 pour le traitement audio. Cette méthode entrave la vitesse d'échantillonnage des signaux audio. Ainsi, nous rééchantillonnons les données audio originales en pleine résolution pour nous assurer que nous effectuons des expériences dans un délai relativement court. Il convient de noter que la longueur des clips audio pour chaque événement de classification construit effectivement la pseudo-période dans le contexte traditionnel du calcul du réservoir via des boucles de rétroaction temporisées (c'est-à-dire qu'une longueur fixe de l'audio produira un résultat de classification avec détails fournis ultérieurement). La connexion nodale éventuelle de l'ordinateur du réservoir Hopf et de la gestion des sorties pourrait être conceptualisée comme Fig. 1.

Un schéma montrant les connexions nodales dans un oscillateur de Hopf pour le calcul de réservoir. Le signal d'origine, f(t), est envoyé aux deux états de l'oscillateur (c'est-à-dire, deux nœuds physiques). Chaque nœud physique génère N nœuds virtuels en série temporelle. Les couches de lecture numérique (c'est-à-dire l'algorithme d'apprentissage automatique) liront n échantillons du nœud x de l'oscillateur (notez que nous n'utilisons qu'un seul nœud pour la classification audio dans le présent article). \(n_0\) correspond au nombre d'échantillons du signal audio d'origine, et N fait référence au nombre de nœuds virtuels contrôlés par les mécanismes de lecture. Le signal du réservoir est ensuite envoyé à un réseau de neurones, qui est indiqué par la flèche bleue en pointillés ; ce réseau de neurones est décrit sur la figure 12. La lecture numérique classera les n échantillons correspondant à un clip audio dans sa classe.

Ici, l'ordinateur du réservoir Hopf est utilisé pour calculer des cartes de caractéristiques, avec plusieurs exemples représentatifs illustrés à la Fig. 2. "VN #" fait référence au numéro de nœud virtuel et l'échelle de temps pour l'autre axe est définie de telle sorte que la taille du pas l'inverse du taux d'échantillonnage. La valeur de la carte des caractéristiques est remise à l'échelle de 0 à 1. Des couches convolutives consécutives, suivies de la couche aplatie et des couches entièrement connectées illustrées à la Fig. 12, construisent la lecture d'apprentissage automatique pour traiter les sorties de signal audio du réservoir, qui est décrit plus en détail dans la section "Méthodes". Notez qu'une approche similaire est appliquée dans la reconnaissance des sons urbains SOTA sur les appareils périphériques30, bien que nous éliminions le prétraitement coûteux en calcul du spectrogramme Mel en déchargeant l'extraction des caractéristiques sur l'ordinateur du réservoir. Plus important encore, notre approche pourrait utiliser un échantillonnage très grossier (4000 Hz a été utilisé ici) au lieu du spectrogramme Mel appliqué en 30 pour capturer la granularité des signaux audio. Une comparaison détaillée est fournie dans la section suivante pour démontrer l'extraction supérieure des caractéristiques à partir de l'ordinateur du réservoir Hopf.

Exemples de cartes de caractéristiques générées par l'oscillateur Hopf correspondant à différents événements audio. Chaque clip audio a une durée de 1 seconde échantillonnée à 4000 Hz. L'axe des x suit l'ordre arithmétique des nœuds virtuels et l'axe des y est le temps. Le réservoir est configuré pour avoir 100 nœuds pour le test. La valeur d'échelle de gris (de 0 à 1) de chaque pixel correspond à l'intensité du signal de chaque point de données (c'est-à-dire le point caractéristique du signal audio). (a) Climatiseur. (b) Klaxon de voiture. (c) Enfants jouant. (d) Chien qui aboie. (e) Forage. (f) Moteur au ralenti. (g) Coup de feu. (h) Marteau-piqueur. (i) Sirène. j) Musique de rue.

Tout d'abord, nous présentons les résultats de l'ordinateur du réservoir Hopf pour une tâche de reconnaissance sonore urbaine. Comme le montre la Fig. 3 dans la colonne de gauche, les caractéristiques audio des opérations du spectre Mel (telles que calculées sur les clips audio avec un taux d'échantillonnage de 44,1 kHz) montrent des différences drastiques entre les trois exemples ; en utilisant l'exemple du haut comme référence, la distance euclidienne ponctuelle moyenne entre la référence et les deux autres est supérieure à 25. En comparaison, les caractéristiques audio du Hopf RC sont présentées dans la colonne de droite de la Fig. 3 ; les trois exemples ont une similitude beaucoup plus élevée pour ces trois exemples (par exemple, distance euclidienne < 12). La distance euclidienne moyenne des échantillons entre les classes est :

où c(x, y) est l'amplitude de l'ordinateur du réservoir Hopf au temps x et le numéro de nœud virtuel y. Ici, i est indexé sur la classe I, j est indexé sur la classe J, \(\alpha\) est indexé sur toutes les valeurs de x, et \(\beta\) est indexé sur toutes les valeurs de y. Les distances euclidiennes moyennes sont présentées sur la figure 4. La diagonale a la valeur minimale pour chaque colonne et ligne, ce qui démontre que l'oscillateur de Hopf est capable de séparer les classes, même sans le réseau de neurones.

Le spectre Mel est comparé au Hopf RC pour la tâche de reconnaissance des sons urbains. De haut en bas, trois exemples de la classe sirène sont présentés. Dans la colonne de gauche, l'énergie du spectre Mel est indiquée, où l'axe horizontal est le temps et l'axe vertical est la fréquence. L'opération de spectre Mel est effectuée sur des échantillons d'une durée de quatre secondes avec une fréquence d'échantillonnage de 44,1 kHz. Le nombre total de bandes de fréquences est fixé à 100 et le pas de temps est fixé à 0,025 seconde. Dans la colonne de droite, les caractéristiques audio extraites de l'ordinateur du réservoir Hopf pour les mêmes échantillons, de sorte que chaque clip audio d'une seconde est sous-échantillonné à 4000 Hz et le nombre de nœuds virtuels est défini sur 100. Notamment, les résultats Mel et le Hopf les résultats du réservoir ne se ressemblent pas, mais les informations véhiculées par chaque processus sont cohérentes en interne, ce qui est mis en évidence par les performances du classifieur.

Les distances euclidiennes moyennes sont présentées dans cette matrice symétrique pour les dix classes sonores urbaines. Les distances euclidiennes moyennes ont été calculées entre tous les échantillons d'une même classe (éléments diagonaux) et entre tous les échantillons de deux classes (éléments hors diagonale).

La robustesse de la classification audio est également d'une grande importance pour les applications du monde réel. Pour mettre cela en évidence, les résultats du spectre Mel sont comparés aux résultats Hopf RC pour trois niveaux de bruit différents. En utilisant l'exemple de la rangée supérieure de la figure 3, du bruit blanc est ajouté au signal d'origine pour créer différents rapports signal sur bruit (SNR); les caractéristiques audio de ces trois nouveaux signaux sont calculées avec le spectre Mel (en utilisant un taux d'échantillonnage audio de 44,1 kHz) et l'ordinateur du réservoir Hopf (en utilisant un taux d'échantillonnage audio de 4000 Hz). Les caractéristiques audio de sortie sont illustrées à la Fig. 5. Il est clairement montré que les caractéristiques audio basées sur le spectre Mel perdent des informations de basse fréquence lorsque le SNR est réduit à 20, tandis que les caractéristiques générées par l'ordinateur du réservoir Hopf conservent une structure similaire avec le contrepartie audio d'origine, avec la distance euclidienne < 5 pour un SNR de 20.

La robustesse de l'extraction audio Hopf RC est comparée au spectre Mel pour différents rapports signal sur bruit (SNR). Pour la visualisation, l'exemple de sirène illustré en haut de la Fig. 3 est utilisé avec différents niveaux de bruit. De haut en bas, trois niveaux de bruit différents ont été ajoutés à l'exemple audio original de la sirène. Dans la colonne de gauche, l'énergie du spectre Mel est indiquée. Notez que le résultat commence à perdre des informations de basse fréquence lorsque le SNR tombe à 20. Dans la colonne de droite, les caractéristiques audio extraites à l'aide du Hopf RC sont affichées. Notez que le résultat reste largement le même pour tous les niveaux de bruit, même lorsque le SNR est égal à 20.

La matrice de confusion pour la tâche de reconnaissance des sons urbains est illustrée à la Fig. 6. L'approche de reconnaissance audio proposée basée sur l'ordinateur du réservoir Hopf a une précision de 96,2 %. Cela représente une amélioration de la précision de 10 % par rapport à 30, avec une réduction de> 94 % des FLOPS (opérations flottantes par seconde) pour la lecture à taux d'échantillonnage élevé et le calcul du spectre Mel et \(\sim {90\%}\) de la pièces audio pour la formation.

Pour la tâche de reconnaissance des sons urbains, la matrice de confusion est présentée avec la précision de reconnaissance étiquetée pour les dix événements audio différents. Notez que les étiquettes de classe dans cette figure sont les mêmes que les étiquettes de classe de la Fig. 2.

En utilisant le modèle d'apprentissage automatique formé à partir du cas de test précédent (c'est-à-dire la tâche de reconnaissance des sons urbains) comme référence, nous testons l'ensemble de données de commande vocale Qualcomm pour démontrer la reconfigurabilité du système de reconnaissance audio de l'ordinateur du réservoir Hopf. Dans cette expérience, nous réduisons délibérément le nombre d'époques à 20 et gelons la partie CNN du modèle d'apprentissage automatique pour reconfigurer le processus du système de reconnaissance audio de la tâche de détection des sons urbains à une tâche de commande vocale. Dans la partie gauche de la Fig. 7, les caractéristiques audio représentatives des quatre classes sont présentées, qui présentent des différences significatives par rapport aux caractéristiques des événements sonores urbains (Fig. 2). La reconnaissance audio donne une précision> 99%, avec la matrice de confusion représentée dans la partie droite de la Fig. 7. Notez que le nombre de paramètres formés pour cette expérience est d'environ 35 000, ce qui représente environ 300 Ko de mémoire dynamique pour 8 bits entrée avec une taille de lot de 531,32, démontrant la faisabilité d'exécuter la formation de la lecture d'apprentissage automatique sur des appareils de périphérie de bas niveau consommant le niveau d'énergie de la batterie Li-Po.

Résumé des résultats de l'ordinateur du réservoir Hopf pour la tâche de commande vocale Qualcomm. Gauche : Exemples de cartes de caractéristiques de différents mots de réveil générés par l'ordinateur du réservoir Hopf. À droite : La matrice de confusion du système de reconnaissance sonore proposé traitant les mots de réveil de Qualcomm. Chaque étiquette correspond à : (a) "Salut, Galaxy", (b) "Salut, Lumia", (c) "Salut, Snapdragon" et (d) "Salut, Android".

L'ensemble de données de chiffres prononcés est utilisé pour comparer les performances de l'ordinateur du réservoir Hopf pour la reconnaissance audio avec d'autres réservoirs (par exemple, 15, 16, 17, 18, 19, 20, 21, 22.). Comme le montre la figure 8, l'ordinateur du réservoir Hopf produit une précision d'environ 97 % pour la tâche de classification des chiffres parlés. Ce résultat conserve la précision de reconnaissance de pointe sur cet ensemble de données tout en n'utilisant qu'un seul appareil physique (c'est-à-dire un circuit analogique consolidé) et deux nœuds physiques (états x et y). À titre de comparaison, le réservoir le plus performant17 utilisait 10 memristors et un prétraitement des clips audio originaux pour obtenir une précision similaire. Nous suggérons que la nature vibratoire de notre réservoir contribue largement à la simplicité du système de détection d'événements sonores proposé, et l'activation du réservoir à l'aide de signaux sinusoïdaux stimule l'extraction de caractéristiques du signal audio à l'aide d'oscillations de Hopf (détails décrits plus loin).

Résumé des résultats de l'ordinateur du réservoir Hopf effectue une tâche de reconnaissance des chiffres parlés. La matrice de confusion du système de reconnaissance sonore proposé traitant l'ensemble de données de chiffres parlés avec la force d'activation d'origine et la tangente hyperbolique inverse avant les lectures d'apprentissage automatique.

De plus, nous augmentons la force du signal d'activation (terme A dans l'équation 1) et rejetons l'activation de la tangente hyperbolique inverse (équation 6) avant la lecture de l'apprentissage automatique. Les résultats obtenus, qui sont illustrés à la Fig. 9, ont une précision de 96% par rapport au cas utilisant l'Eq. (6) avant d'envoyer l'état x à la lecture d'apprentissage automatique. Cela suggère que cet ordinateur de réservoir Hopf peut être reconfiguré par sa lecture numérique, similaire à d'autres ordinateurs de réservoir physique. De plus, la puissance de calcul de l'oscillateur Hopf pourrait également être considérablement améliorée en modifiant les conditions physiques internes de l'oscillateur.

Résumé des résultats de l'ordinateur du réservoir Hopf effectue une tâche de reconnaissance des chiffres parlés. La matrice de confusion du système de reconnaissance sonore proposé traitant l'ensemble de données de chiffres parlés avec une augmentation de 10 fois de la force d'activation et sans tangente hyperbolique inverse avant les lectures d'apprentissage automatique.

Cette architecture informatique de réservoir physique Hopf est proposée pour les applications informatiques de pointe du monde réel, telles que la reconnaissance audio. Bien que la reconnaissance vocale soit une tâche relativement simple pour les réseaux de neurones profonds fonctionnant sur le cloud, c'est une tâche difficile pour les ordinateurs de pointe en raison de leur puissance de calcul limitée. L'architecture proposée utilise efficacement les atouts des dispositifs analogiques et numériques en reliant un oscillateur analogique à un réseau neuronal numérique. De plus, l'oscillateur de Hopf peut être facilement fabriqué à partir de composants électriques commerciaux prêts à l'emploi.

L'architecture de l'ordinateur à réservoir physique de Hopf discutée dans cet article présente plusieurs différences distinctes par rapport à d'autres ordinateurs à réservoir physique similaires. Plus important encore, cet oscillateur de Hopf est associé à un réseau de neurones plutôt qu'à une simple régression de crête. En augmentant la complexité du réseau de neurones, l'ordinateur du réservoir physique Hopf est capable d'effectuer des tâches plus difficiles. Comme le réseau de neurones est simple, il peut être facilement mis en œuvre. L'architecture utilisée dans cet article n'utilise aucun prétraitement des données audio d'origine, ce qui réduit considérablement les coûts de calcul de la tâche de reconnaissance. Au lieu de cela, il suit le signal d'activation pour construire les cartes de caractéristiques par remodelage matriciel et tanh inverse. Habituellement, le spectre Mel est utilisé pour ce type de tâche, qui peut représenter plus de la moitié de la charge de calcul33. La plupart des ordinateurs à réservoir physique basés sur des oscillateurs non linéaires doivent utiliser une rétroaction temporisée, ce qui est fastidieux car cela nécessiterait des convertisseurs numérique-analogique et analogique-numérique. Cependant, l'oscillateur de Hopf est capable de stocker suffisamment d'informations dans ses états dynamiques pour éviter cela24,25. De plus, l'architecture présentée est robuste au bruit en raison de la non-linéarité de l'oscillateur Hopf, ce qui est important pour les applications de traitement audio du monde réel.

L'architecture proposée présente plusieurs avantages clés. Premièrement, la charge de calcul pour l'approche proposée est considérablement réduite. Les calculs impliqués dans la construction des cartes de caractéristiques sont le remodelage matriciel, la normalisation et le tanh inverse. Ces opérations ne consomment qu'environ 10% de la puissance de calcul par rapport au spectrogramme Mel pour un taux d'échantillonnage de 4 000 Hz. Une estimation de la charge de calcul permet de conclure que des opérations similaires sur des appareils périphériques Cortex-M4 (Arm, San Jose, Californie) ne produisent qu'environ 5 ms de latence exécutant cet algorithme. Deuxièmement, la méthode proposée peut être associée à différents modèles d'apprentissage automatique. Bien que l'article utilise le CNN comme lecture d'apprentissage automatique, la carte des caractéristiques obtenue à partir de la méthode proposée peut être remplacée par des méthodes de traitement d'image courantes, y compris, mais sans s'y limiter, le transformateur (34), l'indice de similarité de structure (35), le réseau de neurones à anticipation ( 36), et la distance euclidienne (37), etc. Troisièmement, par rapport au spectrogramme Mel, les cycles limites implémentés physiquement peuvent générer des caractéristiques qui sont robustes à la fois au bruit et à une faible qualité audio. Il convient de noter que l'audio utilisé pour les expériences est une version sous-échantillonnée, qui correspond à environ la moitié du taux d'échantillonnage utilisé par l'approche Mel + CNN, tout en obtenant une précision de reconnaissance audio supérieure d'environ 10 %. À titre d'exemple de cette robustesse, la carte des caractéristiques générée à partir de l'audio avec du bruit supplémentaire (Fig. 5) conserve ses caractéristiques distinctives même avec un rapport signal sur bruit extrêmement faible (< 20).

Dans cet article, nous présentons les résultats de la reconnaissance du signal sonore à l'aide de la technologie de calcul de réservoir consistant en un oscillateur de Hopf24,25. Au lieu d'utiliser un prétraitement coûteux en calcul (par exemple, le spectre Mel) couramment utilisé dans d'autres études15,17,20,30, nous prenons directement les sorties du circuit Hopf pour traiter le signal audio normalisé pour la reconnaissance de l'apprentissage automatique. Nous prévoyons que ce calcul de réservoir Hopf peut être directement mis en œuvre sur des microphones pour réaliser un futur traitement sur le capteur.

Dans la section "Résultats", nous démontrons systématiquement que notre approche de calcul de réservoir Hopf donne une amélioration de précision de 10 % sur une reconnaissance sonore urbaine diversifiée de 10 classes par rapport aux résultats de pointe utilisant des appareils de pointe30, alors que nous utilisons un étonnamment prétraitement simple en normalisant simplement le signal d'origine. La reconnaissance des mots de réveil se traduit par une précision > 99 % en utilisant l'algorithme d'apprentissage automatique de lecture exacte en réentraînant uniquement le MLP. Cela implique que l'ordinateur du réservoir Hopf permettra l'inférence et la reconfiguration en périphérie pour le système de reconnaissance sonore. De plus, par rapport à d'autres systèmes informatiques de réservoir (par exemple, 15, 16, 17, 22), l'ensemble de données de chiffres parlés offre des performances supérieures sans avoir besoin d'utiliser un prétraitement complexe, plusieurs dispositifs physiques ou des fonctions de masque ; en outre, nous avons également mené nos expériences d'analyse comparative sur des ensembles de données beaucoup plus réalistes (c'est-à-dire l'ensemble de données de reconnaissance des sons urbains à 10 classes et l'ensemble de données de mots de réveil à 4 classes). Nous démontrons des performances accrues du traitement du signal audio en modifiant la force du signal d'activation de l'oscillateur Hopf, ce qui implique qu'il existe plus de degrés de liberté pour reconfigurer les ordinateurs de réservoir physique par rapport aux autres implémentations de réservoir.

Enfin, nous avons soigneusement conçu les algorithmes et le prétraitement des données pour les tâches de reconnaissance sonore afin de maintenir la consommation d'énergie globale, y compris la lecture numérique, inférieure à 1 mW sur la base des opérations FLOPS et du taux d'échantillonnage analogique. La charge de calcul, qui utilise moins de 700 extraits sonores d'un ensemble de données de 10 classes pour la formation de modèles d'apprentissage automatique, est bien inférieure à l'enveloppe des ressources de calcul possédées par les appareils électroniques grand public. En tant que tels, les dispositifs de reconnaissance sonore utilisant un ordinateur de réservoir Hopf pourraient avoir une intégration sans effort avec des dispositifs avec des augmentations de charge de calcul introuvables.

Trois éléments jouent un rôle important dans la reconnaissance du signal audio. Le système de cycle limite crée un signal d'oscillation dans le domaine temporel avec une forme sinusoïdale, qui convolue en permanence avec le signal audio entrant. Cette convolution rappelle la transformée de Fourier et l'oscillateur de Hopf génère des modèles uniques pour la reconnaissance audio (par exemple, Fig. 2). Fait intéressant, ce processus reproduit en grande partie le processus de la cochlée en extrayant les caractéristiques du signal sonore perceptibles par les neurones. L'oscillation non linéaire de l'oscillateur de Hopf dans le sens temporel crée des connexions nodales de l'ordinateur réservoir, correspondant aux connexions neuronales en DNN. De plus, la non-linéarité de l'oscillateur de Hopf l'amène à répondre différemment aux signaux possédant diverses caractéristiques de l'audio à large bande, ce qui produit une séparation nette des caractéristiques (Figs. 2 et 7a). Il convient de noter que certaines études récentes38, 39 ont démontré que la cochlée et ses neurones directement connectés créent un système de cycle limite utilisant les signaux audio précédents comme activation pour améliorer dynamiquement les performances de la cochlée lors de l'extraction des caractéristiques du signal audio. Le modèle physique de l'oreille interne peut être modélisé comme un oscillateur de Hopf avec une boucle de rétroaction temporisée utilisant les signaux des instants précédents pour activer les oscillations du cycle limite. La reconnaissance du signal audio se produit en fait dans l'oreille interne plutôt que dans le cerveau. Une extension future intéressante de ce travail consiste à explorer différents signaux d'activation pour créer une oreille artificielle, capable de reconnaissance audio sur membrane. Dans l'intervalle, les deux états de l'oscillateur de Hopf s'affectent avec un retard temporel, ce qui améliore les effets de mémoire essentiels au traitement du signal en série temporelle.

Les avantages uniques de l'ordinateur de réservoir Hopf démontrés dans cet article ouvrent la voie à la prochaine génération d'appareils IoT intelligents qui exploitent la puissance de calcul inutilisée dans les réseaux de capteurs. Plus précisément, les mécanismes physiques qui sous-tendent l'informatique du réservoir se produisent également dans la membrane du microphone avec des signaux d'activation soigneusement conçus38. On pourrait imaginer que les futurs microphones opèrent directement la reconnaissance du signal sonore à l'aide de mécanismes de capteurs au lieu de plates-formes de traitement dédiées. De plus, comme le montre la figure 2, la carte des caractéristiques des signaux sonores se compose de motifs uniques qui sont reconnus par un réseau neuronal convolutif couramment utilisé pour le traitement du signal visuel. Une extension du présent travail explorera les corrélations des cartes de caractéristiques de signal audio, des cartes de caractéristiques de signal visuel et d'autres types de caractéristiques de données de séries chronologiques. En tant que tel, l'informatique de réservoir pourrait être utilisée comme épine dorsale pour l'apprentissage automatique multimodal dans les paradigmes IoT intelligents, y compris la fusion de capteurs, la combinaison de signaux audio vidéo et l'apprentissage automatique décentralisé. La quantité extrêmement faible de données d'entraînement requises pour l'opération d'apprentissage automatique et la séparation claire des fonctionnalités décrites dans la section "Résultats" pourraient offrir des résultats étonnamment satisfaisants, ce qui est essentiel pour de nombreux cas d'utilisation sans le luxe de tailles illimitées d'ensembles de données (par exemple, identification logicielle de l'utilisateur ) ou avec des environnements bruyants (par exemple, un mélange de différents signaux). Un exemple est illustré à la Fig. 10 : un signal audio de huit secondes composé de plusieurs signaux différents (c'est-à-dire klaxon de voiture, forage et sirène) est utilisé pour démontrer la preuve de concept de l'ordinateur du réservoir Hopf sur le traitement du signal mixte. Les quatre premières secondes du clip audio n'ont que le klaxon de voiture et le son de forage. Pendant les quatre dernières secondes, le son de la sirène est ajouté avec une amplitude plus élevée. Comme le montre la figure, les caractéristiques audio générées à partir de l'ordinateur du réservoir Hopf ont une classe clairement dominante sur la seconde moitié des données et présentent une corrélation visuellement élevée avec les caractéristiques audio générées par un son de sirène propre avec le même ordinateur du réservoir Hopf (un distance euclidienne inférieure à 8). Nous prévoyons qu'un algorithme de correspondance de motifs provenant d'applications de vision par ordinateur pourrait être utilisé dans ce type de séparation et de traitement d'événements audio.

Un test de résistance au bruit utilisant des caractéristiques audio générées à partir de la tâche de reconnaissance des sons urbains. Pendant les quatre premières secondes de ce clip de huit secondes, les sons de forage et de klaxon de voiture sont mélangés, et les quatre dernières secondes contiennent le son de la sirène avec une amplitude élevée (deux fois plus grande par rapport aux deux autres classes audio) est ajouté aux données mélangées . Comme le montre la figure, les quatre dernières secondes de fonctions audio présentent une grande similitude par rapport au son de la sirène de référence.

La mise en œuvre de ce réseau de neurones convolutifs adopte la même approche d'apprentissage automatique proposée par30. En utilisant la même tâche de reconnaissance sonore urbaine, cela permet une comparaison directe des caractéristiques extraites de l'ordinateur du réservoir physique ainsi que de la technique de spectrogramme qui est normalement appliquée. En utilisant la même lecture d'apprentissage automatique mais sans prétraitement informatique coûteux de l'audio, l'architecture de calcul de réservoir physique utilisée dans cet article a obtenu une amélioration de la précision de 10 % par rapport à30. Dans des applications réalistes pour l'Internet des objets, cette méthode d'apprentissage automatique peut être appliquée à l'aide de processeurs neuronaux dédiés, tels que le Syntiant ND101. Cette puce particulière pourrait déployer environ 60 000 cœurs neuronaux, bien au-delà des exigences du modèle d'apprentissage automatique utilisé dans l'article (\(\sim\)40 000 cœurs neuronaux). Comme approche alternative, les caractéristiques générées à partir de l'ordinateur du réservoir pourraient être conçues davantage pour compresser la quantité de données pour la reconnaissance audio, de sorte que les modèles puissent être déployés sur des processeurs de périphérie de bas niveau.

Il y a encore des limites dans la méthode de calcul de réservoir utilisant l'oscillateur de Hopf dans sa forme actuelle. Premièrement, la reconnaissance d'événements sonores de haute précision nécessite de nombreux nœuds virtuels pour générer diverses fonctionnalités pour la perception de la machine. Cependant, l'augmentation des nœuds virtuels entraîne une croissance exponentielle du taux d'échantillonnage pour lire des données audio de haute qualité. Nous recherchons activement des solutions pour séparer les caractéristiques audio du signal d'origine pour la reconnaissance et l'enregistrement, ce qui pourrait réduire le taux d'échantillonnage requis. Deuxièmement, le réservoir physique basé sur le circuit actuel sépare le processus de mélange des signaux et d'activation du circuit. La reconception du circuit est nécessaire pour simplifier la lecture du signal pour le déploiement futur du système. Cependant, la version ultime du réservoir Hopf utilisant MEMS résoudra ce problème, puisque le calcul se fera sur les mécanismes de détection audio. Enfin, le traitement du signal repose toujours sur une lecture numérique. Bien que l'algorithme soit remarquablement simple, une unité de microcontrôleur est nécessaire. Nous prévoyons que la solution à court terme consistera à déployer le modèle d'apprentissage automatique optimisé en tant que micrologiciel (consommant moins de 1 Mo de mémoire statique sans optimisation et moins de 256 Ko de mémoire dynamique pour la formation de modèles d'apprentissage automatique mis à niveau). Un objectif futur devrait être d'utiliser un circuit analogique qui pourrait détecter les signaux de pointe pour la reconnaissance audio (similaire aux neurones) pour obtenir un ordinateur entièrement analogique sur les appareils de pointe40.

L'ordinateur de réservoir physique Hopf est réalisé grâce à une conception de circuit propriétaire proposée par24. Suivant le schéma donné à la Fig. 11, le circuit est mis en œuvre à l'aide d'amplificateurs opérationnels TL082 et de multiplicateurs AD633. Le signal audio d'entrée est d'abord normalisé dans la plage de \(-1\) à \(+1\) et mélangé avec le signal de forçage sinusoïdal dans MATLAB, puis il est envoyé au circuit par un National Instrument (NI) cDAQ- Module d'E/S de données 9174. Les sorties du circuit, appelées états x et y de l'oscillateur de Hopf, sont collectées avec un taux d'échantillonnage de \(10^5\) échantillons/s par le même NI cDAQ-9174 pour un traitement ultérieur d'apprentissage automatique.

Un schéma de circuit simplifié de l'ordinateur du réservoir Hopf.

Trois ensembles de données sont utilisés dans les expériences de reconnaissance sonore. Il s'agit de la reconnaissance des sons urbains, de la commande vocale Qualcomm et des chiffres prononcés. L'ensemble de données de reconnaissance des sons urbains se compose de 873 clips audio de 10 classes, qui sont des clips sonores urbains de haute qualité enregistrés à New York41. Chaque clip audio dure quatre secondes avec un taux d'échantillonnage d'au moins 44,1 kHz. Par rapport aux ensembles de données couramment disponibles, nous disposons d'un nombre extrêmement restreint d'échantillons.

Pour démontrer la reconfigurabilité de l'ordinateur du réservoir Hopf pour le traitement audio, l'ensemble de données de commande vocale Qualcomm est également utilisé. Cet ensemble de données se compose de 4270 clips audio, chaque clip durant 1 seconde, qui sont quatre mots d'éveil qui sont collectés auprès de locuteurs ayant des vitesses de parole et des accents différents42. À partir de l'ensemble de données, nous utilisons 1 000 clips pour les expériences. Par rapport au cas précédent de reconnaissance des sons urbains, la seule différence dans l'algorithme de traitement est le recyclage de la partie de sortie (c'est-à-dire après les couches de convolution) de la lecture d'apprentissage automatique (les détails sont discutés dans la dernière partie de la section méthodologie et la section des résultats du papier). Pour comparer le réservoir de Hopf proposé avec d'autres réservoirs, nous menons également une expérience de reconnaissance des chiffres parlés, qui sert de test de référence standard pour le calcul des réservoirs. L'ensemble de données sur les chiffres parlés se compose de 3000 clips audio, qui sont prononcés par cinq locuteurs différents43. Comme pour l'ensemble de données de commande vocale Qualcomm, le nombre total de clips audio pour les expériences est défini sur seulement 1000.

Pour des raisons de vitesse de traitement, nous rééchantillonnons chaque clip audio avec un taux d'échantillonnage de 4000 Hz et normalisons les données dans la plage de \(-1\) à \(+1\) avant de les envoyer au circuit analogique. 80 % des sorties du circuit sont utilisées pour former le modèle d'apprentissage automatique, les 20 % restants étant utilisés pour les tests.

Sur la figure 1, les connexions nodales de l'ordinateur du réservoir physique Hopf sont illustrées. Bien que nous ne collectons qu'un flux de données 1D à partir du circuit Hopf, le flux de données se compose à la fois des signaux d'entrée et de la réponse des nœuds virtuels définis par la vitesse d'échantillonnage des signaux44. Nous suivons ce principe d'arrangement et de manipulation des signaux par leurs nœuds virtuels. La sortie du réservoir du circuit est d'abord activée à l'aide d'une fonction tangente hyperbolique inverse24,45 :

Par la suite, la sortie activée est réarrangée par l'ordre des nœuds virtuels au fur et à mesure que les cartes de caractéristiques pour la perception de la machine. Un exemple de rendu de carte de caractéristiques composé de 10 classes différentes de sons urbains est illustré à la Fig. 2. L'ordinateur du réservoir Hopf produit cette carte de caractéristiques comme décrit dans la section "Oscillateur et réservoir de Hopf", qui est ensuite utilisée comme entrée du réseau neuronal. illustré à la figure 12. En fait, l'ordinateur du réservoir Hopf décharge les coûts du spectre Mel coûteux en calculs. Une activation Swish46 est utilisée pour améliorer les performances du modèle d'apprentissage automatique sur le traitement de l'activation des neurones clairsemés (c'est-à-dire les problèmes de neurones morts) et la précision globale du modèle d'apprentissage automatique traitant les données audio. Notez qu'une future version du logiciel d'apprentissage automatique utilisant une connexion sautée (générant des réseaux résiduels)47 renforcera encore la robustesse du logiciel pour un grand ensemble de données. Chaque clip d'une seconde des sorties est en outre échantillonné par saut à 200 (nombre d'échantillons temporels) \(\times\) 100 (nombre de nœuds virtuels) pour le traitement d'apprentissage automatique (comme indiqué sur la Fig. 12). L'algorithme d'apprentissage automatique est implémenté à l'aide de Keras48 avec un backend TensorFlow. La formation est effectuée sur un GPU Nvidia RTX 2080Ti et utilise un optimiseur Adam avec un taux d'apprentissage par défaut de 0,00149. La fonction de perte est l'entropie croisée50. La taille du lot pendant la formation est de 5 ; les époques sont 100 pour l'ensemble de données de reconnaissance sonore urbaine, 20 pour l'ensemble de données de commande vocale Qualcomm et 100 pour les chiffres parlés.

Un schéma montrant la lecture d'apprentissage automatique basée sur le réseau neuronal convolutif pour la classification des événements audio à l'aide de l'ordinateur du réservoir Hopf. Les cases bleu clair de la figure correspondent aux cartes de caractéristiques générées à partir de chaque opération d'apprentissage automatique. Les flèches sont les différentes opérations d'apprentissage automatique. Les nombres au-dessus des cases bleu clair correspondent à la profondeur des cartes d'entités, et les nombres inférieurs correspondent respectivement à la longueur et à la largeur des cartes d'entités. Une mise en commun maximale avec une taille de (2,2) est également opérée après deux convolutions consécutives pour réduire la dimension des cartes de caractéristiques. Remarque pour la longueur et la largeur, nous étiquetons uniquement les dimensions qui sont modifiées après les opérations d'apprentissage automatique.

Les ensembles de données utilisés et analysés au cours de l'étude actuelle sont disponibles auprès de l'auteur correspondant sur demande raisonnable.

Lee, W. et al. Capteurs de biosignaux et reconnaissance vocale basée sur l'apprentissage en profondeur : une revue. Capteurs 21(4), 1399 (2021).

Article ADS PubMed PubMed Central Google Scholar

Karmakar, P., Teng, SW & Lu, G. Merci pour votre attention : Une enquête sur les réseaux de neurones artificiels basés sur l'attention pour la reconnaissance automatique de la parole. prétirage arXiv arXiv:2102.07259 (2021).

Filho, CP et al. Une revue systématique de la littérature sur l'apprentissage automatique distribué dans l'informatique de pointe. Capteurs 22(7), 2665 (2022).

Article ADS PubMed PubMed Central Google Scholar

Modèle de langage gpt-3 de Li, C. Openai : un aperçu technique. Article de blog (2020).

Patterson, D. et al. L'empreinte carbone de la formation à l'apprentissage automatique plafonnera, puis diminuera. Ordinateur 55(7), 18–28 (2022).

Article Google Scholar

Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. et Sutskever, I. Reconnaissance vocale robuste via une supervision faible à grande échelle. https://cdn.openai.com/papers/whisper.pdf (2021). Consulté le 28 septembre 2022.

Adversa. La route vers une IA sécurisée et fiable. https://adversa.ai/report-secure-and-trusted-ai/ (2021). Consulté le 28 septembre 2022.

Sécurité IBM. Coût d'une violation de données 2022. https://www.ibm.com/reports/data-breach (2022). Consulté le 28 septembre 2022.

Garg, R. Problèmes de politique de confidentialité et de sécurité des données ouvertes et leur influence sur l'adoption de l'Internet des objets. Premier lundi (2018).

Deep, S. et al. Une enquête sur les problèmes de sécurité et de confidentialité dans l'Internet des objets à partir du contexte en couches. Trans. Urgence Télécommun. Technol. 33(6), e3935 (2022).

Google Scholar

Hao, K. L'entraînement d'un seul modèle d'IA peut émettre autant de carbone que cinq voitures au cours de leur vie (2019). https://www.technologyreview.com/2019/06/06/239031 (2019). Consulté le 28 septembre 2022.

Fernando, C. & Sojakka, S. Reconnaissance de formes dans un seau. Dans Conférence européenne sur la vie artificielle 588-597 (Springer, 2003).

Tanaka, G. et al. Progrès récents dans le calcul physique des réservoirs : une revue. Réseau neuronal. 115, 100-123 (2019).

Article PubMed Google Scholar

Shougat, MR, Li, X., Mollik, T. & Perkins, E. Une étude théorique de l'information d'un ordinateur réservoir à réseau d'oscillateurs duffing. J. Comput. Dynamique non linéaire. 16(8), 081004 (2021).

Article Google Scholar

Moran, A. et al. Système informatique de réservoir optimisé pour le matériel pour les applications d'intelligence de pointe. Conn. Comput.https://doi.org/10.1007/s12559-020-09798-2 (2021).

Article Google Scholar

Usami, Y. et al. Calcul de réservoir in-materio dans un réseau de polyaniline sulfonée. Adv. Mater. 33(48), 2102688 (2021).

Article CAS Google Scholar

Moon, J. et al. Classification et prévision de données temporelles à l'aide d'un système informatique de réservoir basé sur des memristors. Nat. Électron. 2(10), 480–487 (2019).

Article Google Scholar

Mizrahi, A. et al. Calcul de type neuronal avec des populations de fonctions de base superparamagnétiques. Nat. Commun. 9(1), 1–11 (2018).

Article ADS CAS Google Scholar

Grollier, J. et al. Spintronique neuromorphique. Nat. Électron. 3(7), 360–370 (2020).

Article Google Scholar

Plus grand, L. et al. Calcul de réservoir photonique à grande vitesse utilisant une architecture basée sur le retard : classification en millions de mots par seconde. Phys. Rév. X 7(1), 011015 (2017).

Google Scholar

Barazani, B., Dion, G., Morissette, J.-F., Beaudoin, L. & Sylvestre, J. Neuroaccéléromètre microfabriqué : Intégration de la détection et de l'informatique de réservoir dans les mems. J. Microelectromech. Syst. 29(3), 338–347 (2020).

Article Google Scholar

Kan, S. et al. Calcul réservoir simple capitalisant sur la réponse non linéaire des matériaux : Théorie et implémentations physiques. Phys. Rév. Appl. 15(2), 024030 (2021).

Article ADS CAS Google Scholar

Appelant, L. et al. Traitement de l'information utilisant un nœud dynamique unique comme système complexe. Nat. Commun. 2(1), 1–6 (2011).

Article Google Scholar

Shougat, MREU, Li, XF, Mollik, T. & Perkins, E. Un ordinateur de réservoir physique Hopf. Sci. Rep. 11(1), 1–13 (2021).

Annonces d'article Google Scholar

Shougat, MREU, Li, XF & Perkins, E. Effets dynamiques sur le calcul de réservoir avec un oscillateur de Hopf. Phys. Rév. E 105(4), 044212 (2022).

Article ADS MathSciNet CAS PubMed Google Scholar

Li, XF et al. Effets stochastiques sur un oscillateur de fréquence adaptatif de Hopf. J. Appl. Phys. 129(22), 224901 (2021).

Article ADS CAS Google Scholar

Li, XF et al. Un oscillateur de Hopf adaptatif à quatre états. PLoS ONE 16(3), e0249131 (2021).

Article CAS PubMed PubMed Central Google Scholar

Shougat, MR, Kennedy, S. & Perkins, E. Un ordinateur de réservoir physique d'actionneur en alliage à mémoire de forme à détection automatique. IEEE Sens. Lett.https://doi.org/10.1109/LSENS.2023.3270704 (2023).

Article Google Scholar

Nayfeh, AH & Balachandran, B. Dynamique non linéaire appliquée : méthodes analytiques, computationnelles et expérimentales (John Wiley & Sons, Hoboken, 2008).

MATH Google Scholar

Yun, J., Srivastava, S., Roy, D., Stohs, N., Mydlarz, C., Salman, M., Steers, B., Bello, JP & Arora, A. Infrastructure-free, Deep Learn Urban surveillance du bruit à 100 mW. CoRR (2022).

Gao, Y., Liu, Y., Zhang, H., Li, Z., Zhu, Y., Lin, H. et Yang, M. Estimation de la consommation de mémoire GPU des modèles d'apprentissage en profondeur. Dans les actes de la 28e réunion conjointe de l'ACM sur la conférence et le symposium européens sur le génie logiciel sur les fondements du génie logiciel 1342–1352 (2020).

Lin, J., Zhu, L., Chen, WM, Wang, WC, Gan, C. & Han, S. Formation sur appareil avec une mémoire de 256 Ko. prétirage arXiv arXiv:2206.15472 (2022).

Rajaby, E. & Sayedi, SM Un examen structuré des algorithmes de transformée de Fourier rapide clairsemée. Chiffre. Processus de signalisation. 123, 103403 (2022).

Article Google Scholar

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S. et Al. Une image vaut 16x16 mots : Transformateurs pour la reconnaissance d'images à grande échelle. prétirage arXiv arXiv:2010.11929 (2020).

Kaur, A., Kaur, L. & Gupta, S. Reconnaissance d'images utilisant le coefficient de corrélation et l'indice de similarité structurelle dans un environnement non contrôlé. Int. J. Comput. Appl.59(5) (2012).

Sazli, MH Un bref examen des réseaux de neurones feed-forward. Communications Faculté des sciences Université d'Ankara Série A2-A3 Sciences physiques et ingénierie50(01) (2006).

Wang, L., Zhang, Y. & Feng, J. Sur la distance euclidienne des images. IEEE Trans. Modèle Anal. Mach. Renseignement. 27(8), 1334–1339 (2005).

Article PubMed Google Scholar

Lenk, C., Ekinci, A., Rangelow, IW & Gutschmidt, S. Cellules ciliées artificielles actives pour la détection biomimétique des sons basées sur la technologie en porte-à-faux active. En 2018, 40e Conférence internationale annuelle de l'IEEE Engineering in Medicine and Biology Society (EMBC) 4488–4491 (IEEE, 2018).

Gomez, F., Lorimer, T. & Stoop, R. Les systèmes de type Hopf sous-seuil couplés au signal montrent une réponse collective accentuée. Phys. Rév. Lett. 116, 108101 (2016).

Article ADS PubMed Google Scholar

Ma, S., Brooks, D. et Wei, G.-Y. Un RNN à activation binaire, à poids multiniveau et un algorithme d'entraînement pour l'inférence de traitement en mémoire sans ADC/DAC et résistant au bruit avec eNVM. prétirage arXiv arXiv:1912.00106 (2019).

Salamon, J., Jacoby, C. & Bello, JP Un ensemble de données et une taxonomie pour la recherche sur les sons urbains. Dans Actes de la 22e Conférence internationale ACM sur le multimédia 1041–1044 (2014).

Kim, B., Lee, M., Lee, J., Kim, Y. & Hwang, K. Recherche par exemple de mots-clés sur l'appareil. En 2019, IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) 532–538 (IEEE, 2019).

Jackson, Z. Ensemble de données de chiffres parlés libres (FSDD). https://github.com/Jakobovski/free-spoken-digit-dataset (2018). Consulté le 28 septembre 2022.

Jacobson, P., Shirao, M., Kerry, Yu., Guan-Lin, S. & Ming, CW Calcul de réservoir optoélectronique à convolution hybride pour la reconnaissance d'images. J. Lightwave Technol. 40(3), 692–699 (2021).

Annonces d'article Google Scholar

Miller, CL & Freedman, R. L'activité des interneurones hippocampiques et des cellules pyramidales lors de la réponse de l'hippocampe à des stimuli auditifs répétés. Neuroscience 69(2), 371–381 (1995).

Article CAS PubMed Google Scholar

Ramachandran, P., Zoph, B. & Le, QV Recherche de fonctions d'activation. prétirage arXiv arXiv:1710.05941 (2017).

He, K., Zhang, X., Ren, S. & Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes 770–778 (2016).

Chollet, F. Keras : Apprentissage profond pour l'homme. https://github.com/keras-team/keras (2015). Consulté le 28 septembre 2022.

Kingma, DP & Ba, J. Adam : Une méthode d'optimisation stochastique. prétirage arXiv arXiv:1412.6980 (2014).

De Boer, P.-T., Kroese, DP, Mannor, S. & Rubinstein, RY Un tutoriel sur la méthode d'entropie croisée. Anne. Oper. Rés. 134(1), 19–67 (2005).

Article MathSciNet MATH Google Scholar

Télécharger les références

Les auteurs apprécient également grandement la discussion fructueuse des procédures et des résultats expérimentaux avec le Dr Omar Zahr et le Dr Helge Seetzen.

Ces auteurs ont contribué à parts égales : Md Raf E. Ul Shougat, XiaoFu Li, Siyao Shao, Kathleen McGarvey et Edmon Perkins.

Département de génie mécanique et aérospatial, Université d'État de Caroline du Nord, 1840 Entrepreneur Drive, Raleigh, Caroline du Nord, 27695, États-Unis

Md Raph E. Ul Shougat

LAB2701, Atwood, OK, 74827, États-Unis

XiaoFu Li et Edmon Perkins

TandemLaunch, 780 Av. Brewster, Montréal, H4C2K1, Canada

Siyao Shao et Kathleen McGarvey

échosonique, 780 Av. Brewster, Montréal, H4C2K1, Canada

Siyao Shao

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

MREUS, XL, SS, KWM et EP ont conçu ensemble les concepts et les perspectives de cet article et ont co-écrit le manuscrit.

Correspondance à Edmon Perkins.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Shougat, MREU, Li, X., Shao, S. et al. Ordinateur de réservoir physique Hopf pour la reconnaissance sonore reconfigurable. Sci Rep 13, 8719 (2023). https://doi.org/10.1038/s41598-023-35760-x

Télécharger la citation

Reçu : 20 février 2023

Accepté : 23 mai 2023

Publié: 30 mai 2023

DOI : https://doi.org/10.1038/s41598-023-35760-x

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

Nouvelles

Ordinateur de réservoir physique Hopf pour la reconnaissance sonore reconfigurable