banner

Blog

Oct 31, 2023

SpectFormer de Microsoft et Bath U améliore considérablement les transformateurs de vision via la fréquence et l'attention

Dans le nouvel article SpectFormer: Frequency and Attention Is What You Need in a Vision Transformer, une équipe de recherche de Microsoft et de l'Université de Bath propose Spectformer, une nouvelle architecture de transformateur qui combine des couches d'attention spectrale et à plusieurs têtes pour mieux capturer les représentations appropriées des caractéristiques. et améliorer les performances.

Suite aux performances historiques des grands modèles de langage basés sur l'architecture des transformateurs, les transformateurs de vision (ViT) sont apparus comme une approche puissante du traitement d'image. Comme leurs prédécesseurs textuels, les ViT s'appuyaient initialement sur des couches d'auto-attention à plusieurs têtes pour capturer les caractéristiques des images d'entrée, tandis que des approches plus récentes ont utilisé des couches spectrales pour représenter les patchs d'image dans le domaine fréquentiel. Les ViT pourraient-ils bénéficier d'une architecture intégrant les deux méthodes ?

Dans le nouvel article SpectFormer: Frequency and Attention Is What You Need in a Vision Transformer, une équipe de recherche de Microsoft et de l'Université de Bath propose SpectFormer, une nouvelle architecture de transformateur qui combine des couches d'attention spectrale et à plusieurs têtes pour mieux capturer les représentations appropriées des caractéristiques. et améliorer les performances ViT.

L'équipe résume ses principales contributions comme suit :

L'équipe explore d'abord comment différentes combinaisons de couches d'attention spectrales et à plusieurs têtes fonctionnent par rapport aux modèles exclusivement d'attention ou spectraux, concluant que l'équipement de leur SpectFormer proposé avec des couches spectrales initiales mises en œuvre avec la transformée de Fourier suivie de couches d'attention à plusieurs têtes permet d'obtenir les résultats les plus prometteurs. .

L'architecture SpectFormer comporte quatre composants principaux : une couche d'intégration de patch, une couche d'intégration positionnelle, un bloc transformateur comprenant une série de couches spectrales suivies de couches d'attention et une tête de classification. Le pipeline SpectFormer transforme d'abord les jetons d'image dans le domaine de Fourier (en espace spectral), où une analyse basée sur la fréquence des informations d'image est effectuée et les caractéristiques pertinentes capturées ; applique ensuite des techniques de déclenchement via des paramètres de poids apprenables ; et enfin effectue une transformée de Fourier inverse pour renvoyer le signal de l'espace spectral vers l'espace physique.

Dans leur étude empirique, l'équipe a comparé SpectFormer avec le DeIT multi-tête basé sur l'auto-attention, l'architecture parallèle LiT et les GFNet ViT basés sur le spectre sur diverses tâches de détection d'objets et de classification d'images. SpectFormer a amélioré toutes les lignes de base des expériences, atteignant une précision de pointe (85,7 %) sur l'ensemble de données ImageNet-1K.

Le code et des informations supplémentaires sont disponibles sur la page Web du projet. L'article Spectformer : la fréquence et l'attention sont ce dont vous avez besoin dans un transformateur de vision est sur arXiv.

Auteur: Hécate Il |Éditeur: Michel Sarazen

Nous savons que vous ne voulez manquer aucune actualité ou percée de la recherche.Abonnez-vous à notre populaire newsletter Synced Global AI Weekly pour obtenir des mises à jour hebdomadaires sur l'IA.

Intelligence artificielle | Technologie & Industrie | Informations et analyses

Article incroyableExcellent article ! L'architecture SpectFormer proposée semble très prometteuse. Je suis curieux de savoir comment il se compare à d'autres modèles de pointe comme Swin Transformer et ViT-L en termes de performances et d'efficacité de calcul. Pensez-vous que SpectFormer a le potentiel pour devenir la nouvelle référence des transformateurs de vision ?Johnhttps://www.airiches.online/

J'aime vraiment la simplicité de la lecture pour moi. Je voudrais savoir comment être averti chaque fois qu'un nouveau message est créé.

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *

Commentaire *

Nom

E-mail

Site Internet

Avertissez-moi des nouveaux commentaires par email.

Avertissez-moi des nouveaux articles par e-mail.

D

Abonnez-vous à notre populaire newsletter Synced Global AI Weekly pour obtenir des mises à jour hebdomadaires sur l'IA.
PARTAGER