L'exploration visuelle de Maryland U & NYU révèle ce que les transformateurs de vision apprennent

Dans le nouvel article Qu'apprennent les transformateurs de vision ? A Visual Exploration, une équipe de recherche de l'Université du Maryland et de l'Université de New York utilise des visualisations de caractéristiques à grande échelle à partir d'un large éventail de transformateurs de vision pour mieux comprendre ce qu'ils apprennent des images et comment ils diffèrent des réseaux de neurones convolutifs.

Depuis leur introduction en 2020, les transformateurs de vision (ViT) sont devenus une architecture de vision par ordinateur de premier plan, atteignant des performances de pointe sur des tâches allant de la détection d'objets et de la reconnaissance d'images à la segmentation sémantique. Mais comprendre les mécanismes internes qui contribuent au succès des ViTs — quoi et comment ils apprennent réellement des images — reste un défi.

Dans le nouvel article Qu'apprennent les transformateurs de vision ? A Visual Exploration, une équipe de recherche de l'Université du Maryland et de l'Université de New York utilise des visualisations de caractéristiques à grande échelle à partir d'un large éventail de ViT pour mieux comprendre ce qu'ils apprennent des images et comment ils diffèrent des réseaux de neurones convolutifs (CNN).

L'équipe résume ses principales contributions comme suit :

Comme avec les méthodes de visualisation conventionnelles, l'équipe utilise des étapes de gradient pour maximiser les activations de fonctionnalités à partir du bruit aléatoire. Pour améliorer la qualité de l'image, ils pénalisent la variation totale (Mahendran & Vedaldi, 2015) et adoptent des techniques d'augmentation de la gigue (Yin et al., 2020), d'augmentation ColorShift et d'assemblage d'augmentation (Ghiasi et al., 2021).

Pour permettre une meilleure compréhension du contenu d'une fonctionnalité visualisée donnée, l'équipe associe chaque visualisation à des images de l'ensemble de validation/formation ImageNet qui ont le plus fort effet d'activation en ce qui concerne la fonctionnalité concernée. Ils tracent le modèle d'activation de la fonctionnalité en faisant passer les images les plus activantes à travers le réseau ViT et en affichant le modèle résultant d'activations de fonctionnalités.

L'équipe tente d'abord de visualiser les caractéristiques de la couche d'attention à plusieurs têtes du ViT - y compris les clés, les requêtes et les valeurs - en maximisant les neurones activés. Ensuite, ils étudient la préservation des informations spatiales par patch à partir des visualisations des niveaux d'activation des fonctionnalités par patch, trouvant, de manière surprenante, que bien que chaque patch puisse influencer la représentation de tous les autres patchs, les représentations restent locales. Cela indique que les ViT apprennent et préservent les informations spatiales à partir de zéro.

L'équipe découvre également que cette préservation de l'information spatiale est abandonnée dans le dernier bloc d'attention du réseau, qui agit de manière similaire à la mutualisation moyenne. Ils en déduisent que le réseau globalise les informations dans la dernière couche pour s'assurer que le jeton de classe (CLS) a accès à l'image entière, concluant que le jeton CLS joue un rôle relativement mineur dans l'ensemble du réseau et n'est pas utilisé pour la globalisation jusqu'à cette dernière couche. .

Dans leur étude empirique, les chercheurs ont découvert que les projections internes de haute dimension des couches d'anticipation des ViT conviennent à la production d'images interprétables, contrairement aux caractéristiques de clé, de requête et de valeur de l'auto-attention. Dans les comparaisons CNN vs ViT, l'équipe observe que les ViT peuvent mieux utiliser les informations de base et faire des prédictions largement supérieures. Il a également été démontré que les ViT formés avec la supervision du modèle de langage obtiennent de meilleures caractéristiques sémantiques et conceptuelles.

Dans l'ensemble, ce travail utilise une approche de visualisation efficace et interprétable pour fournir des informations précieuses sur le fonctionnement des ViT et sur ce qu'ils apprennent.

Le code est disponible sur le GitHub du projet. L'article Qu'apprennent les transformateurs de vision ? Une exploration visuelle est sur arXiv.

Auteur: Hécate Il |Éditeur: Michel Sarazen

Nous savons que vous ne voulez manquer aucune actualité ou percée de la recherche.Abonnez-vous à notre populaire newsletter Synced Global AI Weekly pour obtenir des mises à jour hebdomadaires sur l'IA.

Intelligence artificielle | Technologie & Industrie | Informations et analyses

Pingback: L'exploration visuelle de Maryland U & NYU révèle ce que les transformateurs de vision apprennent | Synchronisé -

Pingback : Les principales tendances des médias sociaux en 2023 pour garder une longueur d'avance sur le jeu

Merci

En somme, ce travail utilise une stratégie de visualisation puissante et compréhensible pour faire la lumière sur le fonctionnement interne des ViT et les leçons qu'ils acquièrent.

Merci pour les précieuses informations et idées.

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *

Commentaire *

Nom

E-mail

Site Internet

Avertissez-moi des nouveaux commentaires par email.

Avertissez-moi des nouveaux articles par e-mail.

Abonnez-vous à notre populaire newsletter Synced Global AI Weekly pour obtenir des mises à jour hebdomadaires sur l'IA.

Blog

L'exploration visuelle de Maryland U & NYU révèle ce que les transformateurs de vision apprennent