banner

Nouvelles

Oct 16, 2023

Les transformateurs de vision ont pris d'assaut le domaine de la vision par ordinateur, mais qu'apprennent les transformateurs de vision ?

Les transformateurs de vision (ViT) sont un type d'architecture de réseau neuronal qui a atteint une énorme popularité pour les tâches de vision telles que la classification d'images, la segmentation sémantique et la détection d'objets. La principale différence entre la vision et les transformateurs d'origine était le remplacement des jetons discrets de texte par des valeurs de pixels continues extraites de patchs d'image. ViTs extrait les caractéristiques de l'image en s'occupant de différentes régions de celle-ci et en les combinant pour faire une prédiction. Cependant, malgré l'utilisation généralisée récente, on sait peu de choses sur les biais inductifs ou les caractéristiques que les ViT ont tendance à apprendre. Bien que les visualisations de caractéristiques et les reconstructions d'images aient réussi à comprendre le fonctionnement des réseaux de neurones convolutifs (CNN), ces méthodes n'ont pas été aussi efficaces pour comprendre les ViT, qui sont difficiles à visualiser.

Les derniers travaux d'un groupe de chercheurs de l'Université du Maryland-College Park et de l'Université de New York élargissent la littérature ViTs avec une étude approfondie concernant leur comportement et leurs mécanismes de traitement interne. Les auteurs ont établi un cadre de visualisation pour synthétiser des images qui activent au maximum les neurones dans le modèle ViT. En particulier, la méthode impliquait de prendre des mesures de gradient pour maximiser les activations de caractéristiques en partant du bruit aléatoire et en appliquant diverses techniques de régularisation, telles que la pénalisation de la variation totale et l'utilisation de l'assemblage d'augmentation, pour améliorer la qualité des images générées.

L'analyse a révélé que les jetons de patch dans les ViT préservent les informations spatiales dans toutes les couches, à l'exception du dernier bloc d'attention, qui apprend une opération de mélange de jetons similaire à l'opération de mise en commun moyenne largement utilisée dans les CNN. Les auteurs ont observé que les représentations restent locales, même pour des canaux individuels dans les couches profondes du réseau.

À cette fin, le jeton CLS semble jouer un rôle relativement mineur sur l'ensemble du réseau et n'est utilisé pour la globalisation qu'à la dernière couche. Les auteurs ont démontré cette hypothèse en effectuant une inférence sur des images sans utiliser le jeton CLS dans les couches 1 à 11, puis en insérant une valeur pour le jeton CLS à la couche 12. Le ViT résultant pourrait toujours classer avec succès 78,61 % de l'ensemble de validation ImageNet au lieu du d'origine 84,20 %.

Par conséquent, les CNN et les ViT présentent une spécialisation progressive des caractéristiques, où les premières couches reconnaissent les caractéristiques de base de l'image telles que la couleur et les bords, tandis que les couches plus profondes reconnaissent des structures plus complexes. Cependant, une différence importante trouvée par les auteurs concerne la dépendance des ViT et des CNN aux caractéristiques des images d'arrière-plan et de premier plan. L'étude a observé que les ViT sont nettement meilleurs que les CNN pour utiliser les informations d'arrière-plan dans une image pour identifier la bonne classe et souffrent moins de la suppression de l'arrière-plan. De plus, les prédictions ViT sont plus résistantes à la suppression des informations de texture à haute fréquence par rapport aux modèles ResNet (résultats visibles dans le tableau 2 de l'article).

Enfin, l'étude analyse également brièvement les représentations apprises par les modèles ViT entraînés dans le framework Contrastive Language Image Pretraining (CLIP) qui relie les images et le texte. Fait intéressant, ils ont découvert que les ViT formés au CLIP produisent des caractéristiques dans des couches plus profondes activées par des objets dans des catégories conceptuelles clairement discernables, contrairement aux ViT formés comme classificateurs. C'est raisonnable mais surprenant car le texte disponible sur Internet fournit des cibles pour des concepts abstraits et sémantiques comme la « morbidité » (des exemples sont visibles dans la figure 11).

VérifiezPapieretGithub. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de vous inscrirenotre sous-reddit 13k+ ML,Chaîne discorde, etCourriel, où nous partageons les dernières nouvelles sur la recherche en IA, des projets d'IA sympas, et plus encore.

Lorenzo Brigato est chercheur postdoctoral au centre ARTORG, une institution de recherche affiliée à l'Université de Berne, et est actuellement impliqué dans l'application de l'IA à la santé et à la nutrition. Il est titulaire d'un doctorat. diplôme en informatique de l'Université Sapienza de Rome, Italie. Son doctorat. thèse axée sur les problèmes de classification d'images avec des distributions de données déficientes en échantillons et en étiquettes.

Papier Github. notre newsletter 13k+ ML SubReddit Discord Channel
PARTAGER