From Colors to Classes: Emergence of Concepts in Vision Transformers

作者: Teresa Dorszewski, Lenka Tětková, Robert Jenssen, Lars Kai Hansen, Kristoffer Knutsen Wickstrøm

发布时间: 2025-04-03

来源: arxiv

研究方向: 计算机视觉,深度学习,可解释人工智能

主要内容

该研究主要关注视觉Transformer(ViT)的层间概念分析,旨在理解ViT如何通过层间学习来提取和编码视觉信息。

主要贡献

1. 首次对ViT的层间概念进行了全面分析,揭示了概念从基本特征到更复杂和具体类别的演变过程。

2. 通过神经元标记技术,发现ViT在早期层中主要编码基本特征(如颜色和纹理),而在后期层中代表更具体的类别(如物体和动物)。

3. 证明了不同预训练策略对编码概念的数量和类别有影响,并且微调特定下游任务通常会减少编码概念的数量,并将概念转移到更相关的类别。

4. 比较了ViT和CNN的层间概念分析,发现两者在概念提取方面具有相似的趋势,尽管ViT的架构没有强加这种处理方式。

研究方法

1. 神经元标记技术:使用CLIP-dissect方法对ViT进行神经元标记,以识别和了解网络中不同层学习的语义概念。

2. 概念分类:将神经元标签分为不同的语义类别,如颜色、纹理、物体、自然元素等。

3. 实验比较:比较了不同ViT模型和CNN在层间概念分析方面的表现。

4. 微调分析:分析了微调特定下游任务对ViT概念的影响。

实验结果

ViTs在早期层中编码更普遍的概念(如颜色和纹理),在后期层中编码更具体的概念(如物体和自然元素)。神经元在早期层中主要对简单的图像进行激活,而在后期层中主要对复杂的图像进行激活。微调特定下游任务会减少编码概念的数量,并将概念转移到更相关的类别。

未来工作

未来研究可以进一步探索以下方向:1)深入理解DINOv2等模型的信息处理和概念形成过程;2)研究其他概念发现方法,以增强对ViT中神经网络表示的理解;3)探索如何减少微调过程中的灾难性遗忘问题。