From Colors to Classes: Emergence of Concepts in Vision Transformers

作者: Teresa Dorszewski, Lenka Tětková, Robert Jenssen, Lars Kai Hansen, Kristoffer Knutsen Wickstrøm

发布时间: 2025-04-03

来源: arxiv

研究方向: 计算机视觉，深度学习，可解释人工智能

主要内容

该研究主要关注视觉Transformer（ViT）的层间概念分析，旨在理解ViT如何通过层间学习来提取和编码视觉信息。

1. 首次对ViT的层间概念进行了全面分析，揭示了概念从基本特征到更复杂和具体类别的演变过程。

2. 通过神经元标记技术，发现ViT在早期层中主要编码基本特征（如颜色和纹理），而在后期层中代表更具体的类别（如物体和动物）。

3. 证明了不同预训练策略对编码概念的数量和类别有影响，并且微调特定下游任务通常会减少编码概念的数量，并将概念转移到更相关的类别。

4. 比较了ViT和CNN的层间概念分析，发现两者在概念提取方面具有相似的趋势，尽管ViT的架构没有强加这种处理方式。

1. 神经元标记技术：使用CLIP-dissect方法对ViT进行神经元标记，以识别和了解网络中不同层学习的语义概念。

2. 概念分类：将神经元标签分为不同的语义类别，如颜色、纹理、物体、自然元素等。

3. 实验比较：比较了不同ViT模型和CNN在层间概念分析方面的表现。

4. 微调分析：分析了微调特定下游任务对ViT概念的影响。

ViTs在早期层中编码更普遍的概念（如颜色和纹理），在后期层中编码更具体的概念（如物体和自然元素）。神经元在早期层中主要对简单的图像进行激活，而在后期层中主要对复杂的图像进行激活。微调特定下游任务会减少编码概念的数量，并将概念转移到更相关的类别。

未来研究可以进一步探索以下方向：1）深入理解DINOv2等模型的信息处理和概念形成过程；2）研究其他概念发现方法，以增强对ViT中神经网络表示的理解；3）探索如何减少微调过程中的灾难性遗忘问题。