From Colors to Classes: Emergence of Concepts in Vision Transformers
作者: Teresa Dorszewski, Lenka Tětková, Robert Jenssen, Lars Kai Hansen, Kristoffer Knutsen Wickstrøm
发布时间: 2025-04-03
来源: arxiv
研究方向: 计算机视觉,深度学习,可解释人工智能
主要内容
该研究主要关注视觉Transformer(ViT)的层间概念分析,旨在理解ViT如何通过层间学习来提取和编码视觉信息。
主要贡献
1. 首次对ViT的层间概念进行了全面分析,揭示了概念从基本特征到更复杂和具体类别的演变过程。
2. 通过神经元标记技术,发现ViT在早期层中主要编码基本特征(如颜色和纹理),而在后期层中代表更具体的类别(如物体和动物)。
3. 证明了不同预训练策略对编码概念的数量和类别有影响,并且微调特定下游任务通常会减少编码概念的数量,并将概念转移到更相关的类别。
4. 比较了ViT和CNN的层间概念分析,发现两者在概念提取方面具有相似的趋势,尽管ViT的架构没有强加这种处理方式。
研究方法
1. 神经元标记技术:使用CLIP-dissect方法对ViT进行神经元标记,以识别和了解网络中不同层学习的语义概念。
2. 概念分类:将神经元标签分为不同的语义类别,如颜色、纹理、物体、自然元素等。
3. 实验比较:比较了不同ViT模型和CNN在层间概念分析方面的表现。
4. 微调分析:分析了微调特定下游任务对ViT概念的影响。
实验结果
ViTs在早期层中编码更普遍的概念(如颜色和纹理),在后期层中编码更具体的概念(如物体和自然元素)。神经元在早期层中主要对简单的图像进行激活,而在后期层中主要对复杂的图像进行激活。微调特定下游任务会减少编码概念的数量,并将概念转移到更相关的类别。
未来工作
未来研究可以进一步探索以下方向:1)深入理解DINOv2等模型的信息处理和概念形成过程;2)研究其他概念发现方法,以增强对ViT中神经网络表示的理解;3)探索如何减少微调过程中的灾难性遗忘问题。