DiffCLIP: Differential Attention Meets CLIP

作者: Hasan Abed Al Kader Hammoud, Bernard Ghanem

发布时间: 2025-03-11

来源: arxiv

研究方向: 视觉-语言模型 (VLM) 研究

主要内容

该研究提出了一种名为 DiffCLIP 的新型视觉-语言模型，该模型将差异注意力机制应用于 CLIP 架构，旨在提高图像-文本理解任务的性能。

1. 提出 DiffCLIP，将差异注意力机制首次集成到基于 CLIP 的 VLM 中，有效减少了视觉和文本流中的注意力噪声。

2. 通过在 Conceptual Captions 3M/12M 预训练数据集上的大量实验，证明了 DiffCLIP 在多种任务上优于基线 CLIP 模型，参数开销仅为 0.003%。

3. 进行详细的消融实验，表明动态初始化可以提升零样本性能，并且仅在视觉编码器中应用差异注意力即可捕捉到大部分益处，为改进多模态学习提供了一种灵活且成本效益高的途径。

1. 差异注意力机制

2. CLIP 架构

3. Transformer 注意力机制

4. 多任务评估（包括线性探测、少量样本分类、图像-文本检索、零样本图像分类和检索、细粒度视觉理解等）

5. 消融实验

DiffCLIP 在各种任务（包括线性探测、少量样本分类、图像-文本检索、域外鲁棒性和细粒度视觉理解）上均优于标准的 CLIP 模型，参数开销仅为 0.003%。此外，动态注意力初始化和仅对视觉编码器应用差异注意力也能带来显著的性能提升。

将差异注意力训练的视觉编码器集成到更大的、更复杂的 VLM（如 LLaVA 或 TinyLLaVA）中，并探索如何将差异注意力应用于更大规模的架构和更大的数据集。