CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization

作者: Yingrui Ji, Xi Xiao, Gaofei Chen, Hao Xu, Chenrui Ma, Lijing Zhu, Aokun Liang, Jiansheng Chen

发布时间: 2025-04-03

来源: arxiv

研究方向: 跨模态信息瓶颈理论与对比学习

主要内容

本文从信息瓶颈理论的角度重新审视了CLIP模型，提出了跨模态信息瓶颈（CIB）框架，并基于此提出了CIBR正则化策略，旨在提高CLIP模型的跨模态泛化能力。

1. 提供了CLIP模型从信息瓶颈理论角度的全面理论解释，阐明了其强大跨模态泛化能力的内在原因。

2. 基于信息瓶颈理论，提出了一个新颖的互信息正则化策略，明确指导CLIP模型向最优跨模态表示学习方向。

3. 通过在代表性多模态数据集上的初步实验，验证了理论指导方法在对比多模态学习中的有效性和实用价值。

1. 信息瓶颈理论

2. 对比学习

3. 互信息估计

4. MINE（互信息神经网络估计器）

5. CIBR正则化策略

在零样本分类和跨模态检索任务上，CIBR在所有基准测试中均提高了准确率，特别是在细粒度和纹理敏感的数据集上。CIBR在跨模态检索任务中也显著优于基线模型，表明了其在去除模态特定噪声和增强语义对齐方面的优势。

未来工作将集中于更可扩展的互信息估计方法，并在更广泛的多模态基准测试中进行实证验证。