CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization

作者: Yingrui Ji, Xi Xiao, Gaofei Chen, Hao Xu, Chenrui Ma, Lijing Zhu, Aokun Liang, Jiansheng Chen

发布时间: 2025-04-03

来源: arxiv

研究方向: 跨模态信息瓶颈理论与对比学习

主要内容

本文从信息瓶颈理论的角度重新审视了CLIP模型,提出了跨模态信息瓶颈(CIB)框架,并基于此提出了CIBR正则化策略,旨在提高CLIP模型的跨模态泛化能力。

主要贡献

1. 提供了CLIP模型从信息瓶颈理论角度的全面理论解释,阐明了其强大跨模态泛化能力的内在原因。

2. 基于信息瓶颈理论,提出了一个新颖的互信息正则化策略,明确指导CLIP模型向最优跨模态表示学习方向。

3. 通过在代表性多模态数据集上的初步实验,验证了理论指导方法在对比多模态学习中的有效性和实用价值。

研究方法

1. 信息瓶颈理论

2. 对比学习

3. 互信息估计

4. MINE(互信息神经网络估计器)

5. CIBR正则化策略

实验结果

在零样本分类和跨模态检索任务上,CIBR在所有基准测试中均提高了准确率,特别是在细粒度和纹理敏感的数据集上。CIBR在跨模态检索任务中也显著优于基线模型,表明了其在去除模态特定噪声和增强语义对齐方面的优势。

未来工作

未来工作将集中于更可扩展的互信息估计方法,并在更广泛的多模态基准测试中进行实证验证。