CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization
作者: Yingrui Ji, Xi Xiao, Gaofei Chen, Hao Xu, Chenrui Ma, Lijing Zhu, Aokun Liang, Jiansheng Chen
发布时间: 2025-04-03
来源: arxiv
研究方向: 跨模态信息瓶颈理论与对比学习
主要内容
本文从信息瓶颈理论的角度重新审视了CLIP模型,提出了跨模态信息瓶颈(CIB)框架,并基于此提出了CIBR正则化策略,旨在提高CLIP模型的跨模态泛化能力。
主要贡献
1. 提供了CLIP模型从信息瓶颈理论角度的全面理论解释,阐明了其强大跨模态泛化能力的内在原因。
2. 基于信息瓶颈理论,提出了一个新颖的互信息正则化策略,明确指导CLIP模型向最优跨模态表示学习方向。
3. 通过在代表性多模态数据集上的初步实验,验证了理论指导方法在对比多模态学习中的有效性和实用价值。
研究方法
1. 信息瓶颈理论
2. 对比学习
3. 互信息估计
4. MINE(互信息神经网络估计器)
5. CIBR正则化策略
实验结果
在零样本分类和跨模态检索任务上,CIBR在所有基准测试中均提高了准确率,特别是在细粒度和纹理敏感的数据集上。CIBR在跨模态检索任务中也显著优于基线模型,表明了其在去除模态特定噪声和增强语义对齐方面的优势。
未来工作
未来工作将集中于更可扩展的互信息估计方法,并在更广泛的多模态基准测试中进行实证验证。