Crossmodal Knowledge Distillation with WordNet-Relaxed Text Embeddings for Robust Image Classification

作者: Chenqi Guo, Mengshuo Rong, Qianli Feng, Rongfan Feng, Yinglong Ma

发布时间: 2025-04-03

来源: arxiv

研究方向: 跨模态知识蒸馏与图像分类

主要内容

本文提出了一种基于WordNet松弛文本嵌入的多教师跨模态知识蒸馏框架,用于提高图像分类的鲁棒性。该框架结合了CLIP图像嵌入和可学习的WordNet松弛文本嵌入,通过避免直接使用精确的类别名称,而是使用语义丰富的WordNet扩展来缓解标签泄漏,并引入更多样化的文本提示。

主要贡献

1. 提出了一种多教师跨模态知识蒸馏框架,结合了图像增强和多模态教师。

2. 引入了语义正则化机制,鼓励教师模型学习更通用的文本描述。

3. 通过可解释性分析证明了WordNet正则化如何推动教师模型更多地依赖稳健的通用视觉模态特征,减少文本记忆,并有效地利用引入的文本提示。

4. 在六个公开数据集上进行了广泛的实验,结果表明该方法在跨模态知识蒸馏方面取得了最先进或第二好的性能。

研究方法

1. WordNet松弛文本嵌入:通过WordNet扩展来丰富文本嵌入,避免标签泄漏。

2. 多教师设置:使用一个关注图像增强的单模态教师和一个处理视觉和文本模态的多模态教师。

3. 分层损失:比较WordNet松弛和精确类别名称嵌入,确保语义对齐。

4. 余弦正则化:防止过大的偏差,保持与预训练分布的对齐。

实验结果

在六个公开数据集上进行了实验,结果表明该方法在跨模态知识蒸馏方面取得了最先进或第二好的性能,证明了其在图像分类中的有效性。

未来工作

未来可以进一步研究如何将WordNet松弛文本嵌入应用于其他跨模态任务,以及如何结合更多模态信息来提高知识蒸馏的效率。