It's a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data
作者: Dominik Schnaus, Nikita Araslanov, Daniel Cremers
发布时间: 2025-04-03
来源: arxiv
研究方向: 计算机视觉与自然语言处理
主要内容
该研究旨在探索在没有并行数据的情况下,如何实现视觉与语言表示的匹配,即所谓的“盲匹配”。通过分析现有视觉和语言基础模型,研究提出了基于二次分配问题的无监督匹配方法,并引入了一种新的启发式算法来提高匹配的准确性。
主要贡献
1. 将无监督匹配问题表述为二次分配问题,并引入了一种新的启发式算法来提高匹配的准确性。
2. 开发了一种技术来寻找最优匹配问题,使得非平凡匹配的可能性非常高。
3. 在四个数据集上对多种视觉和语言模型进行了大规模研究,证明了许多问题实例中,视觉和语言表示可以无监督地进行匹配。
4. 展示了无监督分类器的概念,该分类器在不进行任何图像-文本标注的情况下,实现了非平凡的分类准确率。
研究方法
1. 二次分配问题(QAP)
2. 启发式算法
3. p-dispersion-sum问题
4. Gromov-Wasserstein距离
5. 中心核对齐(CKA)
6. 互信息k近邻(Mutual k-NN)
7. Hahn-Grant求解器
8. 因子化Hahn-Grant求解器
实验结果
实验结果表明,许多问题实例中,视觉和语言表示可以无监督地进行匹配。此外,研究还展示了无监督分类器的概念,该分类器在不进行任何图像-文本标注的情况下,实现了非平凡的分类准确率。
未来工作
未来工作将集中在以下几个方面:1)探索更有效的无监督匹配方法;2)将该方法应用于更广泛的视觉和语言任务;3)研究如何将无监督匹配与其他技术结合,以进一步提高性能。