ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

作者: Guanqi Zhan, Yuanpei Liu, Kai Han, Weidi Xie, Andrew Zisserman

发布时间: 2025-02-25

来源: arxiv

研究方向: 视觉语言基础模型与图像检索

主要内容

本文提出了一种名为ELIP(Enhanced Language-Image Pre-training)的新框架,旨在提升大规模预训练视觉语言模型在文本到图像检索任务中的性能。该框架通过使用文本查询来预测一组视觉提示向量,并将其用于条件化ViT图像编码器,从而增强模型的检索能力。

主要贡献

1. 提出了一种轻量级的文本引导视觉提示模块,用于改进预训练视觉语言模型在文本到图像检索任务中的性能。

2. 开发了一种最佳实践方法,以有限的计算资源高效地训练模型。

3. 建立了两个新的文本到图像检索基准,用于评估模型在不同领域中的零样本泛化能力。

4. 证明了ELIP模型在COCO和Flickr等标准基准上显著提升了CLIP/SigLIP的性能,并优于最先进的BLIP-2模型。

研究方法

1. 文本引导的MLP映射网络,将文本查询的嵌入映射到视觉嵌入空间。

2. 全局硬样本挖掘,将具有高度相似图像特征对的图像文本对分组到批次中。

3. 数据选择和整理,以提高训练数据的信息量。

4. 在预训练模型上进行的微调,以进一步优化模型性能。

实验结果

在COCO和Flickr等标准基准上,ELIP-C和ELIP-S显著提升了CLIP/SigLIP的性能,ELIP-B在BLIP-2基础上取得了更好的性能。在Occluded COCO和ImageNet-R等OOD基准上,ELIP模型也表现出良好的泛化能力。

未来工作

进一步探索更有效的视觉提示生成方法,以提高模型的检索性能。研究如何将ELIP框架应用于其他多模态学习任务。