UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation

作者: Thanet Markchom, Tong Wu, Liting Huang, Huizhi Liang

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理(NLP)和计算机视觉(CV)的多模态融合,以及成语的语义表示和图像排序

主要内容

本文针对SemEval-2025 Task 1任务,提出了一种使用生成式大型语言模型(LLM)和多语言CLIP模型来增强成语表示的方法,以实现基于成语的图像排序。

主要贡献

1. 使用LLM生成成语的语义表示,提高了成语的语义理解能力。

2. 结合CLIP模型提取成语和图像的嵌入表示,实现了成语和图像之间的语义关联。

3. 采用对比学习和数据增强技术对CLIP嵌入进行微调,提高了图像排序的准确性。

4. 通过实验验证了所提出方法的有效性,并在SemEval-2025 Task 1任务中取得了较好的成绩。

研究方法

1. 使用LLM对成语进行分类和语义生成。

2. 使用CLIP模型提取成语、图像和图像描述的嵌入表示。

3. 采用对比学习对CLIP嵌入进行微调。

4. 使用数据增强技术提高模型的鲁棒性。

5. 采用集成方法结合多个LLM的语义生成结果,提高图像排序的准确性。

实验结果

实验结果表明,所提出的方法在SemEval-2025 Task 1任务中取得了较好的成绩,优于基线模型。在英语和葡萄牙语数据集上,所提出的方法均取得了较好的性能,证明了其有效性。

未来工作

未来工作可以进一步优化LLM的语义生成能力,提高成语和图像之间的语义关联。此外,还可以探索更有效的数据增强和对比学习方法,进一步提高图像排序的准确性。