UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation

作者: Thanet Markchom, Tong Wu, Liting Huang, Huizhi Liang

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理（NLP）和计算机视觉（CV）的多模态融合，以及成语的语义表示和图像排序

主要内容

本文针对SemEval-2025 Task 1任务，提出了一种使用生成式大型语言模型（LLM）和多语言CLIP模型来增强成语表示的方法，以实现基于成语的图像排序。

1. 使用LLM生成成语的语义表示，提高了成语的语义理解能力。

2. 结合CLIP模型提取成语和图像的嵌入表示，实现了成语和图像之间的语义关联。

3. 采用对比学习和数据增强技术对CLIP嵌入进行微调，提高了图像排序的准确性。

4. 通过实验验证了所提出方法的有效性，并在SemEval-2025 Task 1任务中取得了较好的成绩。

1. 使用LLM对成语进行分类和语义生成。

2. 使用CLIP模型提取成语、图像和图像描述的嵌入表示。

3. 采用对比学习对CLIP嵌入进行微调。

4. 使用数据增强技术提高模型的鲁棒性。

5. 采用集成方法结合多个LLM的语义生成结果，提高图像排序的准确性。

实验结果表明，所提出的方法在SemEval-2025 Task 1任务中取得了较好的成绩，优于基线模型。在英语和葡萄牙语数据集上，所提出的方法均取得了较好的性能，证明了其有效性。

未来工作可以进一步优化LLM的语义生成能力，提高成语和图像之间的语义关联。此外，还可以探索更有效的数据增强和对比学习方法，进一步提高图像排序的准确性。