UoR-NCL at SemEval-2025 Task 1: Using Generative LLMs and CLIP Models for Multilingual Multimodal Idiomaticity Representation
作者: Thanet Markchom, Tong Wu, Liting Huang, Huizhi Liang
发布时间: 2025-03-03
来源: arxiv
研究方向: 自然语言处理(NLP)和计算机视觉(CV)的多模态融合,以及成语的语义表示和图像排序
主要内容
本文针对SemEval-2025 Task 1任务,提出了一种使用生成式大型语言模型(LLM)和多语言CLIP模型来增强成语表示的方法,以实现基于成语的图像排序。
主要贡献
1. 使用LLM生成成语的语义表示,提高了成语的语义理解能力。
2. 结合CLIP模型提取成语和图像的嵌入表示,实现了成语和图像之间的语义关联。
3. 采用对比学习和数据增强技术对CLIP嵌入进行微调,提高了图像排序的准确性。
4. 通过实验验证了所提出方法的有效性,并在SemEval-2025 Task 1任务中取得了较好的成绩。
研究方法
1. 使用LLM对成语进行分类和语义生成。
2. 使用CLIP模型提取成语、图像和图像描述的嵌入表示。
3. 采用对比学习对CLIP嵌入进行微调。
4. 使用数据增强技术提高模型的鲁棒性。
5. 采用集成方法结合多个LLM的语义生成结果,提高图像排序的准确性。
实验结果
实验结果表明,所提出的方法在SemEval-2025 Task 1任务中取得了较好的成绩,优于基线模型。在英语和葡萄牙语数据集上,所提出的方法均取得了较好的性能,证明了其有效性。
未来工作
未来工作可以进一步优化LLM的语义生成能力,提高成语和图像之间的语义关联。此外,还可以探索更有效的数据增强和对比学习方法,进一步提高图像排序的准确性。