Advancing Vietnamese Information Retrieval with Learning Objective and Benchmark

作者: Phu-Vinh Nguyen, Minh-Nam Tran, Long Nguyen, Dien Dinh

发布时间: 2025-03-11

来源: arxiv

研究方向: 越南信息检索与自然语言处理

主要内容

本文旨在推动越南信息检索（IR）领域的研究，通过构建一个新的基准（VCS）和改进的训练目标函数，提高越南嵌入语言模型在检索和重排序任务中的性能。

1. 引入了越南信息检索基准（VCS），用于评估越南语言模型在搜索相关文档方面的能力。

2. 提出了一个新的训练目标函数，旨在提高嵌入语言模型在检索和重排序任务中的性能。

3. 研究了温度（温度）在InfoNCE和改进的损失函数中对嵌入语言模型性能的影响。

1. 构建了新的越南信息检索基准（VCS），包括ViMedRetrieve、ViRerank和MNLI-R/QNLI-R任务。

2. 提出了改进的InfoNCE损失函数，通过添加一个额外的权重来降低正确对的损失，从而减慢模型的训练速度。

3. 采用了两种训练方法：批内负样本和精心策划的硬负样本。

4. 使用预训练的BERT模型进行文本嵌入，并使用指令训练来区分查询和文档的嵌入。

5. 比较了不同训练目标和训练方法对模型性能的影响。

6. 研究了温度对模型性能的影响。

实验结果表明，改进的损失函数和精心策划的硬负样本训练方法在重排序和检索任务中提高了模型的性能。此外，温度对模型的性能有显著影响，低温度通常会导致更好的性能。

未来的工作将包括改进VCS基准，引入新的评估指标来评估模型的整体性能，并探索更先进的训练方法和模型架构来进一步提高模型的性能。