Solving Word-Sense Disambiguation and Word-Sense Induction with Dictionary Examples

作者: Tadej Škvorc, Marko Robnik-Šikonja

发布时间: 2025-03-07

来源: arxiv

研究方向: 自然语言处理，少资源语言处理，词义消歧与词义诱导

主要内容

本文提出了一种利用大型语言模型（LLM）扩展现有语言资源的方法，用于解决少资源语言中的词义消歧（WSD）和词义诱导（WSI）问题。通过使用LLM从字典示例中生成句子对，创建了一个词-上下文（WiC）任务的数据集，该任务可以用于训练分类模型以预测目标词在不同句子中的词义是否相同。该模型不仅可以用于WSD和WSI任务，还可以在斯洛文尼亚语等少资源语言中提高性能。

主要贡献

1. 提出了一种利用LLM从字典示例中生成WiC任务数据集的新方法。

2. 提出了一种将WiC任务训练的模型应用于WSD和WSI任务的新方案。

3. 在斯洛文尼亚语等少资源语言中，展示了所提出方法的有效性，并产生了实用的WSD和WSI预测模型。

研究方法

1. 使用LLM扩展字典中的词义定义和示例为完整句子。

2. 使用WiC任务训练分类模型。

3. 将WiC模型应用于WSD和WSI任务。

4. 在斯洛文尼亚语上进行实验，评估模型性能。

实验结果

实验结果表明，使用LLM生成的句子对可以显著提高WiC、WSD和WSI任务的性能。在WSD和WSI任务上，与仅使用字典示例片段相比，使用LLM生成的句子对提高了性能。在WSD任务上，Part-OOV和Non-OOV评估类型的CA分数分别为93%和94.2%，在WSI任务上，Non-OOV和Part-OOV评估类型的CA分数分别为75.1%和70%。

未来工作

未来工作将包括探索在更大规模数据集上使用LLM进行数据生成，以及分析不同LLM在生成句子时的表现。此外，将研究LLM在词汇学、历时语言学分析等领域中的应用。