Exploring the Word Sense Disambiguation Capabilities of Large Language Models

作者: Pierpaolo Basile, Lucia Siciliani, Elio Musacchio, Giovanni Semeraro

发布时间: 2025-03-12

来源: arxiv

研究方向: 自然语言处理（NLP）中的词义消歧任务

主要内容

该研究评估了大型语言模型（LLMs）在词义消歧（WSD）任务上的表现。研究人员扩展了现有的基准（XL-WSD）以设计两个适合LLMs的子任务：1）给定句子中的单词，LLM必须生成正确的定义；2）给定句子中的单词和一组预定义的意义，LLM必须选择正确的一个。

1. 扩展了现有的多语言基准，用于测试和训练LLMs在WSD任务中的表现

2. 对开放状态的最先进的LLMs进行了广泛的评估

3. 发布了在数据集上训练的多个微调模型

1. 使用XL-WSD和BabelNet构建基准

2. 在零样本学习设置下评估LLMs

3. 使用少量参数的微调模型进行评估

4. 使用RougeL和BertScore评估定义生成的质量

5. 使用准确率评估选择正确意义的性能

LLMs在零样本学习设置中表现良好，但无法超越当前最先进的方法。然而，具有中等数量参数的微调模型优于所有其他模型，包括最先进的方法。在英语中，微调模型达到了.8652的准确率。

计划扩展分析到未充分代表的语言，考虑少量样本的方法，以及使用更多样化的硬件进行微调。