Exploring the Word Sense Disambiguation Capabilities of Large Language Models
作者: Pierpaolo Basile, Lucia Siciliani, Elio Musacchio, Giovanni Semeraro
发布时间: 2025-03-12
来源: arxiv
研究方向: 自然语言处理(NLP)中的词义消歧任务
主要内容
该研究评估了大型语言模型(LLMs)在词义消歧(WSD)任务上的表现。研究人员扩展了现有的基准(XL-WSD)以设计两个适合LLMs的子任务:1)给定句子中的单词,LLM必须生成正确的定义;2)给定句子中的单词和一组预定义的意义,LLM必须选择正确的一个。
主要贡献
1. 扩展了现有的多语言基准,用于测试和训练LLMs在WSD任务中的表现
2. 对开放状态的最先进的LLMs进行了广泛的评估
3. 发布了在数据集上训练的多个微调模型
研究方法
1. 使用XL-WSD和BabelNet构建基准
2. 在零样本学习设置下评估LLMs
3. 使用少量参数的微调模型进行评估
4. 使用RougeL和BertScore评估定义生成的质量
5. 使用准确率评估选择正确意义的性能
实验结果
LLMs在零样本学习设置中表现良好,但无法超越当前最先进的方法。然而,具有中等数量参数的微调模型优于所有其他模型,包括最先进的方法。在英语中,微调模型达到了.8652的准确率。
未来工作
计划扩展分析到未充分代表的语言,考虑少量样本的方法,以及使用更多样化的硬件进行微调。