Language Models' Factuality Depends on the Language of Inquiry

作者: Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

发布时间: 2025-02-27

来源: arxiv

研究方向: 多语言语言模型(Multilingual Language Models, LMs)的事实性(Factuality)与跨语言知识迁移(Cross-Lingual Knowledge Transfer)

主要内容

本文研究了多语言语言模型在不同语言中事实性知识的一致性表现,发现模型在跨语言知识迁移上存在显著的不对称性。研究提出了一个新的基准数据集,包含13种语言的10,000个与国家相关的事实,并引入了三个新的评估指标:Factual Recall Score (FRS)、Knowledge Transferability Score (KTS) 和 Cross-Lingual Factual Knowledge Transferability Score (X-FaKT),用于量化模型在不同语言中的事实性回忆和知识迁移能力。实验结果表明,当前最先进的语言模型在跨语言知识迁移上存在显著缺陷,尤其是在低资源语言中的表现较差。

主要贡献

1. 提出了一个新的多语言基准数据集,包含13种语言的10,000个与国家相关的事实。

2. 引入了三个新的评估指标:Factual Recall Score (FRS)、Knowledge Transferability Score (KTS) 和 Cross-Lingual Factual Knowledge Transferability Score (X-FaKT),用于量化模型在不同语言中的事实性回忆和知识迁移能力。

3. 揭示了当前多语言语言模型在跨语言知识迁移上的显著不对称性,尤其是在低资源语言中的表现较差。

4. 提出了模型在跨语言知识迁移中的局限性,尤其是在处理低资源语言时的表现。

5. 开源了基准数据集和评估框架,以推动未来多语言知识迁移的研究。

研究方法

1. 构建了一个包含13种语言的多语言基准数据集,涵盖高、中、低资源语言。

2. 设计了三个任务:Factual Recall、In-Context Recall 和 Counter-Factual Context Adherence,用于评估模型在不同语言中的表现。

3. 提出了三个新的评估指标:FRS、KTS 和 X-FaKT,用于量化模型的事实性回忆和跨语言知识迁移能力。

4. 使用14个不同规模和架构的语言模型进行实验,评估其在多语言任务中的表现。

5. 通过定量和定性分析,揭示了模型在跨语言知识迁移中的局限性。

实验结果

实验结果表明,当前最先进的语言模型在跨语言知识迁移上存在显著缺陷,尤其是在低资源语言中的表现较差。较大的模型(如Llama-3-70B)在事实性回忆和知识迁移能力上表现较好,而较小的模型(如Llama-3.2-1B)表现较差。此外,模型在处理高资源语言时的表现显著优于低资源语言。模型在处理Counter-Factual Context Adherence任务时,表现出对内部知识的过度依赖,导致在提供反事实上下文时表现不佳。

未来工作

未来的研究可以扩展到更多的语言和领域,以进一步验证模型的跨语言知识迁移能力。此外,可以探索如何通过改进模型架构和训练方法,提升模型在低资源语言中的表现。还可以研究如何平衡模型的事实性回忆和上下文推理能力,以提升其在多语言任务中的整体表现。最后,未来的工作可以进一步研究如何通过校准多语言模型(Calibrated Multilingualism)来提升模型在不同语言中的可靠性。