Benchmarking Reasoning Robustness in Large Language Models

作者: Tong Yu, Yongcheng Jing, Xikun Zhang, Wentao Jiang, Wenjie Wu, Yingjie Wang, Wenbin Hu, Bo Du, Dacheng Tao

发布时间: 2025-03-07

来源: arxiv

研究方向: 大型语言模型(LLMs)的推理鲁棒性

主要内容

本文研究了大型语言模型在推理任务中的鲁棒性问题,分析了LLMs在推理过程中存在的四个关键局限:位置偏差、指令敏感性、数值脆弱性和内存依赖性。为了解决这些问题,本文提出了一个名为Math-RoB的基准测试框架,用于评估LLMs在数学推理任务中的鲁棒性。

主要贡献

1. 提出了Math-RoB基准测试框架,用于评估LLMs在数学推理任务中的鲁棒性。

2. 发现了LLMs在推理过程中存在的四个关键局限:位置偏差、指令敏感性、数值脆弱性和内存依赖性。

3. 通过实验验证了Math-RoB基准测试框架的有效性,并分析了不同LLMs在不同任务上的表现。

4. 提出了Memory Completion Rate (MCR)指标,用于评估LLMs在推理过程中填补缺失信息的能力。

研究方法

1. 构建了包含不同问题变体的Math-RoB数据集,用于评估LLMs在位置偏差、指令敏感性、数值脆弱性和内存依赖性方面的表现。

2. 提出了Memory Completion Rate (MCR)指标,用于评估LLMs在推理过程中填补缺失信息的能力。

3. 使用多种投票策略,如MinVote、LastVote、MajorityVote、MinMax和LastMax,来提高推理的准确性。

4. 利用Monte Carlo Tree Search (MCTS)方法来探索和评估最优解。

实验结果

实验结果表明,Math-RoB基准测试框架能够有效地评估LLMs在数学推理任务中的鲁棒性。在Math-RoB-RoLo数据集上,大型LLMs表现出更强的鲁棒性,能够更好地处理长文本输入。在Math-RoB-Define数据集上,大型LLMs在处理操作替换任务时表现出更强的鲁棒性。在Math-RoB-Number数据集上,大型LLMs在处理数值变换任务时表现出更强的鲁棒性。在Math-RoB-Delete数据集上,LLMs在处理缺失信息任务时表现出较强的依赖性,表明它们对训练数据的过度依赖。

未来工作

未来工作将包括:进一步研究LLMs在不同领域的推理鲁棒性问题,探索新的基准测试框架和方法,以及改进LLMs的推理能力。