Benchmarking Reasoning Robustness in Large Language Models
作者: Tong Yu, Yongcheng Jing, Xikun Zhang, Wentao Jiang, Wenjie Wu, Yingjie Wang, Wenbin Hu, Bo Du, Dacheng Tao
发布时间: 2025-03-07
来源: arxiv
研究方向: 大型语言模型(LLMs)的推理鲁棒性
主要内容
本文研究了大型语言模型在推理任务中的鲁棒性问题,分析了LLMs在推理过程中存在的四个关键局限:位置偏差、指令敏感性、数值脆弱性和内存依赖性。为了解决这些问题,本文提出了一个名为Math-RoB的基准测试框架,用于评估LLMs在数学推理任务中的鲁棒性。
主要贡献
1. 提出了Math-RoB基准测试框架,用于评估LLMs在数学推理任务中的鲁棒性。
2. 发现了LLMs在推理过程中存在的四个关键局限:位置偏差、指令敏感性、数值脆弱性和内存依赖性。
3. 通过实验验证了Math-RoB基准测试框架的有效性,并分析了不同LLMs在不同任务上的表现。
4. 提出了Memory Completion Rate (MCR)指标,用于评估LLMs在推理过程中填补缺失信息的能力。
研究方法
1. 构建了包含不同问题变体的Math-RoB数据集,用于评估LLMs在位置偏差、指令敏感性、数值脆弱性和内存依赖性方面的表现。
2. 提出了Memory Completion Rate (MCR)指标,用于评估LLMs在推理过程中填补缺失信息的能力。
3. 使用多种投票策略,如MinVote、LastVote、MajorityVote、MinMax和LastMax,来提高推理的准确性。
4. 利用Monte Carlo Tree Search (MCTS)方法来探索和评估最优解。
实验结果
实验结果表明,Math-RoB基准测试框架能够有效地评估LLMs在数学推理任务中的鲁棒性。在Math-RoB-RoLo数据集上,大型LLMs表现出更强的鲁棒性,能够更好地处理长文本输入。在Math-RoB-Define数据集上,大型LLMs在处理操作替换任务时表现出更强的鲁棒性。在Math-RoB-Number数据集上,大型LLMs在处理数值变换任务时表现出更强的鲁棒性。在Math-RoB-Delete数据集上,LLMs在处理缺失信息任务时表现出较强的依赖性,表明它们对训练数据的过度依赖。
未来工作
未来工作将包括:进一步研究LLMs在不同领域的推理鲁棒性问题,探索新的基准测试框架和方法,以及改进LLMs的推理能力。