每日最新论文速读

Benchmarking Reasoning Robustness in Large Language Models

作者: Tong Yu, Yongcheng Jing, Xikun Zhang, Wentao Jiang, Wenjie Wu, Yingjie Wang, Wenbin Hu, Bo Du, Dacheng Tao

发布时间: 2025-03-07

来源: arxiv

研究方向: 大型语言模型（LLMs）的推理鲁棒性

主要内容

本文研究了大型语言模型在推理任务中的鲁棒性问题，分析了LLMs在推理过程中存在的四个关键局限：位置偏差、指令敏感性、数值脆弱性和内存依赖性。为了解决这些问题，本文提出了一个名为Math-RoB的基准测试框架，用于评估LLMs在数学推理任务中的鲁棒性。

主要贡献

1. 提出了Math-RoB基准测试框架，用于评估LLMs在数学推理任务中的鲁棒性。

2. 发现了LLMs在推理过程中存在的四个关键局限：位置偏差、指令敏感性、数值脆弱性和内存依赖性。

3. 通过实验验证了Math-RoB基准测试框架的有效性，并分析了不同LLMs在不同任务上的表现。

4. 提出了Memory Completion Rate (MCR)指标，用于评估LLMs在推理过程中填补缺失信息的能力。

研究方法

1. 构建了包含不同问题变体的Math-RoB数据集，用于评估LLMs在位置偏差、指令敏感性、数值脆弱性和内存依赖性方面的表现。

2. 提出了Memory Completion Rate (MCR)指标，用于评估LLMs在推理过程中填补缺失信息的能力。

3. 使用多种投票策略，如MinVote、LastVote、MajorityVote、MinMax和LastMax，来提高推理的准确性。

4. 利用Monte Carlo Tree Search (MCTS)方法来探索和评估最优解。

实验结果

实验结果表明，Math-RoB基准测试框架能够有效地评估LLMs在数学推理任务中的鲁棒性。在Math-RoB-RoLo数据集上，大型LLMs表现出更强的鲁棒性，能够更好地处理长文本输入。在Math-RoB-Define数据集上，大型LLMs在处理操作替换任务时表现出更强的鲁棒性。在Math-RoB-Number数据集上，大型LLMs在处理数值变换任务时表现出更强的鲁棒性。在Math-RoB-Delete数据集上，LLMs在处理缺失信息任务时表现出较强的依赖性，表明它们对训练数据的过度依赖。

未来工作

未来工作将包括：进一步研究LLMs在不同领域的推理鲁棒性问题，探索新的基准测试框架和方法，以及改进LLMs的推理能力。