ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

作者: Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi

发布时间: 2025-04-02

来源: arxiv

研究方向: 人工智能规划与推理

主要内容

本文研究了人工智能在规划与推理领域的应用,通过构建ACPBench Hard数据集,对大型语言模型在规划任务中的推理能力进行了评估。

主要贡献

1. 构建了ACPBench Hard数据集,包含多种规划任务,用于评估大型语言模型的推理能力。

2. 提出了一种新的开放性问题格式,使模型能够生成规划任务所需的答案。

3. 对ACPBench Hard数据集中的8个任务进行了详细的分析,并提出了相应的验证算法。

4. 对多种大型语言模型进行了实验,发现现有模型在规划任务中的推理能力仍有待提高。

研究方法

1. 构建ACPBench Hard数据集,包含多种规划任务,用于评估大型语言模型的推理能力。

2. 提出了一种新的开放性问题格式,使模型能够生成规划任务所需的答案。

3. 对ACPBench Hard数据集中的8个任务进行了详细的分析,并提出了相应的验证算法。

4. 对多种大型语言模型进行了实验,并使用2-shot prompting技术来指导模型回答问题。

5. 使用解析器从模型生成的文本中提取答案。

实验结果

实验结果表明,现有模型在ACPBench Hard数据集中的表现仍然不够理想。对于大多数任务,即使是最大的模型也得分低于65%。在原子可达性、动作可达性、地标和适用性等任务中,所有测试的语言模型都表现出非常低的准确率。

未来工作

未来研究可以关注以下几个方面: 1. 优化模型在规划任务中的推理能力。 2. 研究新的提示技术,以提高模型在规划任务中的表现。 3. 开发针对生成式问题的训练数据,以进一步提高模型在规划任务中的推理能力。 4. 将ACPBench Hard数据集扩展到新的任务,例如对象计数等。