ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

作者: Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi

发布时间: 2025-04-02

来源: arxiv

研究方向: 人工智能规划与推理

主要内容

本文研究了人工智能在规划与推理领域的应用，通过构建ACPBench Hard数据集，对大型语言模型在规划任务中的推理能力进行了评估。

1. 构建了ACPBench Hard数据集，包含多种规划任务，用于评估大型语言模型的推理能力。

2. 提出了一种新的开放性问题格式，使模型能够生成规划任务所需的答案。

3. 对ACPBench Hard数据集中的8个任务进行了详细的分析，并提出了相应的验证算法。

4. 对多种大型语言模型进行了实验，发现现有模型在规划任务中的推理能力仍有待提高。

1. 构建ACPBench Hard数据集，包含多种规划任务，用于评估大型语言模型的推理能力。

2. 提出了一种新的开放性问题格式，使模型能够生成规划任务所需的答案。

3. 对ACPBench Hard数据集中的8个任务进行了详细的分析，并提出了相应的验证算法。

4. 对多种大型语言模型进行了实验，并使用2-shot prompting技术来指导模型回答问题。

5. 使用解析器从模型生成的文本中提取答案。

实验结果表明，现有模型在ACPBench Hard数据集中的表现仍然不够理想。对于大多数任务，即使是最大的模型也得分低于65%。在原子可达性、动作可达性、地标和适用性等任务中，所有测试的语言模型都表现出非常低的准确率。

未来研究可以关注以下几个方面： 1. 优化模型在规划任务中的推理能力。 2. 研究新的提示技术，以提高模型在规划任务中的表现。 3. 开发针对生成式问题的训练数据，以进一步提高模型在规划任务中的推理能力。 4. 将ACPBench Hard数据集扩展到新的任务，例如对象计数等。