An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning

作者: Navdeep Kaur, Lachlan McPheat, Alessandra Russo, Anthony G Cohn, Pranava Madhyastha

发布时间: 2025-03-10

来源: arxiv

研究方向: 人工智能，自然语言处理，神经符号推理

主要内容

本研究旨在探索如何将符合语言建模（CLM）与答案集编程（ASP）相结合，以提高标准开放权重语言模型在复杂多步推理任务上的性能。研究通过StepGame数据集进行实验，该数据集需要空间推理能力，将CLM应用于从LLM生成ASP程序，并提供了对输出正确性的统计保证。

1. 提出了一种将CLM应用于LLM以生成ASP程序的方法，从而增强LLM在复杂推理任务上的性能。

2. 通过实验证明了CLM在生成ASP程序上的有效性，并显著优于使用标准采样方法的基线模型。

3. 引入了LLM-as-Judge指标，以评估ASP输出的结构和逻辑正确性。

4. 通过分析实验结果，识别了LLM推理管道中的常见错误类型及其传播方式。

5. 研究了不同校准集对CLM泛化能力的影响，并探讨了其在处理更复杂任务时的局限性。

1. 使用符合语言建模（CLM）从LLM生成ASP程序。

2. 将自然语言输入转换为ASP程序，并使用CLM生成符合集。

3. 采用In-Context Learning（ICL）技术，使LLM能够根据上下文生成适当的输出。

4. 使用clingo求解器处理ASP程序，以生成答案集。

5. 设计了一个语法检查作为准入函数，以确保生成的ASP程序在语法上是正确的。

6. 引入了LLM-as-Judge指标，以评估生成的ASP样本的质量。

7. 比较了不同校准集对CLM泛化能力的影响，包括包含单步推理示例的校准集和包含多步推理示例的校准集。

实验结果表明，与使用标准采样方法的基线模型相比，CLM显著提高了准确性。LLM-as-Judge指标进一步提高了CLM的性能，特别是在多步推理任务上。然而，当处理需要更长时间推理步骤的任务时，CLM的泛化能力有所下降，这表明它在处理更复杂任务时存在局限性。

未来工作可以集中在以下方面：深入分析符合集的大小与任务复杂性之间的关系，以制定更有效的采样策略和约束设置；重复实验以计算误差条；提供不使用外部ASP推理器的LLM基线；探索CLM在更复杂推理任务上的应用，例如需要更多推理步骤的复杂任务。