An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning

作者: Navdeep Kaur, Lachlan McPheat, Alessandra Russo, Anthony G Cohn, Pranava Madhyastha

发布时间: 2025-03-10

来源: arxiv

研究方向: 人工智能,自然语言处理,神经符号推理

主要内容

本研究旨在探索如何将符合语言建模(CLM)与答案集编程(ASP)相结合,以提高标准开放权重语言模型在复杂多步推理任务上的性能。研究通过StepGame数据集进行实验,该数据集需要空间推理能力,将CLM应用于从LLM生成ASP程序,并提供了对输出正确性的统计保证。

主要贡献

1. 提出了一种将CLM应用于LLM以生成ASP程序的方法,从而增强LLM在复杂推理任务上的性能。

2. 通过实验证明了CLM在生成ASP程序上的有效性,并显著优于使用标准采样方法的基线模型。

3. 引入了LLM-as-Judge指标,以评估ASP输出的结构和逻辑正确性。

4. 通过分析实验结果,识别了LLM推理管道中的常见错误类型及其传播方式。

5. 研究了不同校准集对CLM泛化能力的影响,并探讨了其在处理更复杂任务时的局限性。

研究方法

1. 使用符合语言建模(CLM)从LLM生成ASP程序。

2. 将自然语言输入转换为ASP程序,并使用CLM生成符合集。

3. 采用In-Context Learning(ICL)技术,使LLM能够根据上下文生成适当的输出。

4. 使用clingo求解器处理ASP程序,以生成答案集。

5. 设计了一个语法检查作为准入函数,以确保生成的ASP程序在语法上是正确的。

6. 引入了LLM-as-Judge指标,以评估生成的ASP样本的质量。

7. 比较了不同校准集对CLM泛化能力的影响,包括包含单步推理示例的校准集和包含多步推理示例的校准集。

实验结果

实验结果表明,与使用标准采样方法的基线模型相比,CLM显著提高了准确性。LLM-as-Judge指标进一步提高了CLM的性能,特别是在多步推理任务上。然而,当处理需要更长时间推理步骤的任务时,CLM的泛化能力有所下降,这表明它在处理更复杂任务时存在局限性。

未来工作

未来工作可以集中在以下方面:深入分析符合集的大小与任务复杂性之间的关系,以制定更有效的采样策略和约束设置;重复实验以计算误差条;提供不使用外部ASP推理器的LLM基线;探索CLM在更复杂推理任务上的应用,例如需要更多推理步骤的复杂任务。