An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning
作者: Navdeep Kaur, Lachlan McPheat, Alessandra Russo, Anthony G Cohn, Pranava Madhyastha
发布时间: 2025-03-10
来源: arxiv
研究方向: 人工智能,自然语言处理,神经符号推理
主要内容
本研究旨在探索如何将符合语言建模(CLM)与答案集编程(ASP)相结合,以提高标准开放权重语言模型在复杂多步推理任务上的性能。研究通过StepGame数据集进行实验,该数据集需要空间推理能力,将CLM应用于从LLM生成ASP程序,并提供了对输出正确性的统计保证。
主要贡献
1. 提出了一种将CLM应用于LLM以生成ASP程序的方法,从而增强LLM在复杂推理任务上的性能。
2. 通过实验证明了CLM在生成ASP程序上的有效性,并显著优于使用标准采样方法的基线模型。
3. 引入了LLM-as-Judge指标,以评估ASP输出的结构和逻辑正确性。
4. 通过分析实验结果,识别了LLM推理管道中的常见错误类型及其传播方式。
5. 研究了不同校准集对CLM泛化能力的影响,并探讨了其在处理更复杂任务时的局限性。
研究方法
1. 使用符合语言建模(CLM)从LLM生成ASP程序。
2. 将自然语言输入转换为ASP程序,并使用CLM生成符合集。
3. 采用In-Context Learning(ICL)技术,使LLM能够根据上下文生成适当的输出。
4. 使用clingo求解器处理ASP程序,以生成答案集。
5. 设计了一个语法检查作为准入函数,以确保生成的ASP程序在语法上是正确的。
6. 引入了LLM-as-Judge指标,以评估生成的ASP样本的质量。
7. 比较了不同校准集对CLM泛化能力的影响,包括包含单步推理示例的校准集和包含多步推理示例的校准集。
实验结果
实验结果表明,与使用标准采样方法的基线模型相比,CLM显著提高了准确性。LLM-as-Judge指标进一步提高了CLM的性能,特别是在多步推理任务上。然而,当处理需要更长时间推理步骤的任务时,CLM的泛化能力有所下降,这表明它在处理更复杂任务时存在局限性。
未来工作
未来工作可以集中在以下方面:深入分析符合集的大小与任务复杂性之间的关系,以制定更有效的采样策略和约束设置;重复实验以计算误差条;提供不使用外部ASP推理器的LLM基线;探索CLM在更复杂推理任务上的应用,例如需要更多推理步骤的复杂任务。