Correctness Learning: Deductive Verification Guided Learning for Human-AI Collaboration

作者: Zhao Jin, Lu Jin, Yizhe Luo, Shuo Feng, Yucheng Shi, Kai Zheng, Xinde Yu, Mingliang Xu

发布时间: 2025-03-11

来源: arxiv

研究方向: 人工智能与决策支持系统

主要内容

本文提出了一种名为“正确性学习”(Correctness Learning,CL)的新方法,旨在通过结合演绎验证方法和历史高质量方案中的见解来增强人机协作。该方法旨在验证决策输出方案的正确性,并通过模式驱动的正确性学习(Pattern-Driven Correctness Learning,PDCL)来捕捉系统代理的“正确性模式”,从而提高决策模型的性能。

主要贡献

1. 首次将演绎验证引入决策支持系统(IDSS),并提出正确性学习,通过验证决策方案和代理行为的符号描述,建立了新的学习机制。

2. 提出了模式驱动的正确性学习,有效地结合了历史高质量经验与智能学习算法的强大探索能力。

3. 在多个工作条件和核心参数下广泛评估了PDCL,证明了其有效性,并分析了核心参数对PDCL有效性的影响。

研究方法

1. 层次强化学习(Hierarchical Reinforcement Learning)

2. 演绎验证(Deductive Verification)

3. 模式识别(Pattern Recognition)

4. 分离逻辑(Separation Logic)

5. Coq证明辅助工具

实验结果

实验结果表明,与未使用模式指导的算法相比,PDCL显著提高了DQN、DDQN、Dueling DQN和PPO算法的性能,平均提高了8.4%、3.9%、1.6%和5.7%。实验还表明,PDCL在不同工作条件下均有效,并且对核心参数的调整不会影响其有效性。

未来工作

未来将分析更多历史高质量方案,以识别更普遍的模式。此外,还将研究不同模式在整体决策框架中的不同重要性。