Compositional Causal Reasoning Evaluation in Language Models
作者: Jacqueline R. M. A. Maasch, Alihan Hüyük, Xinnuo Xu, Aditya V. Nori, Javier Gonzalez
发布时间: 2025-03-07
来源: arxiv
研究方向: 语言模型与因果推理
主要内容
该研究探讨了语言模型在因果推理和组合推理方面的能力,通过引入组合因果推理(CCR)的概念,评估语言模型在推断因果量如何组合以及如何通过图传播因果量方面的能力。
主要贡献
1. 定义了组合因果推理(CCR)的概念,并将其应用于语言模型。
2. 提出了一个评估CCR的系统框架,包括外部有效性和内部一致性。
3. 设计了针对语言模型的CCR任务,并展示了在Llama、Phi和GPT系列模型上的应用。
4. 揭示了不同模型在CCR任务上的错误模式,并发现复杂因果路径会增加错误率。
5. 引入了交换性因果树(CCT)作为可视化因果信息流和评估CCR的工具。
研究方法
1. 因果推理和图形模型
2. 结构因果模型(SCM)
3. 平均处理效应(ATE)
4. 必要性概率和充分性概率(PNS)
5. 交换性因果树(CCT)
6. 相对绝对误差(RAE)
实验结果
实验结果表明,所有模型在简单CCR任务上均表现出不一致和无效的推理模式,复杂因果路径会增加错误率。o1模型表现出有效的组合一致性(VC),而其他模型则表现出无效一致性(IC)或无效不一致(II)。使用思维链(CoT)提示可以改善GPT-4o模型的性能,但内部一致性仍然存在问题。
未来工作
未来的工作可以探索自动设计具有不同图形复杂性的归纳和演绎CCR任务。可以扩展该框架以考虑其他因果估计量和组合形式。此外,可以探索使用其他方法来评估语言模型的推理能力,例如通过构建更具挑战性的任务或使用更复杂的因果模型。