Collective Reasoning Among LLMs A Framework for Answer Validation Without Ground Truth

作者: Seyed Pouyan Mousavi Davoudi, Alireza Shafiee Fard, Alireza Amiri-Margavi

发布时间: 2025-03-03

来源: arxiv

研究方向: 大型语言模型(LLMs)在复杂概率推理任务中的协作和验证

主要内容

本文研究多个LLMs在没有明确正确答案的情况下,如何通过协作生成和回答复杂的概率问题。该研究旨在探索模型间的共识如何增强回答的可靠性,并作为评估生成问题质量的替代方案。实验使用了GPT-4-0125-preview、Meta-LLaMA-3-70B-Instruct、Claude-3-Opus和Gemini-1.5-Flash等LLMs,并使用统计方法(如卡方检验、Fleiss' Kappa和置信区间分析)来量化共识和一致性。

主要贡献

1. 提出了一个基于多模型协作的复杂知识验证框架。

2. 提供了支持协作验证有效性的经验证据。

3. 为基于LLMs的知识验证的未来研究建立了基准。

4. 为优化通过协作LLMs进行AI驱动的推理提供了有意义的见解。

研究方法

1. 集体智能、分布式认知和共识形成理论框架。

2. 混合方法,结合定量和定性方法。

3. 统计方法:卡方检验、Fleiss' Kappa和置信区间分析。

4. 多模型协作和问题生成/回答过程。

5. 统计显著性测试:卡方检验和Fleiss' Kappa。

实验结果

研究结果表明,Claude和Gemini生成的问题结构良好且歧义性低,导致较高的模型间一致性。相反,LLaMA在问题制定中表现出更大的可变性和可靠性降低,这反映了其更宽的置信区间和较低的共识率。这些结果表明,多模型协作不仅增强了回答的可靠性,而且提供了一个在没有明确正确答案的情况下评估和改进问题质量的宝贵框架。

未来工作

未来的研究应探索将人类专家评估纳入基准,以将模型可靠性与已建立的地面真相标准进行比较。此外,调查模型间共识结构中的偏差传播对于防止系统错误的重现至关重要。通过解决这些挑战,可以提高基于LLMs的共识机制的鲁棒性、可扩展性和可信度,为更可靠的AI驱动推理系统铺平道路。