Large Language Model Strategic Reasoning Evaluation through Behavioral Game Theory

作者: Jingru Jia, Zehua Yuan, Junhao Pan, Paul E. McNamara, Deming Chen

发布时间: 2025-03-03

来源: arxiv

研究方向: 人工智能,大型语言模型,博弈论,行为经济学

主要内容

该研究旨在评估大型语言模型(LLMs)在战略推理方面的能力,通过行为博弈论框架,分析LLMs在多代理环境中的决策过程,并探究其决策背后的机制。

主要贡献

1. 提出了一种基于行为博弈论的评估框架,用于评估LLMs在战略推理方面的能力。

2. 测试了22个最先进的LLMs,发现GPT-o3-mini、GPT-o1和DeepSeek-R1在大多数游戏中表现优异。

3. 发现模型规模并不决定性能,小型模型在某些游戏中也能表现出色。

4. 评估了思维链(CoT)提示对推理的影响,发现其对某些模型有效,但对其他模型则效果有限。

5. 研究了编码的人口统计特征对模型决策的影响,发现某些特征会影响决策模式,存在潜在的偏见。

6. 强调了在提高推理能力的同时,需要考虑公平性和伦理标准。

研究方法

1. 行为博弈论

2. Truncated Quantal Response Equilibrium (TQRE)

3. 多代理博弈

4. 思维链(CoT)提示

5. 回归分析

实验结果

实验结果表明,大型LLMs在大多数游戏中表现优异,但模型规模并不决定性能。思维链(CoT)提示对某些模型有效,但对其他模型则效果有限。编码的人口统计特征对模型决策有影响,存在潜在的偏见。

未来工作

未来研究需要进一步探究以下方面:1. 模型规模、训练方法等因素对推理能力的影响;2. 如何使外部提示策略与模型的内在推理过程相一致;3. 如何在提高推理能力的同时,确保模型的公平性和伦理标准。