TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning
作者: Frederikus Hudi, Genta Indra Winata, Ruochen Zhang, Alham Fikri Aji
发布时间: 2025-02-27
来源: arxiv
研究方向: 大型语言模型(LLMs)的推理能力评估
主要内容
TEXTGAMES 是一个针对 LLMs 的推理能力评估基准,通过一系列基于文本的逻辑谜题游戏来测试 LLMs 在模式识别、空间意识、算术和逻辑推理方面的能力。研究探讨了 LLMs 在单轮和多轮推理中的表现,以及它们利用反馈进行自我反思的能力。
主要贡献
1. 引入 TEXTGAMES,一个评估 LLMs 逻辑推理技能的文本游戏基准。
2. 对各种 LLMs 进行全面评估,包括现成和专有模型,在零样本和单样本场景下。
3. 证明在多轮交互中给予反馈时,LLMs 可以通过自我反思来提高性能。
4. 揭示推理专门化的 LLMs 在解决复杂问题方面的优势。
研究方法
1. 设计八个基于文本的谜题游戏,涵盖不同的难度级别。
2. 使用多轮提示来评估 LLMs 的推理能力。
3. 比较推理专门化模型和强调指令遵循的模型的表现。
4. 记录人类参与者的表现,以比较人类和模型的能力。
实验结果
LLMs 在解决简单和中等难度的问题时表现出色,但在更困难的任务上面临挑战。人类可以解决所有任务,即使需要更多时间。多轮预测和自我反思可以显著提高 LLMs 的性能,但它们在遵循复杂规则、排序和计数方面仍然存在困难。
未来工作
进一步研究 LLMs 在复杂推理任务中的能力,以及如何改进模型以解决这些问题。探索新的训练方法,以增强 LLMs 的推理能力,并开发更有效的评估基准。