Agent models: Internalizing Chain-of-Action Generation into Reasoning models

作者: Yuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang

发布时间: 2025-03-11

来源: arxiv

研究方向: 人工智能、自然语言处理、大型推理模型(LRM)、大型代理模型(LAM)

主要内容

本文提出了一种名为AutoCoA的框架,旨在将动作链(CoA)的生成内化到推理模型中,从而实现模型自主地决定何时以及如何使用外部工具。AutoCoA框架结合了监督微调(SFT)和强化学习(RL),使模型能够在推理和动作之间无缝切换,同时高效地管理环境交互。

主要贡献

1. 提出了大型代理模型(LAM)的概念,将工具使用能力内化到推理模型中。

2. 设计并实现了AutoCoA框架,通过SFT和RL训练模型,使其能够自主地决定何时以及如何使用外部工具。

3. 在开放域问答任务上进行了实验,证明了AutoCoA训练的代理模型在任务完成方面显著优于基于ReAct的工作流程,特别是在需要长期推理和多个步骤动作的任务中。

研究方法

1. 监督微调(SFT)

2. 强化学习(RL)

3. 对比学习

4. 内部世界模型

5. 轨迹级CoA优化

6. 步骤级动作触发

实验结果

实验结果表明,AutoCoA框架训练的代理模型在开放域问答任务上表现出色,特别是在需要长期推理和多个步骤动作的任务中。与传统的代理工作流程相比,AutoCoA框架能够显著提高任务完成的准确率。

未来工作

未来的工作将包括扩展AutoCoA框架的应用范围,例如用于开放域任务、构建更强大的动作执行器和信息寻求者,以及开发代理操作系统(Agent OS)等。