Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models

作者: Niccolò Turcato, Matteo Iovino, Aris Synodinos, Alberto Dalla Libera, Ruggero Carli, Pietro Falco

发布时间: 2025-03-07

来源: arxiv

研究方向: 机器人操作与强化学习

主要内容

该研究提出了一种名为ARCHIE的自动强化学习流程，利用GPT-4从自然语言任务描述中生成奖励函数，用于训练机器人操作任务中的强化学习代理。该方法通过将人类可读的文本描述转换为可部署的机器人技能，实现了一步到位的过程。

1. 利用GPT-4从自然语言描述中生成奖励函数，实现自动化奖励生成。

2. 结合奖励生成和任务成功标准定义，创建了一步到位的自主技能获取过程。

3. 提出了一种奖励函数形式化方法，平衡塑造和终端奖励，提高策略学习的稳定性。

4. 在模拟环境和真实机器人设置上验证了方法的有效性，证明了其在解决复杂任务方面的潜力。

1. 大型语言模型（GPT-4）

2. 强化学习（RL）

3. 模拟环境训练

4. 自动模拟环境生成

5. 自然语言到奖励的转换

6. 奖励函数形式化

实验结果表明，使用LLM生成的奖励训练的代理在解决复杂任务方面表现良好，其成功率与人工设计的奖励相当或更好。同时，该方法显著减少了奖励设计所需的时间和专业知识。

未来工作可以包括引入通过现实世界反馈和人类偏好进行奖励函数改进，将训练流程集成到机器人编程软件中，以及探索更复杂的操作场景和多智能体学习设置。