General-Purpose Aerial Intelligent Agents Empowered by Large Language Models
作者: Ji Zhao, Xiao Lin
发布时间: 2025-03-12
来源: arxiv
研究方向: 无人机领域与大型语言模型(LLM)的结合,实现开放世界中的通用任务执行
主要内容
本文提出了一种新型的无人机智能体(AIA),它通过紧密集成LLM推理和机器人自主性,能够执行开放世界的任务。该系统采用硬件-软件协同设计,解决了两项基本限制:1)通过边缘优化的计算平台在机载上进行LLM操作,实现14B参数模型在220W峰值功率下的5-6个token/秒推理;2)双向认知架构,将慢速深思熟虑的规划(LLM任务规划)与快速反应控制(状态估计、映射、避障和运动规划)相结合。
主要贡献
1. 提出了一种新型的硬件-软件协同设计框架,为无人机原型提供了边缘计算。
2. 提出了一种提示设计框架,将基于LLM的推理与传统的无人机自主模块相结合。
3. 使用硬件平台的原型验证了LLM/VLM在机载上运行的有效性,并通过关键任务应用(如甘蔗监测、电网检查、矿井隧道探索和生物观察)测试了其性能。
4. 建立了开放环境中任务规划和机器人自主性之间桥梁的新框架。
研究方法
1. 硬件-软件协同设计
2. 边缘计算
3. 双向认知架构
4. 慢速深思熟虑的规划和快速反应控制相结合
5. 任务规划和运动规划相结合
6. LLM推理和VLM感知
实验结果
实验结果表明,该系统在甘蔗监测、电网检查、矿井隧道探索和生物观察等关键任务应用中表现出可靠的任务规划和场景理解能力。与人类操作员相比,无人机智能体能够以较低的成本执行危险或单调的任务。实验结果还表明,LLM推理和VLM感知有助于无人机,尤其是在安全性关键的操作中。
未来工作
未来将进一步减轻无人机重量,通过使用更轻的材料(如碳纤维)来替代现有的铝合金框架。此外,将通过实地飞行测试进一步验证系统的有效性,并使硬件平台公开。