ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis

作者: Li Lei, Jia Sen, Wang Jianhao, An Zhaochong, Li Jiaang, Hwang Jenq-Neng, Belongie Serge

发布时间: 2025-02-27

来源: arxiv

研究方向: 人机交互与运动理解

主要内容

本文介绍了ChatMotion,这是一个基于多模态多智能体框架的人体运动分析方法。ChatMotion能够动态解释用户意图,将复杂任务分解成元任务,并激活专门的功能模块来理解运动。它集成了多个专门模块,如MotionCore,从不同角度分析人体运动。

主要贡献

1. ChatMotion,一个具有规划者-执行者-验证者架构的多智能体系统,用于全面的人体运动分析。

2. 一个鲁棒的MotionCore,可以调用功能工具,通过综合来自多个MLLM的不同视角来提高理解,并且可以轻松扩展,确保适应性和可扩展性。

3. 对多个数据集的实证验证表明,与现有的MLLM相比,ChatMotion在人体运动分析中实现了性能的提升。

研究方法

1. 多模态大语言模型(MLLMs)

2. 多智能体系统

3. MotionCore工具箱

4. 任务分解

5. 结果聚合

6. 验证机制

实验结果

在MoVid-Bench、BABEL-QA、MVbench和Mo-Repcount等人体运动理解基准数据集上进行了评估,结果表明ChatMotion在准确性和适应性方面均有所提升,并且在多个任务和指标上优于现有的LLM运动模型。

未来工作

未来可以进一步研究如何提高ChatMotion的效率,以及如何将ChatMotion应用于更广泛的人体运动理解任务。