ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis

作者: Li Lei, Jia Sen, Wang Jianhao, An Zhaochong, Li Jiaang, Hwang Jenq-Neng, Belongie Serge

发布时间: 2025-02-27

来源: arxiv

研究方向: 人机交互与运动理解

主要内容

本文介绍了ChatMotion，这是一个基于多模态多智能体框架的人体运动分析方法。ChatMotion能够动态解释用户意图，将复杂任务分解成元任务，并激活专门的功能模块来理解运动。它集成了多个专门模块，如MotionCore，从不同角度分析人体运动。

1. ChatMotion，一个具有规划者-执行者-验证者架构的多智能体系统，用于全面的人体运动分析。

2. 一个鲁棒的MotionCore，可以调用功能工具，通过综合来自多个MLLM的不同视角来提高理解，并且可以轻松扩展，确保适应性和可扩展性。

3. 对多个数据集的实证验证表明，与现有的MLLM相比，ChatMotion在人体运动分析中实现了性能的提升。

1. 多模态大语言模型（MLLMs）

2. 多智能体系统

3. MotionCore工具箱

4. 任务分解

5. 结果聚合

6. 验证机制

在MoVid-Bench、BABEL-QA、MVbench和Mo-Repcount等人体运动理解基准数据集上进行了评估，结果表明ChatMotion在准确性和适应性方面均有所提升，并且在多个任务和指标上优于现有的LLM运动模型。

未来可以进一步研究如何提高ChatMotion的效率，以及如何将ChatMotion应用于更广泛的人体运动理解任务。