ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis
作者: Li Lei, Jia Sen, Wang Jianhao, An Zhaochong, Li Jiaang, Hwang Jenq-Neng, Belongie Serge
发布时间: 2025-02-27
来源: arxiv
研究方向: 人机交互与运动理解
主要内容
本文介绍了ChatMotion,这是一个基于多模态多智能体框架的人体运动分析方法。ChatMotion能够动态解释用户意图,将复杂任务分解成元任务,并激活专门的功能模块来理解运动。它集成了多个专门模块,如MotionCore,从不同角度分析人体运动。
主要贡献
1. ChatMotion,一个具有规划者-执行者-验证者架构的多智能体系统,用于全面的人体运动分析。
2. 一个鲁棒的MotionCore,可以调用功能工具,通过综合来自多个MLLM的不同视角来提高理解,并且可以轻松扩展,确保适应性和可扩展性。
3. 对多个数据集的实证验证表明,与现有的MLLM相比,ChatMotion在人体运动分析中实现了性能的提升。
研究方法
1. 多模态大语言模型(MLLMs)
2. 多智能体系统
3. MotionCore工具箱
4. 任务分解
5. 结果聚合
6. 验证机制
实验结果
在MoVid-Bench、BABEL-QA、MVbench和Mo-Repcount等人体运动理解基准数据集上进行了评估,结果表明ChatMotion在准确性和适应性方面均有所提升,并且在多个任务和指标上优于现有的LLM运动模型。
未来工作
未来可以进一步研究如何提高ChatMotion的效率,以及如何将ChatMotion应用于更广泛的人体运动理解任务。