CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games
作者: Peng Chen, Pi Bu, Yingyao Wang, Xinyi Wang, Ziming Wang, Jie Guo, Yingxiu Zhao, Qi Zhu, Jun Song, Siran Yang, Jiamang Wang, Bo Zheng
发布时间: 2025-03-14
来源: arxiv
研究方向: 视觉-语言-动作(VLA)模型在3D动作角色扮演游戏(ARPG)中的应用
主要内容
本文提出了一种名为CombatVLA的VLA模型,专门用于优化3D ARPG中的战斗任务。该模型通过视频动作对数据进行训练,并采用行动思考(AoT)序列进行数据格式化。CombatVLA能够与动作执行框架无缝集成,并通过截断AoT策略实现高效推理。
主要贡献
1. 开发了动作跟踪器,用于收集大量训练数据。
2. 建立了战斗理解基准(CUBench),用于评估模型在识别敌人和行动推理任务中的表现。
3. 引入了三个阶段的AoT数据集,包括粗粒度视频AoT、细粒度帧AoT和帧截断AoT,以使模型能够逐步学习战斗技能。
4. 开发了CombatVLA模型,并使用渐进学习范式进行训练,实现了在战斗理解基准上的最佳性能。
5. 将CombatVLA集成到动作执行框架中,通过截断策略实现了50倍的加速。
6. 展示了CombatVLA在战斗理解上的优越性,并实现了比人类玩家更高的任务成功率。
研究方法
1. 动作跟踪器:用于收集大量训练数据。
2. AoT数据集:包括视频AoT、帧AoT和帧截断AoT,以支持模型的渐进学习。
3. CombatVLA模型:使用渐进学习范式进行训练,并结合自适应动作加权损失。
4. 动作执行框架:将CombatVLA集成到动作执行框架中,通过截断策略实现高效推理。
实验结果
实验结果表明,CombatVLA在战斗理解基准上优于所有现有模型,并且在游戏战斗中实现了50倍的加速。此外,它比人类玩家具有更高的任务成功率。
未来工作
未来将进一步提高模型对游戏场景的理解,从而扩展其应用范围到更多游戏。