CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games

作者: Peng Chen, Pi Bu, Yingyao Wang, Xinyi Wang, Ziming Wang, Jie Guo, Yingxiu Zhao, Qi Zhu, Jun Song, Siran Yang, Jiamang Wang, Bo Zheng

发布时间: 2025-03-14

来源: arxiv

研究方向: 视觉-语言-动作(VLA)模型在3D动作角色扮演游戏(ARPG)中的应用

主要内容

本文提出了一种名为CombatVLA的VLA模型,专门用于优化3D ARPG中的战斗任务。该模型通过视频动作对数据进行训练,并采用行动思考(AoT)序列进行数据格式化。CombatVLA能够与动作执行框架无缝集成,并通过截断AoT策略实现高效推理。

主要贡献

1. 开发了动作跟踪器,用于收集大量训练数据。

2. 建立了战斗理解基准(CUBench),用于评估模型在识别敌人和行动推理任务中的表现。

3. 引入了三个阶段的AoT数据集,包括粗粒度视频AoT、细粒度帧AoT和帧截断AoT,以使模型能够逐步学习战斗技能。

4. 开发了CombatVLA模型,并使用渐进学习范式进行训练,实现了在战斗理解基准上的最佳性能。

5. 将CombatVLA集成到动作执行框架中,通过截断策略实现了50倍的加速。

6. 展示了CombatVLA在战斗理解上的优越性,并实现了比人类玩家更高的任务成功率。

研究方法

1. 动作跟踪器:用于收集大量训练数据。

2. AoT数据集:包括视频AoT、帧AoT和帧截断AoT,以支持模型的渐进学习。

3. CombatVLA模型:使用渐进学习范式进行训练,并结合自适应动作加权损失。

4. 动作执行框架:将CombatVLA集成到动作执行框架中,通过截断策略实现高效推理。

实验结果

实验结果表明,CombatVLA在战斗理解基准上优于所有现有模型,并且在游戏战斗中实现了50倍的加速。此外,它比人类玩家具有更高的任务成功率。

未来工作

未来将进一步提高模型对游戏场景的理解,从而扩展其应用范围到更多游戏。