CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games

作者: Peng Chen, Pi Bu, Yingyao Wang, Xinyi Wang, Ziming Wang, Jie Guo, Yingxiu Zhao, Qi Zhu, Jun Song, Siran Yang, Jiamang Wang, Bo Zheng

发布时间: 2025-03-14

来源: arxiv

研究方向: 视觉-语言-动作（VLA）模型在3D动作角色扮演游戏（ARPG）中的应用

主要内容

本文提出了一种名为CombatVLA的VLA模型，专门用于优化3D ARPG中的战斗任务。该模型通过视频动作对数据进行训练，并采用行动思考（AoT）序列进行数据格式化。CombatVLA能够与动作执行框架无缝集成，并通过截断AoT策略实现高效推理。

1. 开发了动作跟踪器，用于收集大量训练数据。

2. 建立了战斗理解基准（CUBench），用于评估模型在识别敌人和行动推理任务中的表现。

3. 引入了三个阶段的AoT数据集，包括粗粒度视频AoT、细粒度帧AoT和帧截断AoT，以使模型能够逐步学习战斗技能。

4. 开发了CombatVLA模型，并使用渐进学习范式进行训练，实现了在战斗理解基准上的最佳性能。

5. 将CombatVLA集成到动作执行框架中，通过截断策略实现了50倍的加速。

6. 展示了CombatVLA在战斗理解上的优越性，并实现了比人类玩家更高的任务成功率。

1. 动作跟踪器：用于收集大量训练数据。

2. AoT数据集：包括视频AoT、帧AoT和帧截断AoT，以支持模型的渐进学习。

3. CombatVLA模型：使用渐进学习范式进行训练，并结合自适应动作加权损失。

4. 动作执行框架：将CombatVLA集成到动作执行框架中，通过截断策略实现高效推理。

实验结果表明，CombatVLA在战斗理解基准上优于所有现有模型，并且在游戏战斗中实现了50倍的加速。此外，它比人类玩家具有更高的任务成功率。

未来将进一步提高模型对游戏场景的理解，从而扩展其应用范围到更多游戏。