How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects
作者: Wonkwang Lee, Jongwon Jeong, Taehong Moon, Hyeon-Jong Kim, Jaehyeon Kim, Gunhee Kim, Byeong-Uk Lee
发布时间: 2025-03-08
来源: arxiv
研究方向: 计算机视觉与图形学
主要内容
该研究旨在通过文本描述合成多样化的3D物体运动,主要关注如何处理不同骨骼结构对象的运动合成问题。
主要贡献
1. 贡献了一个增强的Truebones Zoo数据集,其中包含详细的文本描述,适用于文本驱动的运动合成。
2. 引入了骨骼增强技术,生成多样化的运动数据,同时保持一致的动力学,使模型能够适应各种骨骼配置。
3. 重新设计了现有的运动扩散模型,使其能够动态适应任意的骨骼模板,从而实现多样化物体和结构的运动合成。
4. 通过实验验证了该方法能够从文本描述中生成高保真运动,并应用于未见过的对象。
5. 发布了代码和数据管道,为多样化的物体和异构骨骼结构建立了运动合成的基准。
研究方法
1. 数据增强:通过标注和注释Truebones Zoo数据集,引入骨骼增强技术,包括调整骨骼长度、数量和休息姿势。
2. 运动扩散模型:重新设计运动扩散模型,使其能够适应任意的骨骼模板。
3. 文本编码:使用SigLIP文本编码器对文本提示进行编码。
4. 树位置编码(TreePE)和休息姿势编码(RestPE):编码骨骼配置信息。
5. 两阶段学习:第一阶段训练姿态扩散模型,第二阶段引入时间注意力块以捕获运动动力学。
实验结果
实验结果表明,该方法能够从文本描述中生成高保真运动,并能够适应多样化的骨骼结构,包括未见过的对象。此外,该方法还能够生成连贯的运动序列,并能够根据文本描述的详细程度生成多样化的运动。
未来工作
未来工作将包括进一步改进模型,以实现更高质量的合成运动,以及探索该技术在动画、游戏和虚拟现实等领域的应用。