ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis
作者: Xukun Zhou, Fengxin Li, Ming Chen, Yan Zhou, Pengfei Wan, Di Zhang, Hongyan Liu, Jun He, Zhaoxin Fan
发布时间: 2025-03-11
来源: arxiv
研究方向: 数字人动画、音频驱动手势合成、人工智能
主要内容
提出了一种名为ExGes的音频驱动手势合成方法,通过检索增强的扩散框架,解决现有方法在生成手势时表达性差、语义不匹配等问题。
主要贡献
1. 提出了一种检索增强的扩散框架ExGes,通过结合运动库构建、运动检索模块和精确控制模块,提高了手势合成的表达性和语义匹配度。
2. 设计了三个关键模块:运动库构建、运动检索和精确控制,形成了一个有效的生成流程。
3. 在BEAT2数据集上进行了实验,结果表明ExGes在表达性手势生成方面优于现有方法,如EMAGE。
研究方法
1. 运动库构建:通过时间对齐的分割框架,将音频和运动数据同步到一致的二级序列中。
2. 运动检索模块:利用对比学习框架,捕捉细微的音频-运动相关性。
3. 精确控制模块:采用部分特征掩码和随机掩码,实现灵活和细粒度的控制。
实验结果
在BEAT2数据集上进行的实验表明,ExGes在生成质量、控制精度和用户满意度方面均优于现有方法。
未来工作
未来研究可以探索以下方向:1)进一步优化运动库构建和检索模块,提高检索准确性和效率;2)将ExGes应用于更广泛的应用场景,如虚拟现实、人机交互等;3)探索其他类型的控制信号,如文本描述、动作风格等,进一步提高手势合成的可控性。