ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

作者: Xukun Zhou, Fengxin Li, Ming Chen, Yan Zhou, Pengfei Wan, Di Zhang, Hongyan Liu, Jun He, Zhaoxin Fan

发布时间: 2025-03-11

来源: arxiv

研究方向: 数字人动画、音频驱动手势合成、人工智能

主要内容

提出了一种名为ExGes的音频驱动手势合成方法,通过检索增强的扩散框架,解决现有方法在生成手势时表达性差、语义不匹配等问题。

主要贡献

1. 提出了一种检索增强的扩散框架ExGes,通过结合运动库构建、运动检索模块和精确控制模块,提高了手势合成的表达性和语义匹配度。

2. 设计了三个关键模块:运动库构建、运动检索和精确控制,形成了一个有效的生成流程。

3. 在BEAT2数据集上进行了实验,结果表明ExGes在表达性手势生成方面优于现有方法,如EMAGE。

研究方法

1. 运动库构建:通过时间对齐的分割框架,将音频和运动数据同步到一致的二级序列中。

2. 运动检索模块:利用对比学习框架,捕捉细微的音频-运动相关性。

3. 精确控制模块:采用部分特征掩码和随机掩码,实现灵活和细粒度的控制。

实验结果

在BEAT2数据集上进行的实验表明,ExGes在生成质量、控制精度和用户满意度方面均优于现有方法。

未来工作

未来研究可以探索以下方向:1)进一步优化运动库构建和检索模块,提高检索准确性和效率;2)将ExGes应用于更广泛的应用场景,如虚拟现实、人机交互等;3)探索其他类型的控制信号,如文本描述、动作风格等,进一步提高手势合成的可控性。