ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

作者: Xukun Zhou, Fengxin Li, Ming Chen, Yan Zhou, Pengfei Wan, Di Zhang, Hongyan Liu, Jun He, Zhaoxin Fan

发布时间: 2025-03-11

来源: arxiv

研究方向: 数字人动画、音频驱动手势合成、人工智能

主要内容

提出了一种名为ExGes的音频驱动手势合成方法，通过检索增强的扩散框架，解决现有方法在生成手势时表达性差、语义不匹配等问题。

1. 提出了一种检索增强的扩散框架ExGes，通过结合运动库构建、运动检索模块和精确控制模块，提高了手势合成的表达性和语义匹配度。

2. 设计了三个关键模块：运动库构建、运动检索和精确控制，形成了一个有效的生成流程。

3. 在BEAT2数据集上进行了实验，结果表明ExGes在表达性手势生成方面优于现有方法，如EMAGE。

1. 运动库构建：通过时间对齐的分割框架，将音频和运动数据同步到一致的二级序列中。

2. 运动检索模块：利用对比学习框架，捕捉细微的音频-运动相关性。

3. 精确控制模块：采用部分特征掩码和随机掩码，实现灵活和细粒度的控制。

在BEAT2数据集上进行的实验表明，ExGes在生成质量、控制精度和用户满意度方面均优于现有方法。

未来研究可以探索以下方向：1）进一步优化运动库构建和检索模块，提高检索准确性和效率；2）将ExGes应用于更广泛的应用场景，如虚拟现实、人机交互等；3）探索其他类型的控制信号，如文本描述、动作风格等，进一步提高手势合成的可控性。