HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation

作者: Boyuan Wang, Xiaofeng Wang, Chaojun Ni, Guosheng Zhao, Zhiqin Yang, Zheng Zhu, Muyang Zhang, Yukun Zhou, Xinze Chen, Guan Huang, Lihong Liu, Xingang Wang

发布时间: 2025-04-03

来源: arxiv

研究方向: 计算机视觉与人工智能

主要内容

该研究提出了一种名为HumanDreamer的框架,用于通过文本描述生成可控的人类运动视频。该框架首先根据文本提示生成多样化的姿态,然后利用这些姿态生成人类运动视频。

主要贡献

1. 提出了HumanDreamer,这是一种将文本控制灵活性与姿态引导可控性相结合的解耦人类运动视频生成框架。

2. 构建了MotionVid,这是迄今为止最大的用于人类运动姿态生成的数据集。

3. 提出了MotionDiT,这是一种从文本提示生成结构化人类运动姿态的方法。

4. 引入了LAMA损失,显著提高了姿态的保真度和多样性。

5. 通过广泛的实验表明,MotionDiT和LAMA损失提高了控制精度和FID,在top-k R-precision方面分别提高了41.8%、26.3%和18.3%,同时支持下游任务如姿态序列预测和2D-3D运动提升。

研究方法

1. 数据清洗和标注:为了确保数据质量,研究人员引入了全面的数据清洗流程,包括视频质量过滤、数据标注、人类质量过滤和字幕质量过滤。

2. 姿态VAE:利用变分自编码器(VAE)将姿态数据编码到潜在空间。

3. MotionDiT:这是一种扩散Transformer架构,专门用于构建人类运动姿态和文本控制之间的关联。它包含全局注意力块和局部特征聚合模块。

4. CLoP(对比语言-运动预训练):这是一种针对文本和2D姿态进行对齐的预训练方法,以提高2D姿态和潜在语义对齐的评估。

5. Pose-to-Video生成:利用预训练的模型生成基于初始帧图像和姿态序列的人类运动视频。

实验结果

实验结果表明,HumanDreamer在FID方面提高了62.4%,在top-k R-precision方面分别提高了41.8%、26.3%和18.3%。此外,HumanDreamer生成的姿态序列在视觉上与文本描述更加一致,且运动抖动最小。

未来工作

未来的工作可以集中在进一步提高模型生成视频的质量和多样性,以及探索将HumanDreamer应用于更多下游任务,如虚拟现实和增强现实。