MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention

作者: Yuhan Wang, Fangzhou Hong, Shuai Yang, Liming Jiang, Wayne Wu, Chen Change Loy

发布时间: 2025-03-12

来源: arxiv

研究方向: 计算机视觉与图形学

主要内容

本文研究了如何利用多视图扩散模型在百万像素级别上生成人类图像,并提出了一种名为MEAT(Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention)的方法。该方法通过使用网格注意力机制,实现了在不同视角之间的高效特征融合,并解决了传统多视图注意力方法在高分辨率图像处理中的效率问题。

主要贡献

1. 提出了网格注意力机制,通过在中心网格上进行光栅化和投影,实现了不同视角像素之间的直接对应,从而提高了跨视图注意力方法的效率。

2. 设计并实现了MEAT模型,该模型能够生成在百万像素分辨率上具有高度一致性和细节的16个视图的人类图像。

3. 提出了一种使用多视图人类运动视频数据集进行训练的方法,解决了数据稀缺的问题,并显著提高了训练数据的多样性。

研究方法

1. 网格注意力机制:利用中心网格的3D坐标变换,通过光栅化和投影直接识别不同视角中像素的对应关系。

2. 多视图扩散模型:基于扩散模型,通过融合不同视图的特征来生成新的视图。

3. 关键点条件:将检测到的骨骼关键点作为条件输入到模型中,以提高模型对人类姿势的理解。

4. 多尺度VAE特征:结合多尺度VAE的潜在特征,以增强纹理和几何一致性。

5. 线性噪声调度:使用线性噪声调度策略,以实现更好的全局一致性。

实验结果

实验结果表明,MEAT在重建指标、生成质量指标和跨视图一致性指标方面均优于现有方法。特别是在Patch-FID和LPIPS指标上,MEAT显著优于其他方法,这突出了百万像素分辨率训练的价值。

未来工作

未来工作将集中在以下几个方面:1) 探索更有效的网格注意力机制,以进一步提高模型的效率;2) 将MEAT应用于其他领域,如动画制作和虚拟现实;3) 研究如何进一步提高模型在复杂场景下的泛化能力。