The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

作者: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang

发布时间: 2025-03-08

来源: arxiv

研究方向: 计算机视觉与人工智能

主要内容

本文提出了一种名为LanDiff的混合框架,用于文本到视频(T2V)生成。该框架结合了自回归语言模型和扩散模型的优势,通过粗到细的生成方法,解决了语言模型在视觉质量和错误累积方面的局限性,以及扩散模型在语义理解和因果建模方面的不足。

主要贡献

1. 提出了一种新的视频语义标记器,通过高效语义压缩将3D视觉特征压缩成紧凑的1D离散表示,实现了14,000倍的压缩比。

2. 设计了一种语言模型,可以生成具有高级语义关系的语义标记。

3. 引入了一种流式扩散模型,将粗略的语义细化成高保真视频。

4. 在VBench T2V基准测试中,LanDiff模型取得了85.43的分数,超过了Hunyuan Video(13B)和其他商业模型,如Sora、Keling和Hailuo。

5. 在长视频生成方面,LanDiff模型也取得了最先进的性能,超过了其他开源模型。

研究方法

1. 视频语义标记器:利用Transformer结构,使用查询嵌入来聚合视觉特征,并使用量化来离散化视频语义表示。

2. 语言模型:使用预训练的T5-XXL文本编码器提取文本特征,然后使用视频标记器编码器将视频转换为1D离散标记序列。

3. 扩散模型:使用条件扩散模型将语义标记转换为VAE潜在向量。

4. 流式推理策略:为了支持长视频生成,设计了分块流式策略,在训练过程中使用视频潜在块的前半部分作为提示,并生成后半部分。

实验结果

在VBench基准测试中,LanDiff模型在质量得分和语义准确性方面均优于其他模型。在长视频生成方面,LanDiff模型也取得了最先进的性能,超过了其他开源模型。

未来工作

未来可以进一步研究如何提高模型的生成质量和效率,以及如何将LanDiff模型应用于更多场景和领域。