The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

作者: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang

发布时间: 2025-03-08

来源: arxiv

研究方向: 计算机视觉与人工智能

主要内容

本文提出了一种名为LanDiff的混合框架，用于文本到视频（T2V）生成。该框架结合了自回归语言模型和扩散模型的优势，通过粗到细的生成方法，解决了语言模型在视觉质量和错误累积方面的局限性，以及扩散模型在语义理解和因果建模方面的不足。

1. 提出了一种新的视频语义标记器，通过高效语义压缩将3D视觉特征压缩成紧凑的1D离散表示，实现了14,000倍的压缩比。

2. 设计了一种语言模型，可以生成具有高级语义关系的语义标记。

3. 引入了一种流式扩散模型，将粗略的语义细化成高保真视频。

4. 在VBench T2V基准测试中，LanDiff模型取得了85.43的分数，超过了Hunyuan Video（13B）和其他商业模型，如Sora、Keling和Hailuo。

5. 在长视频生成方面，LanDiff模型也取得了最先进的性能，超过了其他开源模型。

1. 视频语义标记器：利用Transformer结构，使用查询嵌入来聚合视觉特征，并使用量化来离散化视频语义表示。

2. 语言模型：使用预训练的T5-XXL文本编码器提取文本特征，然后使用视频标记器编码器将视频转换为1D离散标记序列。

3. 扩散模型：使用条件扩散模型将语义标记转换为VAE潜在向量。

4. 流式推理策略：为了支持长视频生成，设计了分块流式策略，在训练过程中使用视频潜在块的前半部分作为提示，并生成后半部分。

在VBench基准测试中，LanDiff模型在质量得分和语义准确性方面均优于其他模型。在长视频生成方面，LanDiff模型也取得了最先进的性能，超过了其他开源模型。

未来可以进一步研究如何提高模型的生成质量和效率，以及如何将LanDiff模型应用于更多场景和领域。