The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
作者: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
发布时间: 2025-03-08
来源: arxiv
研究方向: 计算机视觉与人工智能
主要内容
本文提出了一种名为LanDiff的混合框架,用于文本到视频(T2V)生成。该框架结合了自回归语言模型和扩散模型的优势,通过粗到细的生成方法,解决了语言模型在视觉质量和错误累积方面的局限性,以及扩散模型在语义理解和因果建模方面的不足。
主要贡献
1. 提出了一种新的视频语义标记器,通过高效语义压缩将3D视觉特征压缩成紧凑的1D离散表示,实现了14,000倍的压缩比。
2. 设计了一种语言模型,可以生成具有高级语义关系的语义标记。
3. 引入了一种流式扩散模型,将粗略的语义细化成高保真视频。
4. 在VBench T2V基准测试中,LanDiff模型取得了85.43的分数,超过了Hunyuan Video(13B)和其他商业模型,如Sora、Keling和Hailuo。
5. 在长视频生成方面,LanDiff模型也取得了最先进的性能,超过了其他开源模型。
研究方法
1. 视频语义标记器:利用Transformer结构,使用查询嵌入来聚合视觉特征,并使用量化来离散化视频语义表示。
2. 语言模型:使用预训练的T5-XXL文本编码器提取文本特征,然后使用视频标记器编码器将视频转换为1D离散标记序列。
3. 扩散模型:使用条件扩散模型将语义标记转换为VAE潜在向量。
4. 流式推理策略:为了支持长视频生成,设计了分块流式策略,在训练过程中使用视频潜在块的前半部分作为提示,并生成后半部分。
实验结果
在VBench基准测试中,LanDiff模型在质量得分和语义准确性方面均优于其他模型。在长视频生成方面,LanDiff模型也取得了最先进的性能,超过了其他开源模型。
未来工作
未来可以进一步研究如何提高模型的生成质量和效率,以及如何将LanDiff模型应用于更多场景和领域。