REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder

作者: Yitian Zhang, Long Mai, Aniruddha Mahapatra, David Bourgin, Yicong Hong, Jonah Casebeer, Feng Liu, Yun Fu

发布时间: 2025-03-13

来源: arxiv

研究方向: 视频生成与压缩

主要内容

本文提出了一种名为REGEN的框架,旨在通过改进视频嵌入技术来实现高效的视频生成与压缩。该方法利用了扩散模型和Transformer架构,以实现高压缩率下的高质量视频重建。

主要贡献

1. 提出使用扩散模型作为视频嵌入器的解码器,突破了传统编码器-解码器框架的压缩-重建权衡。

2. 引入了新颖的潜在条件模块,利用内容感知的位置编码来有效地将编码后的潜在特征转换为时空控制信号。

3. 证明了REGEN在高压缩率下能够实现优于现有方法的重建性能,甚至超过了在常见4倍时间压缩下的SOTA视频嵌入器。

4. 验证了REGEN的紧凑潜在空间对于文本到视频生成的高效性,显著提高了训练和推理效率。

研究方法

1. 使用扩散模型(Diffusion Transformer, DiT)作为视频解码器。

2. 设计了一个专门用于条件化DiT解码器的潜在条件模块。

3. 采用了内容感知的位置编码方法来处理任意分辨率和宽高比的视频编码和解码。

4. 使用端到端训练方法,结合扩散训练框架来训练编码器和解码器。

实验结果

REGEN在多个视频压缩比和压缩率下进行了评估,结果显示,在8×8×8压缩比下,REGEN在重建质量方面优于MAGVIT-v2等现有方法。在32倍时间压缩比下,REGEN依然保持了良好的重建性能,并且可以生成符合预期的文本到视频内容。

未来工作

未来工作将集中于提高扩散模型的训练效率,进一步减少计算复杂度;研究更有效的潜在扩展方法来缓解块编码带来的问题;探索将该方法应用于更高分辨率的视频处理。