VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

作者: Yuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu

发布时间: 2025-03-10

来源: arxiv

研究方向: 计算机视觉,视频处理,人工智能生成内容

主要内容

VideoPainter是一种高效的、基于扩散变换器的视频修复和编辑框架,旨在解决现有方法在处理任意长度视频修复和编辑时的挑战,如背景与前景的平衡、对象身份的保持以及视频质量。

主要贡献

1. 提出了VideoPainter,这是第一个支持即插即用背景控制的二元分支视频修复框架。

2. 设计了一个轻量级的上下文编码器,用于高效且密集的背景控制,以及用于任意长度视频修复和编辑中ID一致性的修复区域ID重采样技术。

3. 引入了VPData,这是迄今为止最大的视频修复数据集,包含超过390K个剪辑,具有精确的分割掩码和密集的视频字幕。

4. 实验表明,VideoPainter在视频修复和编辑的8个关键指标上取得了最先进的性能,包括视频质量、掩码区域保留和文本对齐。

研究方法

1. 使用预训练的扩散变换器(DiT)作为视频生成的基础。

2. 通过一个轻量级的上下文编码器将掩码视频特征集成到预训练的DiT中。

3. 引入了修复区域ID重采样技术,以在任意长度视频修复中保持ID一致性。

4. 开发了可扩展的数据集管道,用于构建VPData和VPBench,这是具有精确分割掩码和密集视频字幕的最大视频修复数据集。

5. 实现了一个基于修复的视频编辑流程,以展示VideoPainter的潜力。

实验结果

VideoPainter在视频修复和编辑任务中均取得了最先进的性能,特别是在视频质量、掩码区域保留和文本对齐方面。实验结果表明,VideoPainter在处理任意长度视频修复和编辑时,能够有效地平衡背景与前景,并保持对象身份的一致性。

未来工作

未来工作可能包括提高生成质量,以处理更复杂的物理和运动建模;优化性能,以处理低质量掩码或错位的视频字幕;探索VideoPainter在更多视频编辑应用中的潜力。