Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

作者: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua

发布时间: 2025-04-02

来源: arxiv

研究方向: 可控视频生成与多模态语言模型

主要内容

本文提出了一种名为Any2Caption的框架,用于将多种条件(如文本、图像、视频、运动和相机姿态)转换为结构化的视频描述字幕,从而实现可控视频生成。该框架利用多模态大语言模型(MLLM)来理解和解释这些条件,并生成高质量的、符合用户意图的视频。

主要贡献

1. 提出了一种新颖的任何条件到字幕的视频生成范式,将用户提供的多模态条件与结构化视频生成指令相连接,从而实现高度可控的视频生成。

2. 开发了Any2Caption,一种能够整合和解释各种多模态条件,生成语义丰富、长形式、结构化字幕的框架,这可以一致地提高条件灵活性和视频质量。

3. 引入了Any2CapIns,一个大规模、高质量的基准数据集,用于任何条件到字幕的任务,并建立了一套评估指标,以严格评估基于条件的字幕生成质量。

研究方法

1. 使用多模态大语言模型(MLLM)来处理和解释各种输入条件。

2. 设计了一个结构化的字幕格式,包括密集字幕、主要对象字幕、背景字幕、相机字幕和风格字幕。

3. 构建了一个名为Any2CapIns的大型数据集,用于训练和评估模型。

4. 采用渐进式混合训练策略,以防止知识退化并确保鲁棒的多模态条件解释。

实验结果

实验结果表明,Any2Caption在可控性和视频质量方面均有显著提升。与现有的视频生成模型相比,Any2Caption生成的视频在运动平滑度、动态程度、美学质量和图像完整性等方面都表现更好。

未来工作

未来工作将探索更高效的架构或优化技术,以在速度和准确性之间取得平衡。此外,还将研究如何将Any2Caption应用于更广泛的领域,例如动画制作和电影制作。