Dynamic Concepts Personalization from Single Videos
作者: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
发布时间: 2025-02-24
来源: arxiv
研究方向: 视频生成与个性化
主要内容
本文研究了如何利用动态概念来个性化文本到视频模型,通过结合外观和运动信息,实现视频的编辑和组合。
主要贡献
1. 提出了Set-and-Sequence框架,将动态概念嵌入到视频模型的权重空间中。
2. 实现了基于动态概念的文本到视频模型的个性化。
3. 通过两个阶段的学习,分别提取外观和运动信息,并保持它们的独立编辑。
4. 实现了高级的组合性,可扩展性和适应性,为个性化视频生成设定了新的基准。
研究方法
1. 使用低秩自适应(LoRA)层进行模型微调。
2. 将静态和动态文本提示结合使用。
3. 采用两阶段学习策略:首先是身份基础学习,然后是运动残差编码。
4. 引入了高dropout正则化和上下文感知正则化技术。
实验结果
实验结果表明,Set-and-Sequence框架在视频个性化方面取得了显著的成果,在编辑和组合任务中表现优于现有方法。
未来工作
未来的工作将集中在提高效率、速度和鲁棒性,以及处理更复杂的动态场景。