OminiControl2: Efficient Conditioning for Diffusion Transformers

作者: Zhenxiong Tan, Qiaochu Xue, Xingyi Yang, Songhua Liu, Xinchao Wang

发布时间: 2025-03-12

来源: arxiv

研究方向: 计算机视觉,自然语言处理,图像生成

主要内容

本文提出了一种名为OminiControl2的框架,用于提高扩散模型(DiT)在图像生成中的控制能力,特别是在多条件输入的情况下。该框架通过压缩和重用条件特征来降低计算成本,同时保持生成质量。

主要贡献

1. 引入了一种紧凑的图像条件编码策略,显著减少了标记序列长度,同时保留了关键的条件信息。

2. 实现了一种条件特征重用机制,在初始推理步骤中计算条件标记特征一次,并在后续步骤中重用它们。

3. OminiControl2保留了其前身的控制灵活性和参数效率,同时将条件开销降低了90%以上。

研究方法

1. 动态压缩策略:通过仅保留生成过程中最语义相关的标记来简化条件输入。

2. 条件特征重用机制:计算条件标记特征一次,并在去噪步骤中重用。

3. 位置纠正:在压缩条件图像之前,通过位置纠正来减少空间维度。

4. 标记修剪:从条件图像中删除非信息性标记。

5. 标记集成:将条件标记作为输出标记表示中的内在组件。

6. 不对称注意力掩码:防止条件标记关注噪声图像标记,以实现一致的特征重用。

实验结果

实验结果表明,OminiControl2将条件处理开销降低了90%以上,在多条件生成场景中实现了5.9倍的整体加速。这种方法在保持生成质量的同时,显著提高了计算效率。

未来工作

未来工作可以探索更高级的压缩和重用策略,以及将这些技术应用于其他类型的图像生成任务。