Conceptrol: Concept Control of Zero-shot Personalized Image Generation

作者: Qiyuan He, Angela Yao

发布时间: 2025-03-11

来源: arxiv

研究方向: 个性化图像生成与文本到图像扩散模型

主要内容

本文提出了一种名为Conceptrol的训练-free控制方法,旨在提高零样本适配器的定制能力。该方法通过将文本概念掩码应用于视觉规格,从而在保持个性化内容的同时,严格遵循文本提示。

主要贡献

1. 识别了零样本适配器中的关键设计缺陷,即忽视文本概念会导致对参考图像的注意力不正确。

2. 发现基础模型中的特定块可以提供文本概念掩码,精确指示对应文本概念的空间位置。

3. 引入了一种简单而有效的方法Conceptrol,通过提取文本概念掩码并利用它来增加视觉规格在个性化目标适当区域的注意力分数,同时抑制无关区域的注意力。

4. 广泛的评估表明,Conceptrol在零样本个性化图像生成方面取得了显著的改进,甚至超过了微调方法。

研究方法

1. 注意力机制分析

2. 文本概念掩码提取

3. 视觉规格注意力调整

4. 概念控制 warmup

实验结果

实验结果表明,Conceptrol显著提高了零样本适配器的性能,在多个基准测试中甚至超过了微调方法。此外,人类评估也表明,Conceptrol在概念保留和提示遵循方面都优于其他方法。

未来工作

未来工作可以探索将Conceptrol应用于更广泛的图像生成任务,并研究如何进一步提高其性能和泛化能力。