Consistent Subject Generation via Contrastive Instantiated Concepts

作者: Lee Hsin-Ying, Kelvin C. K. Chan, Ming-Hsuan Yang

发布时间: 2025-04-02

来源: arxiv

研究方向: 计算机视觉与自然语言处理

主要内容

该研究提出了一种名为Contrastive Concept Instantiation (CoCoIns)的生成框架，旨在解决文本到图像生成模型中多创作之间的主题一致性问题。该框架通过在潜在空间中建模概念实例，并使用对比学习将潜在代码与特定概念实例关联起来，从而实现无需调整或参考的一致主题生成。

1. 提出了一种无需调整或参考即可实现多创作主题一致性的一致主题生成框架。

2. 开发了一种对比学习方法，避免了从有限的主体注释中学习，同时保留了输出质量和多样性。

3. 进行了广泛的评估，并证明了与需要耗时调整或批量生成的现有方法相比，CoCoIns的性能更优。

1. 使用文本到图像扩散模型作为基础模型。

2. 引入了一种映射网络，将潜在代码转换为伪词，然后将伪词与概念标记结合以表示概念的具体实例。

3. 采用对比学习策略训练映射网络，使模型能够区分由提示和潜在代码的各种组合生成的输出。

4. 使用三元组损失函数来区分锚定样本、正样本和负样本的近似图像。

5. 通过应用掩码来计算损失，只关注图像中的主题区域。

在单人面部图像和自由形式图像上的实验表明，CoCoIns在主题一致性和提示保真度方面优于批量生成方法。此外，还证明了将该方法扩展到多主体和一般概念的可能性。

将CoCoIns扩展到多主体和多类别对象，以及探索其在其他生成任务中的应用。