TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

作者: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu

发布时间: 2025-03-11

来源: arxiv

研究方向: 计算机视觉，文本到图像模型，恶意内容消除

主要内容

本文提出了一种名为TRCE的方法，旨在解决文本到图像扩散模型中恶意概念的可靠消除问题。该方法通过两阶段消除策略，在可靠消除和知识保留之间取得了良好的平衡。

1. 提出了一种两阶段消除策略，在可靠消除和知识保留之间取得了良好的平衡。

2. 识别了文本语义消除的关键映射目标，即[EoT]嵌入，有效消除了隐式嵌入的恶意语义。

3. 提出了一种有效的去噪轨迹引导策略，通过对比学习优化模型的早期去噪。

4. 在多个恶意内容消除基准测试中评估了TRCE，结果表明其在消除恶意概念的同时，更好地保留了模型的原有生成能力。

1. 文本语义消除：通过优化交叉注意力层的映射，将恶意提示映射到上下文相似但概念安全的提示。

2. 去噪轨迹引导：通过对比学习，引导早期去噪预测向安全方向偏移，从而避免生成恶意内容。

3. 闭式求解：使用闭式解修改交叉注意力层的矩阵，将恶意概念映射到安全概念。

4. 对比学习：通过对比损失函数，引导去噪预测向安全方向偏移，从而避免生成恶意内容。

实验结果表明，TRCE在消除恶意概念的同时，更好地保留了模型的原有生成能力。在多个基准测试中，TRCE的表现优于现有方法。

未来工作可以探索以下方向：1）将TRCE应用于其他类型的生成模型；2）研究更有效的去噪轨迹引导策略；3）探索更通用的文本语义消除方法。