TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

作者: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu

发布时间: 2025-03-11

来源: arxiv

研究方向: 计算机视觉,文本到图像模型,恶意内容消除

主要内容

本文提出了一种名为TRCE的方法,旨在解决文本到图像扩散模型中恶意概念的可靠消除问题。该方法通过两阶段消除策略,在可靠消除和知识保留之间取得了良好的平衡。

主要贡献

1. 提出了一种两阶段消除策略,在可靠消除和知识保留之间取得了良好的平衡。

2. 识别了文本语义消除的关键映射目标,即[EoT]嵌入,有效消除了隐式嵌入的恶意语义。

3. 提出了一种有效的去噪轨迹引导策略,通过对比学习优化模型的早期去噪。

4. 在多个恶意内容消除基准测试中评估了TRCE,结果表明其在消除恶意概念的同时,更好地保留了模型的原有生成能力。

研究方法

1. 文本语义消除:通过优化交叉注意力层的映射,将恶意提示映射到上下文相似但概念安全的提示。

2. 去噪轨迹引导:通过对比学习,引导早期去噪预测向安全方向偏移,从而避免生成恶意内容。

3. 闭式求解:使用闭式解修改交叉注意力层的矩阵,将恶意概念映射到安全概念。

4. 对比学习:通过对比损失函数,引导去噪预测向安全方向偏移,从而避免生成恶意内容。

实验结果

实验结果表明,TRCE在消除恶意概念的同时,更好地保留了模型的原有生成能力。在多个基准测试中,TRCE的表现优于现有方法。

未来工作

未来工作可以探索以下方向:1)将TRCE应用于其他类型的生成模型;2)研究更有效的去噪轨迹引导策略;3)探索更通用的文本语义消除方法。