TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models
作者: Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
发布时间: 2025-03-11
来源: arxiv
研究方向: 计算机视觉,文本到图像模型,恶意内容消除
主要内容
本文提出了一种名为TRCE的方法,旨在解决文本到图像扩散模型中恶意概念的可靠消除问题。该方法通过两阶段消除策略,在可靠消除和知识保留之间取得了良好的平衡。
主要贡献
1. 提出了一种两阶段消除策略,在可靠消除和知识保留之间取得了良好的平衡。
2. 识别了文本语义消除的关键映射目标,即[EoT]嵌入,有效消除了隐式嵌入的恶意语义。
3. 提出了一种有效的去噪轨迹引导策略,通过对比学习优化模型的早期去噪。
4. 在多个恶意内容消除基准测试中评估了TRCE,结果表明其在消除恶意概念的同时,更好地保留了模型的原有生成能力。
研究方法
1. 文本语义消除:通过优化交叉注意力层的映射,将恶意提示映射到上下文相似但概念安全的提示。
2. 去噪轨迹引导:通过对比学习,引导早期去噪预测向安全方向偏移,从而避免生成恶意内容。
3. 闭式求解:使用闭式解修改交叉注意力层的矩阵,将恶意概念映射到安全概念。
4. 对比学习:通过对比损失函数,引导去噪预测向安全方向偏移,从而避免生成恶意内容。
实验结果
实验结果表明,TRCE在消除恶意概念的同时,更好地保留了模型的原有生成能力。在多个基准测试中,TRCE的表现优于现有方法。
未来工作
未来工作可以探索以下方向:1)将TRCE应用于其他类型的生成模型;2)研究更有效的去噪轨迹引导策略;3)探索更通用的文本语义消除方法。