Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models
作者: Zhihua Tian, Sirun Nan, Ming Xu, Shengfang Zhai, Wenjie Qu, Jian Liu, Kui Ren, Ruoxi Jia, Jiaheng Zhang
发布时间: 2025-03-14
来源: arxiv
研究方向: 文本到图像(T2I)扩散模型与概念擦除
主要内容
该研究提出了一种名为“解释然后停用”(ItD)的新型框架,用于在T2I扩散模型中实现精确的概念擦除,同时保持整体性能。ItD利用稀疏自动编码器(SAE)将每个概念解释为多个特征的组合,并通过停用与目标概念相关的特定特征来将SAE用作零样本分类器,从而实现扩散模型中的选择性概念擦除。
主要贡献
1. 提出了一种名为ItD的框架,实现了T2I扩散模型中精确且可扩展的概念擦除。
2. 首次将SAE应用于T2I扩散模型中的概念擦除任务。
3. 通过在多个数据集上进行的广泛实验,证明了ItD在消除目标概念的同时,还能保持剩余概念的多样性,并显著优于基线方法。
研究方法
1. 使用SAE将每个概念解释为多个特征的组合。
2. 通过停用与目标概念相关的特定特征来实现概念擦除。
3. 利用SAE作为零样本分类器来识别输入提示中是否包含目标概念。
4. 提出了一种基于对比的方法来选择与目标概念相关的特征。
5. 通过构建一个分类器来识别文本嵌入中是否包含目标概念信息。
实验结果
在名人身份、艺术风格和显式内容方面的全面实验表明,ItD在消除目标概念方面非常有效,同时不会干扰正常概念的产生。此外,ItD对旨在绕过内容过滤器的对抗性提示也具有鲁棒性。
未来工作
未来工作可能包括将ItD扩展到更广泛的应用领域,例如视频生成和3D模型生成,以及进一步优化ItD的性能,使其能够处理更复杂的概念擦除任务。