Post-Hoc Concept Disentanglement: From Correlated to Isolated Concept Representations
作者: Eren Erogullari, Sebastian Lapuschkin, Wojciech Samek, Frederik Pahde
发布时间: 2025-03-10
来源: arxiv
研究方向: 可解释人工智能(XAI)与深度学习模型的可解释性和透明度
主要内容
该研究提出了一种后处理概念解耦方法,旨在通过引入非正交性损失,识别正交的概念方向,同时保留方向正确性,以解决神经网络中相关概念(如“胡子”和“领带”)的激活方向相互纠缠的问题。
主要贡献
1. 提出了一种新的后处理概念解耦方法,通过引入非正交性损失,促进正交概念方向的识别。
2. 该方法能够有效分离相关概念,从而提高概念解释的清晰度和可理解性。
3. 通过实验证明了该方法在激活引导任务中的优越性,包括概念插入和概念去除。
4. 提出了一种加权正交化方法,允许针对特定的概念对进行选择性分离。
研究方法
1. 使用概念激活向量(CAVs)来建模高阶概念。
2. 引入非正交性损失来鼓励正交概念方向。
3. 使用加权正交化方法来针对特定概念对进行选择性分离。
4. 使用AUROC作为方向正确性的代理指标。
5. 利用Layer-wise Relevance Propagation(LRP)生成概念热图来评估概念解耦效果。
实验结果
实验结果表明,该方法能够有效提高CAVs的正交性,同时保持方向正确性。与基线CAVs相比,该方法在概念插入和概念去除任务中表现出优越的性能。
未来工作
未来的工作可能包括:半监督训练CAVs以识别未标记的概念;定义新的训练目标,允许联合训练多个CAVs方向;将正交化损失集成到模型训练中。