Interpreting CLIP with Hierarchical Sparse Autoencoders

作者: Vladimir Zaigrajew, Hubert Baniecki, Przemyslaw Biecek

发布时间: 2025-03-03

来源: arxiv

研究方向: 机器学习可解释性,视觉-语言模型

主要内容

本文提出了一种名为Matryoshka稀疏自动编码器(MSAE)的新架构,用于理解和控制视觉-语言模型(如CLIP)的多模态表示。MSAE通过同时学习多粒度层次表示,优化了重建质量和稀疏性,从而提高了可解释性。

主要贡献

1. 引入了MSAE架构,实现了重建质量和稀疏性之间的最优权衡。

2. 开发了验证CLIP多模态嵌入空间中发现的概念的稳健方法。

3. 通过实验证明了MSAE在概念相似性搜索和下游任务中的实用性,例如CelebA数据集上的性别偏差分析。

研究方法

1. Matryoshka稀疏自动编码器(MSAE)

2. 层次稀疏性阈值

3. 概念命名

4. 基于概念相似性搜索

5. 下游任务中的偏差分析

实验结果

实验结果表明,MSAE在重建质量和稀疏性之间实现了最优权衡,同时保持了与标准稀疏自动编码器相当的推理时间计算效率。在概念相似性搜索和下游任务中,MSAE表现出良好的性能,例如在CelebA数据集上的性别偏差分析中,通过操纵概念强度来分析潜在的性别偏差。

未来工作

未来工作将包括优化MSAE的计算效率,将其应用于其他嵌入空间,以及通过语言模型等方法进一步探索复杂语义特征。