Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality
作者: Sewoong Lee, Adam Davies, Marc E. Canby, Julia Hockenmaier
发布时间: 2025-04-02
来源: arxiv
研究方向: 稀疏自编码器(Sparse Autoencoders)在语言模型可解释性中的应用与设计
主要内容
本文研究了稀疏自编码器(SAEs)在语言模型可解释性中的应用,提出了一种新的理论框架和方法,旨在解决现有SAEs中k参数选择缺乏理论依据的问题。该方法基于线性表示假设(LRH)和叠加假设(SH),通过近似特征激活(AFA)和ε-准正交性来评估和设计SAEs。
主要贡献
1. 引入了近似特征激活(AFA),为稀疏特征激活的幅度提供了一个封闭形式的估计。
2. 提出了ZF图来可视化和诊断特征的超激活或欠激活。
3. 将ε-准正交性作为叠加假设产生的几何约束,将其与Johnson-Lindenstrauss引理联系起来,并提出了εLBO,这是一种用于评估SAE特征空间准正交性的新指标。
4. 引入了top-AFA激活函数,该函数自适应地选择每个输入向量的激活特征数量,无需调整k参数。
5. 提出了一种新的SAE架构,即top-AFA SAE,该架构在保持与理论依据一致的同时,消除了对SAE稀疏超参数的调整需求。
6. 实验结果表明,topAFA SAE在重建损失方面与最先进的top-k SAE相当,而无需调整超参数k。
研究方法
1. 线性表示假设(LRH)和叠加假设(SH)
2. 近似特征激活(AFA)
3. ε-准正交性
4. Johnson-Lindenstrauss引理
5. ZF图
6. top-AFA激活函数
7. εLBO
8. top-AFA SAE架构
实验结果
实验结果表明,topAFA SAE在重建损失方面与最先进的top-k SAE相当,而无需调整超参数k。这表明,基于AFA的激活函数可以有效地提高SAEs的性能,同时简化了参数调整过程。
未来工作
未来工作可以探索将AFA扩展到更一般的叠加设置,例如当Φ(·)是两层神经网络或其他SAE变体时。此外,还可以进一步研究AFA损失系数的合理性,以及为什么偏离λAFA = 1/32会导致性能下降。