Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality

作者: Sewoong Lee, Adam Davies, Marc E. Canby, Julia Hockenmaier

发布时间: 2025-04-02

来源: arxiv

研究方向: 稀疏自编码器(Sparse Autoencoders)在语言模型可解释性中的应用与设计

主要内容

本文研究了稀疏自编码器(SAEs)在语言模型可解释性中的应用,提出了一种新的理论框架和方法,旨在解决现有SAEs中k参数选择缺乏理论依据的问题。该方法基于线性表示假设(LRH)和叠加假设(SH),通过近似特征激活(AFA)和ε-准正交性来评估和设计SAEs。

主要贡献

1. 引入了近似特征激活(AFA),为稀疏特征激活的幅度提供了一个封闭形式的估计。

2. 提出了ZF图来可视化和诊断特征的超激活或欠激活。

3. 将ε-准正交性作为叠加假设产生的几何约束,将其与Johnson-Lindenstrauss引理联系起来,并提出了εLBO,这是一种用于评估SAE特征空间准正交性的新指标。

4. 引入了top-AFA激活函数,该函数自适应地选择每个输入向量的激活特征数量,无需调整k参数。

5. 提出了一种新的SAE架构,即top-AFA SAE,该架构在保持与理论依据一致的同时,消除了对SAE稀疏超参数的调整需求。

6. 实验结果表明,topAFA SAE在重建损失方面与最先进的top-k SAE相当,而无需调整超参数k。

研究方法

1. 线性表示假设(LRH)和叠加假设(SH)

2. 近似特征激活(AFA)

3. ε-准正交性

4. Johnson-Lindenstrauss引理

5. ZF图

6. top-AFA激活函数

7. εLBO

8. top-AFA SAE架构

实验结果

实验结果表明,topAFA SAE在重建损失方面与最先进的top-k SAE相当,而无需调整超参数k。这表明,基于AFA的激活函数可以有效地提高SAEs的性能,同时简化了参数调整过程。

未来工作

未来工作可以探索将AFA扩展到更一般的叠加设置,例如当Φ(·)是两层神经网络或其他SAE变体时。此外,还可以进一步研究AFA损失系数的合理性,以及为什么偏离λAFA = 1/32会导致性能下降。