Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality

作者: Sewoong Lee, Adam Davies, Marc E. Canby, Julia Hockenmaier

发布时间: 2025-04-02

来源: arxiv

研究方向: 稀疏自编码器（Sparse Autoencoders）在语言模型可解释性中的应用与设计

主要内容

本文研究了稀疏自编码器（SAEs）在语言模型可解释性中的应用，提出了一种新的理论框架和方法，旨在解决现有SAEs中k参数选择缺乏理论依据的问题。该方法基于线性表示假设（LRH）和叠加假设（SH），通过近似特征激活（AFA）和ε-准正交性来评估和设计SAEs。

1. 引入了近似特征激活（AFA），为稀疏特征激活的幅度提供了一个封闭形式的估计。

2. 提出了ZF图来可视化和诊断特征的超激活或欠激活。

3. 将ε-准正交性作为叠加假设产生的几何约束，将其与Johnson-Lindenstrauss引理联系起来，并提出了εLBO，这是一种用于评估SAE特征空间准正交性的新指标。

4. 引入了top-AFA激活函数，该函数自适应地选择每个输入向量的激活特征数量，无需调整k参数。

5. 提出了一种新的SAE架构，即top-AFA SAE，该架构在保持与理论依据一致的同时，消除了对SAE稀疏超参数的调整需求。

6. 实验结果表明，topAFA SAE在重建损失方面与最先进的top-k SAE相当，而无需调整超参数k。

1. 线性表示假设（LRH）和叠加假设（SH）

2. 近似特征激活（AFA）

3. ε-准正交性

4. Johnson-Lindenstrauss引理

5. ZF图

6. top-AFA激活函数

7. εLBO

8. top-AFA SAE架构

实验结果表明，topAFA SAE在重建损失方面与最先进的top-k SAE相当，而无需调整超参数k。这表明，基于AFA的激活函数可以有效地提高SAEs的性能，同时简化了参数调整过程。

未来工作可以探索将AFA扩展到更一般的叠加设置，例如当Φ(·)是两层神经网络或其他SAE变体时。此外，还可以进一步研究AFA损失系数的合理性，以及为什么偏离λAFA = 1/32会导致性能下降。