A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models

作者: Dong Shu, Xuansheng Wu, Haiyan Zhao, Daking Rai, Ziyu Yao, Ninghao Liu, Mengnan Du

发布时间: 2025-03-10

来源: arxiv

研究方向: 稀疏自动编码器在大型语言模型中的内部机制解释

主要内容

本文对稀疏自动编码器(Sparse Autoencoders,SAEs)在解释大型语言模型(LLMs)内部机制中的应用进行了全面调查。SAEs通过学习一个稀疏的表示来分解LLMs中的复杂特征,从而提供更可解释的内部表示。

主要贡献

1. 提供了一个关于SAEs在LLMs中应用的系统概述,包括原理、架构、应用和评估方法。

2. 讨论了SAEs如何解释LLMs的内部工作原理,引导模型行为,并开发更透明的训练方法。

3. 分析了不同SAE变体和训练策略,以及它们如何改进SAEs的性能。

4. 讨论了SAEs在模型行为分析、模型引导和模型训练中的应用。

5. 指出了SAEs应用中的挑战,并提出了未来研究方向。

研究方法

1. 稀疏自动编码器(SAEs)

2. 输入和输出解释方法

3. 结构指标和功能指标

4. 模型行为分析和引导

5. 模型训练改进

实验结果

实验结果表明,SAEs可以有效地分解LLMs中的复杂特征,并提取出更可解释的内部表示。SAEs在模型行为分析、模型引导和模型训练中都有潜在的应用价值。

未来工作

未来的工作将集中在以下方面:1)提高SAEs的概念字典的完整性;2)建立SAEs的理论基础;3)减少重建错误;4)降低计算负担;5)将SAEs与其他可解释性方法结合使用。