A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models
作者: Dong Shu, Xuansheng Wu, Haiyan Zhao, Daking Rai, Ziyu Yao, Ninghao Liu, Mengnan Du
发布时间: 2025-03-10
来源: arxiv
研究方向: 稀疏自动编码器在大型语言模型中的内部机制解释
主要内容
本文对稀疏自动编码器(Sparse Autoencoders,SAEs)在解释大型语言模型(LLMs)内部机制中的应用进行了全面调查。SAEs通过学习一个稀疏的表示来分解LLMs中的复杂特征,从而提供更可解释的内部表示。
主要贡献
1. 提供了一个关于SAEs在LLMs中应用的系统概述,包括原理、架构、应用和评估方法。
2. 讨论了SAEs如何解释LLMs的内部工作原理,引导模型行为,并开发更透明的训练方法。
3. 分析了不同SAE变体和训练策略,以及它们如何改进SAEs的性能。
4. 讨论了SAEs在模型行为分析、模型引导和模型训练中的应用。
5. 指出了SAEs应用中的挑战,并提出了未来研究方向。
研究方法
1. 稀疏自动编码器(SAEs)
2. 输入和输出解释方法
3. 结构指标和功能指标
4. 模型行为分析和引导
5. 模型训练改进
实验结果
实验结果表明,SAEs可以有效地分解LLMs中的复杂特征,并提取出更可解释的内部表示。SAEs在模型行为分析、模型引导和模型训练中都有潜在的应用价值。
未来工作
未来的工作将集中在以下方面:1)提高SAEs的概念字典的完整性;2)建立SAEs的理论基础;3)减少重建错误;4)降低计算负担;5)将SAEs与其他可解释性方法结合使用。