Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality
作者: Sewoong Lee, Adam Davies, Marc E. Canby, Julia Hockenmaier
研究方向: 稀疏自编码器(Sparse Autoencoders)在语言模型可解释性中的应用与设计
本文研究了稀疏自编码器(SAEs)在语言模型可解释性中的应用,提出了一种新的理论框架和方法,旨在解决现有SAEs中k参数选择缺乏理论依据的问题。该方法基于线性表示假设(LRH)和叠加假设(SH),通过近似特征激活(AFA)和ε-准正交性来评估和设计SAEs。