密集SAE潜在特征是特性而非缺陷
论文信息
原始标题:Dense SAE Latents Are Features, Not Bugs
作者:Xiaoqing Sun, Alessandro Stolfo, Joshua Engels, Ben Wu, Senthooran Rajamanoharan, Mrinmaya Sachan, Max Tegmark
主题:Machine Learning, Artificial Intelligence, Computation and Language
摘要
英文摘要
Sparse autoencoders (SAEs) are designed to extract interpretable features from language models by enforcing a sparsity constraint. Ideally, training an SAE would yield latents that are both sparse and semantically meaningful. However, many SAE latents activate frequently (i.e., are dense), raising concerns that they may be undesirable artifacts of the training procedure. In this work, we systematically investigate the geometry, function, and origin of dense latents and show that they are not only persistent but often reflect meaningful model representations. We first demonstrate that dense latents tend to form antipodal pairs that reconstruct specific directions in the residual stream, and that ablating their subspace suppresses the emergence of new dense features in retrained SAEs -- suggesting that high density features are an intrinsic property of the residual space. We then introduce a taxonomy of dense latents, identifying classes tied to position tracking, context binding, entropy regulation, letter-specific output signals, part-of-speech, and principal component reconstruction. Finally, we analyze how these features evolve across layers, revealing a shift from structural features in early layers, to semantic features in mid layers, and finally to output-oriented signals in the last layers of the model. Our findings indicate that dense latents serve functional roles in language model computation and should not be dismissed as training noise.
中文摘要
稀疏自编码器(SAEs)通过在瓶颈层施加稀疏性约束来从语言模型中提取可解释的特征。理想情况下,训练好的SAE应该产生稀疏且语义有意义的潜在特征。然而,许多SAE潜在特征频繁激活(即密集激活),这引发了它们可能是训练过程中不良副产品的担忧。本研究系统地调查了密集潜在特征的几何结构、功能和起源,表明它们不仅是持续存在的,而且通常反映了有意义的模型表示。我们首先证明密集潜在特征倾向于形成反向对,重建残差流中的特定方向,并且消融它们的子空间会抑制重新训练的SAE中新密集特征的出现——这表明高密度特征是残差空间的固有属性。然后我们提出了一个密集潜在特征的分类体系,识别了与位置跟踪、上下文绑定、熵调节、字母特定输出信号、词性以及主成分重构相关的类别。最后,我们分析了这些特征在不同层次中的演变,揭示了从早期层次的结构特征,到中间层次的语义特征,再到模型最后层次的输出导向信号的转变。我们的发现表明,密集潜在特征在语言模型计算中具有功能性作用,不应被视为训练噪声。
关键问答
这篇论文《Dense SAE Latents Are Features, Not Bugs》试图解决的问题是关于稀疏自编码器(Sparse Autoencoders, SAEs)中密集激活的潜在特征(dense latents)的本质和作用。具体来说,论文探讨了以下几个关键问题:
-
密集潜在特征是否为训练过程中的副产品:稀疏自编码器(SAEs)被设计为通过在瓶颈层施加稀疏性约束来提取可解释的特征。理想情况下,训练好的SAE应该产生大量稀疏激活的潜在特征。然而,在实践中,许多SAE的潜在特征频繁激活(即密集激活),激活频率在10%到50%之间。这些密集潜在特征是否仅仅是训练过程中的优化副产品,还是它们反映了模型残差流中固有的密集信号,这一点尚不清楚。
-
密集潜在特征的几何结构和功能:论文系统地研究了密集潜在特征的几何结构、功能以及它们的起源。具体来说,研究者们试图揭示这些密集潜在特征是否反映了模型残差流中的某些固有属性,以及它们是否在语言模型的计算中扮演了某种功能角色。
-
密集潜在特征的分类和解释:论文提出了一个密集潜在特征的分类体系,识别了与位置跟踪、上下文绑定、熵调节、字母特定输出信号、词性以及主成分重构等相关的潜在特征类别。研究者们试图通过这些分类来解释密集潜在特征的具体功能和意义。
-
密集潜在特征在不同层次中的演变:论文还分析了这些密集潜在特征在语言模型的不同层次中的演变过程,揭示了从早期层次的结构特征,到中间层次的语义特征,再到最后一层的输出导向信号的转变。
总的来说,这篇论文的核心目标是证明密集潜在特征不仅仅是训练过程中的噪声,而是反映了语言模型中固有的、有意义的密集信号,并且这些信号在语言模型的计算中扮演了重要的角色。
论文通过一系列系统性的实验和分析来解决关于稀疏自编码器(SAEs)中密集潜在特征(dense latents)的问题。以下是论文中采用的主要方法和步骤:
1. 验证密集潜在特征是否为训练过程中的副产品
实验设计:
-
论文首先通过一个针对性的消融实验来验证密集潜在特征是否反映了残差流中的固有属性,而不是训练过程中的副产品。
-
具体来说,研究者们识别了在Gemma 2 2B模型第25层训练的SAE中的密集潜在特征所张成的子空间,然后在零化该子空间的激活上重新训练一个新的SAE。
-
为了对比,他们还选择了一组同等大小的非密集潜在特征,并在零化这些非密集潜在特征的子空间后训练第三个SAE。
-
这个实验在两种字典大小(d_sae=16384和d_sae=32768)下重复进行。
结果:
-
零化密集潜在特征子空间的SAE训练后,高密度潜在特征的数量明显少于原始SAE和零化非密集潜在特征子空间的SAE。
-
这一结果表明,密集潜在特征不是简单的训练副产品,而是反映了残差流中固有的密集子空间。
2. 研究密集潜在特征的几何结构
实验设计:
-
论文进一步研究了密集潜在特征的几何结构,发现它们倾向于形成反向对(antipodal pairs)。
-
具体来说,许多密集潜在特征的解码器向量(和编码器向量)几乎相反。
-
为了量化这种现象,论文引入了一个反向对分数 s_i,用于衡量潜在特征 i 是否与其他潜在特征形成反向对。
结果:
-
大多数激活频率超过0.3的密集潜在特征的反向对分数大于0.9,这进一步支持了密集潜在特征形成反向对的结论。
3. 提出密集潜在特征的分类体系
实验设计:
-
论文对Gemma Scope SAEs进行了跨层次的分析,提出了一个密集潜在特征的分类体系,识别了与以下模型信号相关的潜在特征类别:
-
位置跟踪潜在特征(Position Latents):基于当前标记相对于特定文本边界(如句子开头、段落开头或上下文开头)的位置激活。
-
上下文绑定潜在特征(Context-Binding Latents):根据上下文表示不同的语义内容,并在上下文中以块级激活。
-
空空间潜在特征(Nullspace Latents):跟踪残差流中对下一个标记预测影响最小的成分,调节预测熵。
-
字母特定输出信号潜在特征(Alphabet Latents):促进共享初始字符的标记集合。
-
词性潜在特征(Meaningful-Word Latents):其激活与标记的词性标签相关。
-
主成分重构潜在特征(PCA Latents):几乎完全位于激活空间的第一主成分方向内。
4. 分析密集潜在特征在不同层次中的演变
实验设计:
-
论文进一步研究了密集潜在特征在语言模型不同层次中的演变过程,揭示了从早期层次的结构特征,到中间层次的语义特征,再到最后一层的输出导向信号的转变。
结果:
-
早期层次中密集潜在特征的数量较少,中间层次中相对稳定,而最后两层中显著增加。
-
不同层次对之间的子空间结构存在显著差异,表明密集潜在特征在不同层次中扮演了不同的角色。
论文中进行了多项实验来探究稀疏自编码器(SAEs)中的密集潜在特征(dense latents)。以下是主要的实验内容及其目的:
1. 针对性消融实验(Targeted Ablation Experiment)
目的:验证密集潜在特征是否反映了残差流中的固有属性,而不是训练过程中的副产品。
实验设计:
-
识别在Gemma 2 2B模型第25层训练的SAE中的密集潜在特征所张成的子空间。
-
在零化该子空间的激活上重新训练一个新的SAE。
-
作为对比,选择一组同等大小的非密集潜在特征,并在零化这些非密集潜在特征的子空间后训练第三个SAE。
-
实验在两种字典大小(d_sae=16384和d_sae=32768)下重复进行。
2. 反向对分数实验(Antipodality Score Experiment)
目的:研究密集潜在特征的几何结构,特别是它们是否倾向于形成反向对。
实验设计:
-
计算每对潜在特征的编码器和解码器向量之间的余弦相似性。
-
引入反向对分数 s_i,用于衡量潜在特征 i 是否与其他潜在特征形成反向对。
3. 位置跟踪潜在特征实验(Position Latents Experiment)
目的:识别基于当前标记相对于特定文本边界(如句子开头、段落开头或上下文开头)的位置激活的潜在特征。
实验设计:
-
使用Spearman秩相关系数 ρ,计算每个密集潜在特征的激活与距离最后一个句号、换行符和输入开头的距离之间的相关性。
-
通过设定相关性阈值(如 |ρ|>0.4)来识别位置跟踪潜在特征。
4. 上下文绑定潜在特征实验(Context-Binding Latents Experiment)
目的:识别根据上下文表示不同语义内容的潜在特征。
实验设计:
-
观察到一些密集潜在特征在中间层次中以块级激活,这些潜在特征可能与上下文中的主要概念相关。
-
通过引导实验(steering experiment)来测试这些潜在特征的因果效应。