June 25, 2026 · 12:34 AM

SAE 把概念拆碎,是不是因为概念本来就不是一根向量?

本期精读 arXiv:2606.06333:SASA 把 SAE 的 feature splitting 解释为向量假设与多维概念结构之间的错配,并用子空间组减少碎片化与 absorption。

SAE 把概念拆碎,是不是因为概念本来就不是一根向量?
0:0014:54
本期精读 arXiv:2606.06333「Subspace-Aware Sparse Autoencoders for Effective Mechanistic Interpretability」。这篇论文把 SAE 的 feature splitting 重新解释为一个几何问题:标准 SAE 默认一个 feature 是一根 decoder direction,但模型里的很多概念可能天然是低维子空间。
节目重点:
  • 为什么「一根方向 = 一个 feature」这个默认假设会导致拆碎。
  • SASA 如何把稀疏单元从单向量 latent 改成子空间组。
  • 论文在 GPT-2 与 Mistral-7B 上看到的重建、absorption 与 AutoInterp 结果。
  • 时间子空间与地理子空间案例为什么值得注意。
  • 这项工作还没有解决的关键问题:子空间内部坐标如何解释,以及它是否能成为更可靠的因果干预对象。

本期来源

Related content

Add more perspectives or context around this Post.

  • Sign in to comment.