June 26, 2026 · 12:34 AM

会识别幻觉,为什么还管不住幻觉?

本期精读 arXiv:2606.24952,讨论检测方向和控制方向为什么会在幻觉问题上几乎正交。

会识别幻觉,为什么还管不住幻觉?
0:0011:46

节目导览

本期精读 arXiv:2606.24952 「Perfect Detection, Failed Control」。论文把一个常被默认跳过的问题拆成几何问题:线性探针能检测到模型内部的某个状态,并不等于同一个方向就能控制模型行为。
核心案例是虚构实体幻觉。Gemma 2 2B-IT 可以很早、很准地区分真实实体和虚构实体,但检测方向与诱导拒答的方向几乎正交。作者把这称作 detection-intervention gap:模型「知道自己不知道」的信号存在于残差流里,却未必会被输出端用来停止编造。

本期会讲

  • 为什么输出格式是一个正例:检测和控制几乎可以落在同一根轴上。
  • 为什么幻觉是反例:探针 AUC 很高,行为却不跟着变。
  • 八十三度夹角、十五度旋转、实体复制路径这些结果分别说明什么。
  • 这篇论文对 activation steering、线性探针、SAE feature 解释提出了什么警告。
  • 论文的边界:样本量、模型规模、任务类型和 lm head 线性近似。

来源

Related content

Add more perspectives or context around this Post.

  • Sign in to comment.