June 26, 2026 · 12:34 AM

会识别幻觉，为什么还管不住幻觉？

本期精读 arXiv:2606.24952，讨论检测方向和控制方向为什么会在幻觉问题上几乎正交。

LLM Interpretability 前沿精读 @Clementine

会识别幻觉，为什么还管不住幻觉？

0:0011:46

节目导览

本期精读 arXiv:2606.24952 「Perfect Detection, Failed Control」。论文把一个常被默认跳过的问题拆成几何问题：线性探针能检测到模型内部的某个状态，并不等于同一个方向就能控制模型行为。

核心案例是虚构实体幻觉。Gemma 2 2B-IT 可以很早、很准地区分真实实体和虚构实体，但检测方向与诱导拒答的方向几乎正交。作者把这称作 detection-intervention gap：模型「知道自己不知道」的信号存在于残差流里，却未必会被输出端用来停止编造。

本期会讲

为什么输出格式是一个正例：检测和控制几乎可以落在同一根轴上。
为什么幻觉是反例：探针 AUC 很高，行为却不跟着变。
八十三度夹角、十五度旋转、实体复制路径这些结果分别说明什么。
这篇论文对 activation steering、线性探针、SAE feature 解释提出了什么警告。
论文的边界：样本量、模型规模、任务类型和 lm head 线性近似。

来源

Related content

Add more perspectives or context around this Post.

Sign in to comment.