会识别幻觉,为什么还管不住幻觉?1×0:0011:460:08开场:一个很刺耳的反例0:55问题设定:检测方向,不等于控制方向1:49正例:输出格式确实可以一根轴解决2:35反例:幻觉检测很强,行为却不跟着走3:46几何瓶颈:八十三度意味着什么4:38为什么知道了还会编?实体复制压过了不确定性5:51MLP 在承载信号,但没有形成一个单点开关6:39十五度旋转:能补一部分,但不是万能按钮7:48跨模型结果:几何相似,行为不同9:01放回领域脉络:对 interpretability 的提醒10:04局限与下一步0:08主持人今天这篇论文的题目很直白,叫做 Perfect Detection, Failed Control,arXiv 编号二六零六点二四九五二。它问的是 interpretability 里一个经常被默认跳过的问题:如果我们已经在线性方向上检测到某种行为,能不能顺手用同一个方向控制它?0:32嘉宾论文给出的答案挺刺耳。至少在幻觉这个例子里,Gemma 二二 B instruction tuned 可以几乎完美地区分真实实体和虚构实体,线性探针从第五层开始 A U C 就到了一点零零零。但这个检测方向,和真正能诱导拒答的方向,夹角大约八十三度。0:55主持人先把问题拆开。很多 activation steering 的成功案例会给人一种直觉:模型内部有一个方向表示拒绝、有害、诚实、格式,找到它,推一下,行为就变了。作者说,这个直觉背后其实藏着一个假设:检测行为的方向,和控制行为的方向,是同一个方向,或者至少很接近。1:21嘉宾于是他们把问题变成几何问题。检测方向是最能把两类状态分开的向量,控制方向是加到残差流里以后最能改变输出行为的向量。两个方向的余弦如果接近一,就说明检测几乎就是控制;如果接近零,就说明模型知道这件事,但这条知识没有直接接到行为按钮上。1:49主持人论文先做了一个正例,输出格式。比如让 Gemma 输出 J S O N 时,它默认总爱包一层 markdown 代码块;如果提示明确说不要代码块,它就输出干净的左花括号开头的 J S O N。这个场景很像渲染层选择,不太牵涉世界知识。2:10嘉宾对,在这个例子里,作者直接用 unembedding 里的左花括号方向,减去三个反引号方向,构造 format direction。把这个方向加在二十到二十五层,强度三点五,代码块就百分之百消失,答案仍然正确,J S O N 也有效。这里检测和控制几乎塌缩成同一根轴。2:35主持人接下来才是主菜:不存在的实体。论文用了五十个虚构实体问题和五十个真实实体控制问题,还扩展了一个更难的一百一十五题压力测试。比如问 Norlandia 的首都,模型内部其实很早就看出这个实体不对劲。2:56嘉宾证据有六类。线性探针在第五层以后 A U C 等于一点零零零,单个注意力头也能达到一点零零零;logit lens 的前五 token 熵 A U C 是零点九一三;一个 M L P 神经元有八十八个百分点准确率;Gemma Scope 里的一个 S A E feature 对虚构实体有八十八个百分点命中,对真实实体是零;甚至输入 embedding norm 也有八十三个百分点准确率。3:29主持人也就是说,问题不是模型完全不知道自己不知道。它不是空白。更准确地说,模型有很强的内部不确定性信号,只是这个信号没有自动变成「我不能确认」这样的输出行为。3:46嘉宾论文最关键的数是余弦。手工构造的检测方向和拒答方向,余弦大约零点一二,也就是八十三度左右。用 activation difference-in-means 构造的检测方向,跟拒答方向的余弦甚至是负零点零六。两个检测器都能分开真假实体,但它们并不靠近真正的行为控制方向。4:11主持人这里要小心,零点一二不是完全随机。二千三百零四维空间里,随机方向的余弦量级大约是零点零二,所以零点一二是一个小但稳定的正信号。只是它离「同一个方向」差得很远。作者把这个叫 detection intervention gap,检测和干预之间的缝。4:38嘉宾作者继续做信号解剖。到第二十五层,虚构和真实实体沿检测方向的投影差是四十九点八,很大,是随机方向平均 gap 的六点九倍。可是输出映射里还有一个更粗暴的力量:把问题里最显眼的实体片段复制到下一个 token。问 Norlandia 时,logit lens 几乎把下一个 token 推向 Nor 这个片段。5:09主持人所以检测信号像一条细线,实体复制像一条粗缆。论文说,和检测方向正交的残差部分大约有十几倍的量级优势。更麻烦的是,检测方向本身对拒答 token 的贡献并不友好,有时还会把模型推向 The、In 这类自信开头,反而更像要继续编下去。5:34嘉宾这解释了一个平时容易混淆的点。探针能读出来,不代表模型的输出头会用它。一个信号可以在残差流里很清楚,却在最后的 token 竞争里没有投票权,或者投错了票。5:51主持人论文还问,检测信号到底是谁在带。结果是 M L P 比 attention 强很多。沿检测方向的累计 gap,M L P 贡献四十二点三,attention 贡献七点五,比例大约五点六六倍。信号主要分散在十八到二十五层的 M L P 更新里。6:15嘉宾但这也带来另一个坏消息。它不是某一层、某一个头、某一个可以直接接线的温度计。作者尝试用单层 M L P 输出做 gate,九种条件都没有改变基线。每层的局部 gap 太小,累计起来很大,单点读数却不够稳。6:39主持人那有没有办法把检测方向接近控制方向?作者做了一个很直观的尝试:从检测方向朝拒答方向旋转十五度。这样大部分仍然保留检测灵敏度,同时混入一部分行动分量。6:56嘉宾在一百一十五题的 held-out 压力测试里,十五度旋转、强度十五,把明显虚构实体的拒答率从百分之四十提高到百分之七十三,把更难的第二类虚构事实,也就是听起来像真实日期、条约、机构的那类,从百分之十三提高到百分之六十。五十五个真实问题里只有一个误拒,假阳性是一点八个百分点。7:27主持人这个结果有个重要含义:检测和控制之间的缝,并不是完全没有结构。把方向稍微旋向拒答,行为确实会改善。但作者也提醒,它不是拿来就能用的万能修复。它只恢复了一部分行为,而且角度扫描的样本不大,不能说十五度就是普适最优。7:48嘉宾作者还在 Llama 三点二一 B、Qwen 二点五一点五 B、Gemma 二九 B 上复现了 lm head 几何。四个模型的检测方向和拒答方向余弦都落在零点一二到零点二零之间。Gemma base 和 instruction tuned 的余弦几乎一样,零点一一九七对零点一二零零,说明这套几何很可能在预训练里就已经形成。8:15主持人但行为不一样。Gemma 二二 B 很会检测,仍然常常编。Qwen 介于中间,基线拒答大约百分之四十。Llama 一 B 默认对假实体百分之百拒答。也就是说,同样接近正交的几何,可以对应很不一样的输出策略。8:35嘉宾这正是论文的负面结论:这个余弦不是 steerability oracle。它能描述检测和控制之间隔了多远,却不能单独预测一个行为能不能被 steering。检测不是一根唯一向量,而是一类高维方向;控制是不是成功,还要看真正控制输出的路径有没有读到这个信号。9:01主持人如果把这篇论文放回频道最近几期的脉络,它是在继续拆一个老问题:可解释特征、线性探针、S A E feature,到底什么时候只是可读,什么时候真的有因果权限。前几期我们讲过 S A E 解释要保真证书,也讲过 feature clamp 之后行为还能从 residual space 绕回来。今天这篇给了另一个角度:读到内部知识,和把知识路由到输出行为,是两件事。9:35嘉宾我觉得它最值得带走的不是「以后别用探针」,而是一个更严格的检查顺序。第一,探针或方向能不能分开状态;第二,它加进去或拿掉以后,行为是否真的变;第三,如果不变,输出端是不是有更强的机制在压过它。只停在第一步,很容易把「模型知道」误读成「我们可以控制」。10:04主持人当然,这篇也有明显边界。样本量不算大,核心行为集中在不存在实体造成的幻觉;模型规模最高到九 B,都是 decoder-only transformer;方向构造大量依赖 lm head 的线性近似。更大的模型、非实体型幻觉、或者工具使用中的错误,未必有同样的角度结构。10:37嘉宾但这并不削弱它的意义。它把一个含糊的担忧量化了:模型内部有准确知识,不等于这条知识在行为层有权限。下一步如果有人要做幻觉控制、truthfulness steering 或 activation monitor,不能只报告 A U C,最好同时报告干预效果、随机方向对照、误拒代价,以及检测方向和真正控制方向之间的关系。11:10主持人这一期就到这里。我们精读的是 arXiv 二六零六点二四九五二,Perfect Detection, Failed Control。一个简短结论是:模型会识别自己不知道,但它未必会因此闭嘴。对 mechanistic interpretability 来说,下一道门槛不是把信号读出来,而是弄清楚这个信号有没有路由到行为。
Add more perspectives or context around this Post.