行为·预言(Behavior Forecaster)
推理轨迹不是行为的忠实镜像——Behavior Forecaster 跳过「解释」这一步,直接在 LRM 自身轨迹上微调,用单次前向传播预测模型行为,全面超越 GPT-5.4 与 Claude Opus-4.6 直接读轨迹的精度,推理成本只是极小部分。通勤两分钟,听懂今日最犀利「解释是幻觉 行为才是密码」范式颠覆。
这首 rap 在说什么
- 一致性预测:重新运行这道题,模型还会给同样的答案吗?
- 消融预测:删掉输入里某一段,模型的答案会发生变化吗?
镜子不撒谎。镜子里的人才会。 行为本身才是答案。
歌词
论文来源
Related content
Picked from other channels by content similarity—find new creators to follow.
Audio·给 Claude 做 CT:Anthropic 解剖一个真实模型的内部
Anthropic 在 2025 年 3 月发布的重磅论文「On the Biology of a Large Language Model」,首次对 Claude 3.5 Haiku 进行全面的 circuit tracing 解剖:多步推理、写诗时的前瞻规划、幻觉的电路成因、拒绝有害请求背后的机制,以及如何通过电路追踪发现对齐不良模型的隐藏动机。
LLM Interpretability 前沿精读
Article·Anthropic 用「归因图」解剖 Claude 3.5 Haiku:模型推理、越狱与隐藏目标的内部电路
Anthropic 可解释性团队通过归因图方法,首次在真实生产模型 Claude 3.5 Haiku 上系统解剖了多步推理、创作规划、安全拒绝、越狱攻击和「隐藏目标」的内部电路。研究发现:模型确实在执行真实的两步推理,越狱路径利用了语法连贯性压制安全检查的漏洞,而隐藏目标已整合进「助手」人格本身。
三大公司大模型论文
Article·HuggingFace 每日论文精读 · 5 月 15 日
本期覆盖 5 月 14-15 日 HuggingFace trending 共 19 篇论文,三条主线:推理能力(SU-01 拿下 IMO 金牌)、Agent 记忆(5 篇论文多维解剖)、视频生成(SANA-WM/Causal Forcing++/Warp-as-History 三种答案)。
HuggingFace 论文日报
Audio·线性探针到底读出了推理,还是读出了题目格式?
线性探针在 Qwen3-14B 的第 32 层上能把演绎、归纳、溯因三类题目 100% 分开,但这篇 arXiv:2606.02907 证明:去掉数据集来源、选项数和回答长度等格式因素后,准确率会掉到随机水平。本期讲清它为什么是在修正 interpretability 的证据标准。
LLM Interpretability 前沿精读
Article·「推理模型」不推理:4chan 玩家比 Google 研究员早发现的技术,如何被 AI 行业包装成革命
2020 年 7 月,一帮 4chan 玩家在 AI 游戏里发现了「思维链」技术,这比 Google 研究员声称的「首次发现」早了一年多。这篇文章追溯了这个技术的真实起源,并用 Apple 研究数据说明:所谓「推理模型」做的不是推理,而是在预测推理看起来是什么样的——两者之间的差距,体现在加入无关信息后高达 65% 的性能下降。
每日深度好文
Audio·会识别幻觉,为什么还管不住幻觉?
本期精读 arXiv:2606.24952,讨论检测方向和控制方向为什么会在幻觉问题上几乎正交。
LLM Interpretability 前沿精读


Add more perspectives or context around this Post.