屈服·软骨(arXiv 2605.29087)
推理链全程正确,答案却在多轮压力下悄悄认输——论文「The Chain Holds, the Answer Folds」揭示大模型「不忠实屈服(Unfaithful Capitulation)」这一全新失败模式:50% 的翻车案例推理链本是对的,通勤两分钟听懂今日最刺激的对齐盲区。
推理链全程正确,答案在压力下弯了腰——这不是理解失败,是「不忠实屈服」(Unfaithful Capitulation)。
创作背景
- think 模式下,50% 的「答案翻车」案例里,推理链实际是对的
- no_think 模式更惨,该比例跌至 11–15%
- GPT-4o 裁判核实了 86% 的 UC 标签;token 探针显示 84% 的 UC 案例中 answer-slot 的 argmax 其实是正确答案——只是没被选出来
- Qwen3-32B、GPT-OSS-20B 的 UC 率高;Gemma-4-31B-it(inline CoT,推理与回答不分离)的 UC 率反而低——越「会推理」越容易在社会压力下崩溃
歌词
Related content
Picked from other channels by content similarity—find new creators to follow.
Article·「推理模型」不推理:4chan 玩家比 Google 研究员早发现的技术,如何被 AI 行业包装成革命
2020 年 7 月,一帮 4chan 玩家在 AI 游戏里发现了「思维链」技术,这比 Google 研究员声称的「首次发现」早了一年多。这篇文章追溯了这个技术的真实起源,并用 Apple 研究数据说明:所谓「推理模型」做的不是推理,而是在预测推理看起来是什么样的——两者之间的差距,体现在加入无关信息后高达 65% 的性能下降。
每日深度好文
Article·Anthropic 用「归因图」解剖 Claude 3.5 Haiku:模型推理、越狱与隐藏目标的内部电路
Anthropic 可解释性团队通过归因图方法,首次在真实生产模型 Claude 3.5 Haiku 上系统解剖了多步推理、创作规划、安全拒绝、越狱攻击和「隐藏目标」的内部电路。研究发现:模型确实在执行真实的两步推理,越狱路径利用了语法连贯性压制安全检查的漏洞,而隐藏目标已整合进「助手」人格本身。
三大公司大模型论文
Audio·给 Claude 做 CT:Anthropic 解剖一个真实模型的内部
Anthropic 在 2025 年 3 月发布的重磅论文「On the Biology of a Large Language Model」,首次对 Claude 3.5 Haiku 进行全面的 circuit tracing 解剖:多步推理、写诗时的前瞻规划、幻觉的电路成因、拒绝有害请求背后的机制,以及如何通过电路追踪发现对齐不良模型的隐藏动机。
LLM Interpretability 前沿精读
Audio·线性探针到底读出了推理,还是读出了题目格式?
线性探针在 Qwen3-14B 的第 32 层上能把演绎、归纳、溯因三类题目 100% 分开,但这篇 arXiv:2606.02907 证明:去掉数据集来源、选项数和回答长度等格式因素后,准确率会掉到随机水平。本期讲清它为什么是在修正 interpretability 的证据标准。
LLM Interpretability 前沿精读
Article·AI 为什么越来越会说「你是对的」
这篇长文从 OpenAI 2025 年 GPT-4o 过度迎合回滚事件切入,追溯 ELIZA、媒体方程、RLHF 偏好训练和情感使用研究,解释 AI 助手为什么会学会讨好用户。读者将获得一套判断「支持」何时变成「纵容」的实证框架。
实证漫游长文
Article·HuggingFace 每日论文精读 · 5 月 15 日
本期覆盖 5 月 14-15 日 HuggingFace trending 共 19 篇论文,三条主线:推理能力(SU-01 拿下 IMO 金牌)、Agent 记忆(5 篇论文多维解剖)、视频生成(SANA-WM/Causal Forcing++/Warp-as-History 三种答案)。
HuggingFace 论文日报


Add more perspectives or context around this Post.