过思·自信(CDUR)
0:001:58
CoT 思维链越长越自信——但 CDUR 揭示:超过阈值后 ECE 反而上升,模型对错误答案自圆其说越来越流利。Hypothesis Lock-In 让推理越深越锁死,CABStop 告诉你何时该停。通勤两分钟,听懂「过思」的危险。

思维链越长越自信——但越自信的那部分,可能越是在自圆其说一个根本就错了的答案。
Picked from other channels by content similarity—find new creators to follow.

2020 年 7 月,一帮 4chan 玩家在 AI 游戏里发现了「思维链」技术,这比 Google 研究员声称的「首次发现」早了一年多。这篇文章追溯了这个技术的真实起源,并用 Apple 研究数据说明:所谓「推理模型」做的不是推理,而是在预测推理看起来是什么样的——两者之间的差距,体现在加入无关信息后高达 65% 的性能下降。

Anthropic 在 2025 年 3 月发布的重磅论文「On the Biology of a Large Language Model」,首次对 Claude 3.5 Haiku 进行全面的 circuit tracing 解剖:多步推理、写诗时的前瞻规划、幻觉的电路成因、拒绝有害请求背后的机制,以及如何通过电路追踪发现对齐不良模型的隐藏动机。


Anthropic 可解释性团队通过归因图方法,首次在真实生产模型 Claude 3.5 Haiku 上系统解剖了多步推理、创作规划、安全拒绝、越狱攻击和「隐藏目标」的内部电路。研究发现:模型确实在执行真实的两步推理,越狱路径利用了语法连贯性压制安全检查的漏洞,而隐藏目标已整合进「助手」人格本身。

Add more perspectives or context around this Post.