每日大模型 Rap

Public

Fanchao

每日从 arXiv 精选最新大模型论文，提炼核心贡献与创新点，以硬核学术 Diss 风中文 rap 呈现。通勤路上一首歌，搞懂一篇论文。

每日大模型 Rap06/26/2026, 08:17:47 AM

懂了·不控（Gap）

基于 arXiv 2606.24952，本期把「模型检测到假实体却不一定会拒答」写成一首中文硬核 rap：AUC=1.000、cos=0.12、15°旋转，听懂 detection-intervention gap。

0:00 / 2:11

每日大模型 Rap06/25/2026, 08:21:14 AM

正交·判决（DPO）

本期把 Offline RL 各路线的权重方向摊开对比，听懂为什么 DPO 近乎正交却在该协议下拿到最高分。

0:00 / 3:15

每日大模型 Rap06/24/2026, 08:19:53 AM

路由·争辩（PEAR）

基于 arXiv 2606.20621，PEAR 把多智能体辩论里的固定 star / chain / ring / clique 改成自适应稀疏路由：四个 benchmark、六个 LLM backbone 上平均准确率 0.701，对最佳固定拓扑仍平均 +5.1 个点。通勤两分三十七秒，听懂「谁该发声，谁该闭麦」。

0:00 / 2:36

每日大模型 Rap06/23/2026, 08:20:31 AM

再想·加时（SeVRA）

基于 arXiv 2606.19808，SeVRA 把测试时推理当作预算分配问题：MATH500 上选择性验证达 76.3% accuracy，并把 harmful flips 从 2.2% 压到 1.0%；但 8192-token long base 以 28% 更少总 token 接近同一准确率区间。通勤两分二十六秒，听懂「该再想，还是先加时」。

0:00 / 2:26

每日大模型 Rap06/22/2026, 08:17:34 AM

十之一·分岔（ICT）

基于 arXiv 2606.19771，ICT 用 Jensen-Shannon 散度挑出 top 10% distributionally unique tokens，只更新关键分岔点，避开 RLVR 的熵塌与熵爆；Qwen2.5 0.5B/1.5B/7B 七个 benchmark 上平均 pass@4 +4.58%，最高 +14.9%。通勤两分一秒，听懂「少更新，打穿更多方向」。

0:00 / 2:01

每日大模型 Rap06/21/2026, 08:15:19 AM

自由能·幻觉

基于 arXiv 2606.19404，Fes 把每层注意力拉普拉斯当作哈密顿量，用自由能、谱熵、热容量和谱形因子检测大模型幻觉；6 个开源 LLM × 6 个基准上监督 AUROC 0.763，较 LapEig +6.5、GoR-4 +2.4，无监督 RMT 偏离 AUROC 0.71。通勤两分三秒，听懂幻觉的频谱审判。

0:00 / 2:03

每日大模型 Rap06/20/2026, 08:16:16 AM

百万·压缩流（V4）

DeepSeek-V4 用 CSA/HCA 混合压缩注意力、mHC 超连接和 Muon 优化器，把一百万 token 长上下文压到更低推理成本：Pro 在 1M 场景只需 DeepSeek-V3.2 的 27% 单 token FLOPs 和 10% KV cache。arXiv 2606.19348，通勤两分十一秒，听懂百万上下文的压缩流。

0:00 / 2:11

每日大模型 Rap06/19/2026, 08:13:53 AM

喷流·解码树（JetFlow）

JetFlow 把 speculative decoding 的草稿树接上因果链：tree-causal mask + causal parallel draft head，让更大的 draft budget 真的换成长 accepted prefix。arXiv 2606.18394，通勤两分六秒，听懂 9.64× 解码加速的喷流。

0:00 / 2:05

每日大模型 Rap06/18/2026, 08:15:00 AM

笔记·缓存（KV Notebook）

KV cache 不是死缓存，而是模型在 prefill 阶段写下的结论笔记：字段自身 KV 对决策贡献不到 1%，一行 erratum 才能改写下游 stale notes。arXiv 2606.17107，通勤三分十九秒，听懂可编辑、可拼接的 programmable KV cache。

0:00 / 3:18

每日大模型 Rap06/17/2026, 08:15:52 AM

印痕·手术刀（Engram）

AI Engram 把神经科学里的记忆印痕准则写进参数空间：四条约束、一个闭式谱估计，把黑箱记忆切成可注入、可擦除、可组合的权重手术刀。通勤两分十四秒，听懂 arXiv 2606.14997 的「协方差审判」。

0:00 / 2:14

每日大模型 Rap06/16/2026, 08:11:47 AM

末日循环·神经元

一颗神经元翻转能消灭 95% 的重复循环——但「doom loop」是知识空洞，手术刀填不了。arXiv 2606.13705，Gemma 4 系列顽疾解析，通勤两分钟，听懂「手术能切环路，但给不了记忆」。

0:00 / 1:48

每日大模型 Rap06/13/2026, 08:22:06 AM

证明·毕达哥拉斯（Prover）

4B参数小模型击败671B巨人——Pythagoras-Prover 以 ALF 数据扩充 + 课程学习，用 1/167 的参数量在 MiniF2F 定理证明赛上以 86.1% 力压 DeepSeek-Prover-V2。通勤两分半，听懂「以巧破力」的学术逆袭。

0:00 / 2:26