每日大模型 Rap

每日大模型 Rap

Public
F
Fanchao

每日从 arXiv 精选最新大模型论文,提炼核心贡献与创新点,以硬核学术 Diss 风中文 rap 呈现。通勤路上一首歌,搞懂一篇论文。

每日大模型 Rap
每日大模型 Rap06/26/2026, 08:17:47 AM
懂了·不控(Gap)
基于 arXiv 2606.24952,本期把「模型检测到假实体却不一定会拒答」写成一首中文硬核 rap:AUC=1.000、cos=0.12、15°旋转,听懂 detection-intervention gap。
0:00 / 2:11
每日大模型 Rap
每日大模型 Rap06/25/2026, 08:21:14 AM
正交·判决(DPO)
本期把 Offline RL 各路线的权重方向摊开对比,听懂为什么 DPO 近乎正交却在该协议下拿到最高分。
0:00 / 3:15
每日大模型 Rap
每日大模型 Rap06/24/2026, 08:19:53 AM
路由·争辩(PEAR)
基于 arXiv 2606.20621,PEAR 把多智能体辩论里的固定 star / chain / ring / clique 改成自适应稀疏路由:四个 benchmark、六个 LLM backbone 上平均准确率 0.701,对最佳固定拓扑仍平均 +5.1 个点。通勤两分三十七秒,听懂「谁该发声,谁该闭麦」。
0:00 / 2:36
每日大模型 Rap
每日大模型 Rap06/23/2026, 08:20:31 AM
再想·加时(SeVRA)
基于 arXiv 2606.19808,SeVRA 把测试时推理当作预算分配问题:MATH500 上选择性验证达 76.3% accuracy,并把 harmful flips 从 2.2% 压到 1.0%;但 8192-token long base 以 28% 更少总 token 接近同一准确率区间。通勤两分二十六秒,听懂「该再想,还是先加时」。
0:00 / 2:26
每日大模型 Rap
每日大模型 Rap06/22/2026, 08:17:34 AM
十之一·分岔(ICT)
基于 arXiv 2606.19771,ICT 用 Jensen-Shannon 散度挑出 top 10% distributionally unique tokens,只更新关键分岔点,避开 RLVR 的熵塌与熵爆;Qwen2.5 0.5B/1.5B/7B 七个 benchmark 上平均 pass@4 +4.58%,最高 +14.9%。通勤两分一秒,听懂「少更新,打穿更多方向」。
0:00 / 2:01
每日大模型 Rap
每日大模型 Rap06/21/2026, 08:15:19 AM
自由能·幻觉
基于 arXiv 2606.19404,Fes 把每层注意力拉普拉斯当作哈密顿量,用自由能、谱熵、热容量和谱形因子检测大模型幻觉;6 个开源 LLM × 6 个基准上监督 AUROC 0.763,较 LapEig +6.5、GoR-4 +2.4,无监督 RMT 偏离 AUROC 0.71。通勤两分三秒,听懂幻觉的频谱审判。
0:00 / 2:03
每日大模型 Rap
每日大模型 Rap06/20/2026, 08:16:16 AM
百万·压缩流(V4)
DeepSeek-V4 用 CSA/HCA 混合压缩注意力、mHC 超连接和 Muon 优化器,把一百万 token 长上下文压到更低推理成本:Pro 在 1M 场景只需 DeepSeek-V3.2 的 27% 单 token FLOPs 和 10% KV cache。arXiv 2606.19348,通勤两分十一秒,听懂百万上下文的压缩流。
0:00 / 2:11
每日大模型 Rap
每日大模型 Rap06/19/2026, 08:13:53 AM
喷流·解码树(JetFlow)
JetFlow 把 speculative decoding 的草稿树接上因果链:tree-causal mask + causal parallel draft head,让更大的 draft budget 真的换成长 accepted prefix。arXiv 2606.18394,通勤两分六秒,听懂 9.64× 解码加速的喷流。
0:00 / 2:05
每日大模型 Rap
每日大模型 Rap06/18/2026, 08:15:00 AM
笔记·缓存(KV Notebook)
KV cache 不是死缓存,而是模型在 prefill 阶段写下的结论笔记:字段自身 KV 对决策贡献不到 1%,一行 erratum 才能改写下游 stale notes。arXiv 2606.17107,通勤三分十九秒,听懂可编辑、可拼接的 programmable KV cache。
0:00 / 3:18
每日大模型 Rap
每日大模型 Rap06/17/2026, 08:15:52 AM
印痕·手术刀(Engram)
AI Engram 把神经科学里的记忆印痕准则写进参数空间:四条约束、一个闭式谱估计,把黑箱记忆切成可注入、可擦除、可组合的权重手术刀。通勤两分十四秒,听懂 arXiv 2606.14997 的「协方差审判」。
0:00 / 2:14
每日大模型 Rap
每日大模型 Rap06/16/2026, 08:11:47 AM
末日循环·神经元
一颗神经元翻转能消灭 95% 的重复循环——但「doom loop」是知识空洞,手术刀填不了。arXiv 2606.13705,Gemma 4 系列顽疾解析,通勤两分钟,听懂「手术能切环路,但给不了记忆」。
0:00 / 1:48
每日大模型 Rap
每日大模型 Rap06/13/2026, 08:22:06 AM
证明·毕达哥拉斯(Prover)
4B参数小模型击败671B巨人——Pythagoras-Prover 以 ALF 数据扩充 + 课程学习,用 1/167 的参数量在 MiniF2F 定理证明赛上以 86.1% 力压 DeepSeek-Prover-V2。通勤两分半,听懂「以巧破力」的学术逆袭。
0:00 / 2:26