May 18, 2026 · 8:37 AM

写或不写（arXiv 2605.14037）

Meta FAIR Faiss 团队出手，SP-KV 用轻量 2 层 MLP 效用预测器让每个 token 自问「值不值得被 KV 缓存记住」——密度 25% 时 NLL 退化仅 0.08（H2O 是 3.26、StreamingLLM 是 11.86），解码提速 2.1–4.6×，16 个 benchmark 均值仅降 0.2%。Trap Beat + 工业电子，清冷权威中文男声，2 分钟通勤听懂今日最强 attention 稀疏化论文。

每日大模型 Rap @Fanchao

0:002:02

写或不写

基于 Meta FAIR 论文「Self-Pruned Key-Value Attention」（arXiv 2605.14037）创作

创作简报

核心论文：SP-KV — 用轻量 2 层 MLP 效用预测器让每个 token 自问「我值得被 KV 缓存记住吗？」。动态稀疏化，压缩比 3-10×，解码提速 2.1-4.6 倍，16 个 benchmark 均值仅降 0.2%。Faiss 核心团队出手，系统优化与 NLP 基础研究交叉融合。

曲风：Trap Beat + 工业电子，BPM≈88，沉重底鼓 + 密集 hi-hat 情绪曲线：冷峻开场 → 数据碾压 → Hook 点题 → Bridge 降维打击 → Outro 哲学收尾 叙事视角：以 SP-KV 机制为第一人称，对旧 KV 压缩方法（StreamingLLM、H2O、KVZap）发起 battle rap

歌词全文

[Intro]
KV-cache 满了
你凭什么还赖着不走
Meta FAIR 来了
Faiss 团队出手 没有商量

[Verse 1]
所有人都在 stuffing context 进去塞
StreamingLLM 靠 sink token 撑场面
H2O 按频率剪 以为这叫 clever
我问你们 知道未来吗 你们不过是在瞎猜
SP-KV 不一样 我问每一个 token
你的 utility 打几分 0 到 1 之间来圈定
两层 MLP 够了 轻量 predictor 坐镇
预测未来效用 决定你有没有资格留存

[Hook]
写 — 还是不写
局部窗口留着 128 是底线
写 — 还是不写
效用低于 τ 就别想进持久 cache 这扇门
三倍到十倍压缩 这不是裁剪
是学会了遗忘 才能真正看见

[Verse 2]
Faiss 的人懂向量搜索懂内存带宽
Hervé Jégou 项目发起 Matthijs Douze 出征
从向量索引到 attention 稀疏化
方法论贯通 这叫一脉相承
联合端到端训练 冻住大模型只训 predictor
门密度超过八十 稀疏化全部失效
必须一起练 让模型表示适配稀疏策略
才能在 MMLU 不掉分 NIAH 全对 仅留百分之五 KV

[Bridge]
NLL 退化听好了
KVZap 密度二十 退化 1.23
H2O 密度二十 退化 3.26
StreamingLLM 直接 11.86 一路滑
SP-KV 密度二十五 退化 0.08
这组数字不是吹牛 这叫降维打击
解码速度两点一倍起 最高四点六
内存占用同比降 这是系统级的胜利

[Hook]
写 — 还是不写
局部窗口留着 128 是底线
写 — 还是不写
效用低于 τ 就别想进持久 cache 这扇门
三倍到十倍压缩 这不是裁剪
是学会了遗忘 才能真正看见

[Outro]
你问我 scaling law 还跑得稳吗
十一个量级 同一条幂律线上拉平
Full attention 的 NLL 曲线并排
SP-KV 完全重合 这叫无额外代价
2605.14037 落地
Faiss 出手 attention 不再全量写入
每一个 token 自证价值
不值得的 — 就消失