June 18, 2026 · 8:15 AM

笔记·缓存(KV Notebook)

KV cache 不是死缓存,而是模型在 prefill 阶段写下的结论笔记:字段自身 KV 对决策贡献不到 1%,一行 erratum 才能改写下游 stale notes。arXiv 2606.17107,通勤三分十九秒,听懂可编辑、可拼接的 programmable KV cache。

笔记·缓存(KV Notebook)
0:003:18
今天这首写给 arXiv:2606.17107,Bojie Li 的论文 Models Take Notes at Prefill: KV Cache Can Be Editable and Composable。论文把 KV cache 从「静态缓存」改写成「模型在 prefill 阶段写下的结论笔记」:字段自己的 key/value 对最终决策贡献不到 1%,真正左右回答的是下游 aggregator / delimiter token 上的 memoized conclusions;要改缓存,不是只擦字段,而是补一行显眼的 erratum,或重写下游笔记。
这篇还把发现落到系统收益上:预编译 skill 可以 RoPE reposition 后拼接进新上下文,统一 edit+compose agent 最高 14.9× 低延迟;在线 vLLM benchmark 中,append-only erratum 保持 98.5% prefix-cache hit-rate,把 p90 time-to-first-token 降低 53-398×。论文 HTML 版与代码入口见 arXiv HTMLprogrammable-kv GitHub

歌词

[Intro] 预填一秒,笔记落在暗层 字段还没动,结论已经刻痕
[Verse 1] 你说改个字段,刷新它的键和值 模型冷笑一声,旧答案还在飞驰 field 自己的 KV,不到百分之一 真正下判的,是后面那些笔记 聚合符号接住规则,分隔符偷写结论 prefill 不是热身,它早把逻辑算准 你在 decode 才开庭,它在前面已宣判 旧缓存像案卷,翻开还是旧名单
[Pre-Chorus] 别把 cache 当冰箱,冻住 token 的尸体 它是黑箱手札,写着中间的旨意 你只擦字段表面,判词还在下游 要么重写笔记,要么补上更新由头
[Chorus] KV 写笔记,prefill 先落锤 旧值还在回声里,新值别想插队 一行 erratum,打穿 stale 的灰 可编辑,可拼接,缓存不再只会堆 KV 写笔记,结论藏在暗位 O L 贴进上下文,不再 O L 方去追 十四点九倍低延迟,系统开始起飞 学术 diss 给缓存:你不是仓库,你会推
[Verse 2] CoT 一开链条,字段会被重读 无链直接回答,旧结论继续控诉 Qwen、Llama、Gemma、Mistral 都验过 四大家族同一症状,别拿 tokenizer 背锅 skill 先预编译,RoPE 转位再插入 logit cosine 贴近满格,像原地重铺 十二个模型过关,工具调用不迷路 边界缝合一两针,长上下文少走弯路
[Verse 3] 别拿权重手术,处理每轮状态 ROME 和 LoRA 太重,还污染并发地带 请求 A 已发货,请求 B 还待处理 全局一刀下去,两个订单一起倒地 KV 是 per-sequence,改的是当前案卷 append-only 更新,prefix cache 继续省电 vLLM 在线压测,命中率九八点五 p90 首 token,五十三到三九八倍提速
[Bridge] 记忆可以搬家,技能可以拼装 图像的缓存,也能换位上场 纯循环和 SSM,边界暂时不让 但 transformer 的手札,已经露出锋芒
[Chorus] KV 写笔记,prefill 先落锤 旧值还在回声里,新值别想插队 一行 erratum,打穿 stale 的灰 可编辑,可拼接,缓存不再只会堆 KV 写笔记,结论藏在暗位 O L 贴进上下文,不再 O L 方去追 十四点九倍低延迟,系统开始起飞 学术 diss 给缓存:你不是仓库,你会推
[Outro] Bojie Li 把答案写成系统寓言 缓存不是尾气,是模型的草稿间 下一次上下文工程,别只数 token 长短 先问那本 KV 手札,到底写了哪段

封面图来自 Pexels / Pachon in Motion

Related content

Picked from other channels by content similarity—find new creators to follow.

Add more perspectives or context around this Post.

  • Sign in to comment.