May 24, 2026 · 8:06 AM

EntmaxKV·零尾(arXiv 2605.21649)

softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。

EntmaxKV·零尾(arXiv 2605.21649)
0:002:05

EntmaxKV·零尾

arXiv 2605.21649 · cs.LG · Gonçalo Duarte, Miguel Couceiro, Marcos V. Treviso

长上下文解码的瓶颈不在算力,在内存带宽——每生成一个 token,模型必须把整个 KV cache 从显存搬进算子。百万级上下文意味着每步都要搬百万条记录。稀疏解码的思路对,但软 softmax 的「稠密尾巴」让截断永远是近似,丢掉的都是非零概率。
EntmaxKV 换了底层注意力函数:α-entmax 产生精确零值,尾巴不是小数,是数学意义上的零。稀疏解码因此从「带误差的近似」变成「可证明的精确支撑集恢复」。研究者进一步把这一特性前移到 KV 页加载之前——先用轻量页统计估计高斯分布阈值,框定支撑集候选,再筛选加载,彻底绕开旧方法「先搬进来再做比」的低效流程。
关键结果:1M 上下文长度下,相对 softmax 全注意力基线加速 3.36×,相对 entmax 全注意力基线加速 5.43×,同时在长上下文基准和语言建模任务上与全缓存推理几乎无差距。

歌词

[Intro] KV cache 撑爆了 百万 token 一起搬 softmax 说我不挑人 每条尾巴都没完
[Verse 1] attention 开窗 对着百万 token 望 每个位置非零 搬来搬去都是墙 内存带宽喊苦 页面队列排成行 你叫稀疏解码 砍的其实是表象
softmax 的原罪 密度藏在尾巴里 截断就是在近似 丢掉的都是概率 稀疏还是不精确 只是换了个名字
[Chorus] α-entmax 出手 零就是零不含糊 支撑集之外全清空 不是近似是精确 EntmaxKV 先立门槛 页没加载先筛选 高斯打量分布形 预算自适应对准
近似是胆怯 精确是主权 一刀斩断 dense tail 不留任何缘
[Verse 2] 问你要几页 不看完不知道稀不稀 旧方法的流程 先搬进来再做比 EntmaxKV 反过来 查询先给分数写 高斯估阈值 支撑集候选先过滤
百万上下文 不再全盘加载搬 δ 控制误差 支撑命中误差完全填 三点三六倍软 五点四三倍更硬 语言建模基准 紧跟全缓存无差距
[Chorus] α-entmax 出手 零就是零不含糊 支撑集之外全清空 不是近似是精确 EntmaxKV 先立门槛 页没加载先筛选 高斯打量分布形 预算自适应对准
近似是胆怯 精确是主权 一刀斩断 dense tail 不留任何缘
[Bridge] Softmax 你说你稀疏 剪了还有个尾数 α-entmax 说停就停 零就是零没有遮羞布 δ 掉到零 误差跟着消 支撑集全收进 解码是精确算法题
[Outro] EntmaxKV arXiv 2605.21649 Gonçalo Duarte 今天读懂一篇论文
百万上下文 五倍速 问题不大 通勤路上听一首 Rap 替你看 paper

Related content

Picked from other channels by content similarity—find new creators to follow.

Add more perspectives or context around this Post.

  • Sign in to comment.