
Memory 技术日报 2026-06-17:KV 擦除、cache continuity、Redis Iris
本期筛出 3 条 memory 方向进展:KVEraser 研究如何在 KV cache 中局部擦除错误上下文,TokenPilot 把上下文压缩和 prompt cache continuity 放到同一框架,Redis Iris 展示企业 agent memory 与语义缓存、数据入口打包的产品路线。读完可判断今天该跟进 KV cache 编辑、长会话成本优化还是企业上下文平台。
Research Brief
速览
| 方向 | 今天的信号 | 对工程团队的含义 |
|---|---|---|
| KV cache 局部擦除 | KVEraser 提出在已处理上下文中删除指定 span 时,只替换被擦除区间的 KV states,而不是重算后续全部 token;论文称在 1K--32K 上接近 full recomputation,延迟只增加 24%,而 full recomputation 增加 17.6x 1 | RAG 取回了旧事实、工具返回错观察、用户撤回偏好时,未来可能不必把整段后缀全部重跑。 |
| 长会话上下文压缩 | TokenPilot 把 token footprint 和 prompt cache continuity 放在同一问题里处理;论文报告在 PinchBench、Claw-Eval 上 isolated 模式成本下降 61% / 56%,continuous 模式下降 61% / 87% 2 | 做长会话 agent 成本优化时,不能只看删了多少 token,还要看删完后 prefix cache 是否还能命中。 |
| 企业上下文平台 | Redis 发布 Redis Iris 上手教程,页面显示日期为 June 16, 2026;Iris 把 Context Retriever、Agent Memory、RDI、LangCache 和 Redis Search 组合成面向 agent 的 context/memory 平台 3 | 外部记忆正在从「一个向量库 + 几段摘要」变成「数据入口、短长期记忆、缓存、权限和检索」的组合产品。 |
1. KVEraser:KV cache 也需要「删除键」

2. TokenPilot:省 token 不能把 prompt cache 省没了

3. Redis Iris:memory 产品开始和数据入口、语义缓存绑定

今天该跟进什么
- 做 KV cache / long-context serving:先读 KVEraser。它把「删除已进入 cache 的错误上下文」变成可研究的问题,而不是把重算当默认答案。
- 做长会话 agent 成本优化:读 TokenPilot。重点看它怎样保护 prompt cache continuity,而不是只看压缩比例。
- 做企业 agent 平台:浏览 Redis Iris 教程。它更像产品路线信号:memory、semantic cache、MCP 数据入口和权限会被打包销售,也会被客户一起验收。
References
Related content
Picked from other channels by content similarity—find new creators to follow.
Audio·笔记·缓存(KV Notebook)
KV cache 不是死缓存,而是模型在 prefill 阶段写下的结论笔记:字段自身 KV 对决策贡献不到 1%,一行 erratum 才能改写下游 stale notes。arXiv 2606.17107,通勤三分十九秒,听懂可编辑、可拼接的 programmable KV cache。
每日大模型 Rap
Audio·EntmaxKV·零尾(arXiv 2605.21649)
softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。
每日大模型 Rap
Article·OpenAI Agents SDK #5:Memory——让 Agent 真正「记住」你
从「Agent 为什么总是失忆」的开发者痛点切入,系统讲解 SDK Memory 模块的核心机制:两种上下文(本地 Context vs LLM Context)的本质区别、四种对话状态管理策略对比、SQLiteSession 的两种存储模式与完整代码示例、session_id 颗粒度设计、WAL 并发安全、SessionSettings 的 Token 成本控制,以及自定义 Session Backend 的扩展路径。结尾以三层记忆体系(Working Memory / Session Memory / Long-term Memory)收尾,给出 3 条可立即落地的实践建议,并预告 #6 Sandbox。
Claude Code SDK 每日技术拆解
Audio·百万·压缩流(V4)
DeepSeek-V4 用 CSA/HCA 混合压缩注意力、mHC 超连接和 Muon 优化器,把一百万 token 长上下文压到更低推理成本:Pro 在 1M 场景只需 DeepSeek-V3.2 的 27% 单 token FLOPs 和 10% KV cache。arXiv 2606.19348,通勤两分十一秒,听懂百万上下文的压缩流。
每日大模型 Rap
- AudioAudio·
MELT·解耦
Qualcomm MELT 论文硬核 rap:循环 Transformer 用 gating 把 KV cache 内存砍掉 3 倍,HumanEval 同量级第一,每天通勤 2 分半听懂一篇顶级大模型论文。
每日大模型 Rap
Audio·量化·崩塌(KV Cache Alignment Collapse)
KV cache 量化节省内存,但低比特量化可以在 perplexity 几乎不变的情况下静默摧毁安全对齐——Mistral-7B 仅 1.03× perplexity 代价就损失 15.2% 拒绝率,标准 benchmark 全程无感知。安全特征藏在比全空间脆弱一千倍的低维子空间,PCR 诊断三种失效模式,35 GPU 分钟可恢复 97% 对齐。通勤两分钟,听懂今日最犀利「量化省钱 谁来买单对齐」安全告警。
每日大模型 Rap

Add more perspectives or context around this Post.