June 17, 2026 · 9:15 AM

Memory 技术日报 2026-06-17：KV 擦除、cache continuity、Redis Iris

本期筛出 3 条 memory 方向进展：KVEraser 研究如何在 KV cache 中局部擦除错误上下文，TokenPilot 把上下文压缩和 prompt cache continuity 放到同一框架，Redis Iris 展示企业 agent memory 与语义缓存、数据入口打包的产品路线。读完可判断今天该跟进 KV cache 编辑、长会话成本优化还是企业上下文平台。

大模型 Memory 技术日报 @wei

Research Brief

本期按 2026-06-16 01:00 至 2026-06-17 01:00（Asia/Shanghai）筛选。今天合格信号不多，但三条都贴近线上 memory 系统：KV cache 不只是复用对象，也开始被「定点擦除」和「不破坏 prefix cache 地压缩上下文」；产品侧则把 agent memory、语义缓存和企业数据入口打包成一套上下文平台。

速览

方向	今天的信号	对工程团队的含义
KV cache 局部擦除	KVEraser 提出在已处理上下文中删除指定 span 时，只替换被擦除区间的 KV states，而不是重算后续全部 token；论文称在 1K--32K 上接近 full recomputation，延迟只增加 24%，而 full recomputation 增加 17.6x 1	RAG 取回了旧事实、工具返回错观察、用户撤回偏好时，未来可能不必把整段后缀全部重跑。
长会话上下文压缩	TokenPilot 把 token footprint 和 prompt cache continuity 放在同一问题里处理；论文报告在 PinchBench、Claw-Eval 上 isolated 模式成本下降 61% / 56%，continuous 模式下降 61% / 87% 2	做长会话 agent 成本优化时，不能只看删了多少 token，还要看删完后 prefix cache 是否还能命中。
企业上下文平台	Redis 发布 Redis Iris 上手教程，页面显示日期为 June 16, 2026；Iris 把 Context Retriever、Agent Memory、RDI、LangCache 和 Redis Search 组合成面向 agent 的 context/memory 平台 3	外部记忆正在从「一个向量库 + 几段摘要」变成「数据入口、短长期记忆、缓存、权限和检索」的组合产品。

1. KVEraser：KV cache 也需要「删除键」

KVEraser 盯住了一个经常被工程实现绕开的场景：上下文已经 prefill 完，之后才发现中间某段应该删除。原因可能是过期检索结果、错误工具观察、用户撤回的偏好，也可能是 prompt injection。论文指出，精确删除通常要重算被删 span 之后的所有 token，因为它的影响已经传播到后续 cached states 1。

KVEraser 局部 KV 擦除示意图 — 自制示意图：KVEraser 试图只替换被删除区间的 KV states，并复用其余 cache；依据论文摘要绘制 1

它的做法不是剪文本后重跑，而是训练一个 eraser，用 learned steering states 替换被擦除区间的 KV states，其余 cache 继续复用。训练分两段：先用 span-neighbor pre-training 学会压制被删 span 的影响，再用 task-specific fine-tuning 适配下游场景 1。

工程判断：这条线适合做 retrieval-heavy agent、浏览器 agent 和客服 agent 的团队跟进。只要系统允许外部数据写进上下文，就会遇到「写进去之后才发现不该信」的问题。现在多数系统只能回滚整轮或重放后续上下文，KVEraser 给了一个更细粒度的研究方向。

2. TokenPilot：省 token 不能把 prompt cache 省没了

TokenPilot 的问题定义很像真实 agent 长会话：历史越长，推理越贵；但如果随意剪裁或动态 eviction，序列布局会改变，prefix mismatch 会让 prompt cache 失效 2。所以它不是单纯做上下文压缩，而是在「文本稀疏化」和「缓存连续性」之间做约束。

TokenPilot 双层上下文管理示意图 — 自制示意图：TokenPilot 把进入上下文前的 compaction 和会话中的 eviction 分成两层处理；依据论文摘要绘制 2

论文把框架拆成两层。全局层 Ingestion-Aware Compaction 在上下文进入前稳定 prompt prefix，并过滤开放环境噪声；局部层 Lifecycle-Aware Eviction 观察 context segment 的剩余效用，用保守的 batch-turn schedule 等任务相关性过期后再卸载内容段。作者还写到，TokenPilot 已集成到 LightMem2 2。

工程判断：如果你已经为 Claude、Gemini 或自托管模型接了 prompt caching，普通 summarization 未必是最优解。摘要让输入变短，但如果它改变了 prefix，prefill 成本可能又回来了。TokenPilot 值得作为「上下文压缩是否 cache-aware」的检查清单。

3. Redis Iris：memory 产品开始和数据入口、语义缓存绑定

Redis Iris 这篇教程不是论文，但它透露了产品侧的包装方式。页面把 Iris 定义为给 AI agents 提供 live、accurate、navigable data 的 context and memory platform，并列出五个组件：Context Retriever、Agent Memory、Redis Data Integration、LangCache、Redis Search 3。

Redis Cloud 中创建 Agent Memory 服务的界面 — Redis Iris 教程中的 Agent Memory 创建界面，用来区分 session memory 和 long-term memory 配置 3

它把三类常见工程需求放到同一个教程里：LangCache 用语义相似度复用 LLM response；Agent Memory 管理 session short-term memory 和 long-term durable memory；Context Retriever 基于业务实体语义模型生成 MCP tools，让 agent 用 scoped keys 和 row-level security 查询企业数据 3。

工程判断：如果你在企业里做 agent memory，先别急着只评估「哪个向量库召回更准」。真正难落地的部分往往是热数据如何同步、缓存如何省成本、用户记忆如何分短期和长期、agent 查询企业数据时权限怎么收口。Redis Iris 的价值在于把这些问题放到同一个控制面里。

今天该跟进什么

做 KV cache / long-context serving：先读 KVEraser。它把「删除已进入 cache 的错误上下文」变成可研究的问题，而不是把重算当默认答案。
做长会话 agent 成本优化：读 TokenPilot。重点看它怎样保护 prompt cache continuity，而不是只看压缩比例。
做企业 agent 平台：浏览 Redis Iris 教程。它更像产品路线信号：memory、semantic cache、MCP 数据入口和权限会被打包销售，也会被客户一起验收。