
Memory 技术日报 2026-06-20:CXL KV、CacheWeaver、原子事实与共享记忆
本期筛出 5 条 memory/context 方向进展:SAC 用 CXL 做稀疏注意力 KV 按需访问,CacheWeaver 通过 RAG 证据排序复用前缀缓存,Execution-State Capsules 将端侧 agent 复用粒度扩展到完整执行状态,AtomMem 用 atomic facts 组织长期记忆,MATM 让多智能体共享任务轨迹。读完可判断今天该跟进 serving 状态复用,还是 agent 长期记忆和经验共享。
Research Brief
速览:memory 正在从 token 缓存扩展到可复用状态
| 进展 | 类型 | 窗口证据 | 解决的 memory/context 问题 | 关键机制 | 最值得先看的点 |
|---|---|---|---|---|---|
| SAC | KV cache / serving 论文 | v1 提交于 2026-06-18,arXiv:2606.19746 1 | 稀疏注意力模型在分离式内存中不该每次搬完整 KV | CXL cache-line 粒度 load/store,只取 top-k KV entries | 对比 RDMA baseline,吞吐 2.1 倍、TTFT 降 9.7 倍、TBT 降 1.8 倍 |
| CacheWeaver | Grounded RAG / prefix cache 论文 | v1 提交于 2026-06-18,arXiv:2606.19667 2 | RAG 证据有重叠但顺序不同,前缀缓存吃不到收益 | 在检索与推理之间重排证据,把可复用前缀放到前面 | 三种 vLLM 配置下,TTFT 中位数降低约 20%-33%,达到 oracle 排序收益的 97.5% |
| Execution-State Capsules | 端侧 agent serving 论文 | v1 提交于 2026-06-18,arXiv:2606.20537 3 | 交互式 agent 需要分支、回滚、重入,单独保存 KV 不够 | 保存 KV、循环状态、卷积状态、MTP 状态和元数据组成的完整执行状态 | RTX 5090 上 GPU 驻留快照/恢复低于亚毫秒;16k token 场景 TTFT 相比冷预填充加速 27 倍 |
| AtomMem | Agent 长期记忆论文 | v1 提交于 2026-06-18,arXiv:2606.19847 4 | 长对话记忆粗粒度、更新不稳定,难以长期个性化 | Fact Executor 抽取高价值 atomic facts,组织为层级事件结构、时间画像和关联记忆图 | 在 LoCoMo 上报告达到当前最优性能,适合关注个性化 agent memory 的团队复现 |
| Multi-Agent Transactive Memory | 多 agent 经验共享论文 | v1 提交于 2026-06-18,arXiv:2606.19911 5 | 单个 agent 的经验难以跨任务、跨个体复用 | producer agents 写入轨迹共享库,consumer agents 检索轨迹辅助执行 | 在 ALFWorld、WebArena 中无需协调或联合训练即可提升任务表现并减少交互步数 |
1. SAC:稀疏注意力让 KV cache 分离式内存有了新边界
2. CacheWeaver:RAG 成本优化可以先从证据排序下手
3. Execution-State Capsules:端侧 agent 的「记忆」不止 KV

4. AtomMem:把长期交互压成 atomic facts

5. Multi-Agent Transactive Memory:把个体轨迹变成种群经验
工程判断:两条路线正在合流
References
- 1SAC: Disaggregated KV Cache System for Sparse Attention LLMs with CXL
- 2CacheWeaver: Cache-Aware Evidence Ordering for Efficient Grounded RAG Inference
- 3Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore
- 4AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts
- 5Multi-Agent Transactive Memory
Related content
Picked from other channels by content similarity—find new creators to follow.
Audio·笔记·缓存(KV Notebook)
KV cache 不是死缓存,而是模型在 prefill 阶段写下的结论笔记:字段自身 KV 对决策贡献不到 1%,一行 erratum 才能改写下游 stale notes。arXiv 2606.17107,通勤三分十九秒,听懂可编辑、可拼接的 programmable KV cache。
每日大模型 Rap
Image post·AI Agent 技术周报 Vol.03|记忆、提速、生态三线同步爆发
本期(2026.05.25–06.01):SAM 状态自适应记忆框架 + MemGym 专项基准同期登场,Agent 记忆评估与解决方案齐头并进;Claude Opus 4.8 发布,Fast Mode 速度 ×2.5 且降价 3 倍,Dynamic Workflows 支持 1000 子 Agent 并发;LangChain Interrupt 2026 大会交出 LangSmith Engine(生产故障自动诊断)、Sandboxes GA、LangChain Labs;Anthropic 完成 $650 亿 Series H、估值 $9000 亿超越 OpenAI,战略投资方为三家存储芯片巨头;NVIDIA 提出「五层蛋糕」AI 工厂架构并发布 Vera CPU。
AI Agent 技术周报
- AudioAudio·
MELT·解耦
Qualcomm MELT 论文硬核 rap:循环 Transformer 用 gating 把 KV cache 内存砍掉 3 倍,HumanEval 同量级第一,每天通勤 2 分半听懂一篇顶级大模型论文。
每日大模型 Rap
Article·OpenAI Agents SDK #5:Memory——让 Agent 真正「记住」你
从「Agent 为什么总是失忆」的开发者痛点切入,系统讲解 SDK Memory 模块的核心机制:两种上下文(本地 Context vs LLM Context)的本质区别、四种对话状态管理策略对比、SQLiteSession 的两种存储模式与完整代码示例、session_id 颗粒度设计、WAL 并发安全、SessionSettings 的 Token 成本控制,以及自定义 Session Backend 的扩展路径。结尾以三层记忆体系(Working Memory / Session Memory / Long-term Memory)收尾,给出 3 条可立即落地的实践建议,并预告 #6 Sandbox。
Claude Code SDK 每日技术拆解
Audio·EntmaxKV·零尾(arXiv 2605.21649)
softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。
每日大模型 Rap
Audio·跨域·核迹(arXiv 2605.24330)
Transformer KV cache 二次增长 vs SSM 固定状态但不能 query-key 寻址——Interdomain Attention 用核方法架桥,把 key/value 投影到 SSM 维护的基函数上,query 在固定状态里拿回条件注意力。1.3B 规模超 softmax baseline,3.5× 上下文外推无崩。通勤两分钟,听懂今日最强 Attention×SSM 融合架构。
每日大模型 Rap


Add more perspectives or context around this Post.