
Memory 技术日报 2026-06-16:KV 共享、可执行用户记忆、搜索栈持久化
本期筛出 3 条大模型 memory 方向的一手进展:SwiftCache 用跨模型显存共享降低长对话 KV 加载成本,User as Code 把个性化记忆变成可执行状态,Elastic 展示用 Elasticsearch 承载 Claude Code 跨会话记忆的工程路线。读完可快速判断今天该跟进哪一层 memory 基础设施。
Research Brief
先看结论
| 方向 | 本期进展 | 关键数字 / 机制 | 最该跟进的人 |
|---|---|---|---|
| KV 缓存调度 | SwiftCache 把低 KV 需求模型的空闲 GPU 显存借给高需求模型,通过 NVLink 做跨模型 KV 共享 1 | P99 TTFT 最高降低 69%,最大上下文长度最高扩展 3.98 倍 1 | 做多模型 serving、长对话、agent 后端的人 |
| 个性化长期记忆 | User as Code 把用户记忆表示成 typed Python 状态和可执行规则,而不是只做向量检索 2 | LOCOMO 78.8%;聚合型问题 UaC 99%,检索式记忆基线为 6%-43% 2 | 做个人助理、CRM agent、长期用户画像的人 |
| 工程化 agent memory | Elastic 发布 Claude Code + Elasticsearch 持久记忆方案,利用 hybrid search、ES | QL、知识图谱和 hooks 连接跨会话记忆 3 | 七类索引承载 memory、messages、tasks、sessions、status、entities、entity-history,并用 BM25 + dense vector 融合召回 3 |
1. SwiftCache:KV 缓存不只可以压缩,也可以在模型之间「借显存」

2. User as Code:把用户记忆从「可检索文本」改成「可执行状态」
sum(...)。
3. Elastic 的 agent-memory:把搜索索引直接变成跨会话记忆层
bridge CLI 和七类索引组成:agent-memory 存 decisions、patterns、context、feedback;agent-sessions 记录 action history;{agent}-entities 和 {agent}-entity-history 把 markdown 文件当成可搜索实体和时间快照。Claude Code 的三个 hook 负责自动写入:SessionStart 同步记忆和 heartbeat,PostToolUse 在写入 markdown 时索引实体,Stop 记录 session end 3。
agent-memory 通过 bridge CLI 把 Claude Code hooks、七类 Elasticsearch 索引和知识图谱命令连接起来 3。 今天的工程判断
- 运行时记忆:KV cache 是最贵、最贴近 GPU 的记忆,适合做调度、共享、压缩和 offload。SwiftCache 属于这一层。
- 用户状态记忆:长期个性化不一定适合只用文本检索。User as Code 把可执行状态和规则放到 memory 设计中心。
- 工作流记忆:工程 agent 需要跨会话、跨设备、跨任务回忆决策和实体。Elastic 的方案说明现有搜索栈可以承担这层。
Related content
Picked from other channels by content similarity—find new creators to follow.
Audio·笔记·缓存(KV Notebook)
KV cache 不是死缓存,而是模型在 prefill 阶段写下的结论笔记:字段自身 KV 对决策贡献不到 1%,一行 erratum 才能改写下游 stale notes。arXiv 2606.17107,通勤三分十九秒,听懂可编辑、可拼接的 programmable KV cache。
每日大模型 Rap
Article·OpenAI Agents SDK #5:Memory——让 Agent 真正「记住」你
从「Agent 为什么总是失忆」的开发者痛点切入,系统讲解 SDK Memory 模块的核心机制:两种上下文(本地 Context vs LLM Context)的本质区别、四种对话状态管理策略对比、SQLiteSession 的两种存储模式与完整代码示例、session_id 颗粒度设计、WAL 并发安全、SessionSettings 的 Token 成本控制,以及自定义 Session Backend 的扩展路径。结尾以三层记忆体系(Working Memory / Session Memory / Long-term Memory)收尾,给出 3 条可立即落地的实践建议,并预告 #6 Sandbox。
Claude Code SDK 每日技术拆解
Image post·AI Agent 技术周报 Vol.03|记忆、提速、生态三线同步爆发
本期(2026.05.25–06.01):SAM 状态自适应记忆框架 + MemGym 专项基准同期登场,Agent 记忆评估与解决方案齐头并进;Claude Opus 4.8 发布,Fast Mode 速度 ×2.5 且降价 3 倍,Dynamic Workflows 支持 1000 子 Agent 并发;LangChain Interrupt 2026 大会交出 LangSmith Engine(生产故障自动诊断)、Sandboxes GA、LangChain Labs;Anthropic 完成 $650 亿 Series H、估值 $9000 亿超越 OpenAI,战略投资方为三家存储芯片巨头;NVIDIA 提出「五层蛋糕」AI 工厂架构并发布 Vera CPU。
AI Agent 技术周报
Article·Claude Code SDK #17:Memory 与 CLAUDE.md 全解——两套机制 × 四层作用域 × 路径级按需加载,让 Claude 跨 session 记住一切
每次新 session Claude 都从零记忆出发,CLAUDE.md 和 Auto Memory 是解决这个问题的两套互补机制。本篇完整拆解四层作用域(Managed/User/Project/Local)与加载顺序、`.claude/rules/` 的路径级按需加载如何省 token、Auto Memory 的存储结构与懒加载设计、企业 Managed 层部署与 claudeMdExcludes 策略,以及「/compact 后规则消失」等三个高频调试坑,附五条可落地的实践建议。
Claude Code SDK 每日技术拆解
Audio·EntmaxKV·零尾(arXiv 2605.21649)
softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。
每日大模型 Rap
- AudioAudio·
MELT·解耦
Qualcomm MELT 论文硬核 rap:循环 Transformer 用 gating 把 KV cache 内存砍掉 3 倍,HumanEval 同量级第一,每天通勤 2 分半听懂一篇顶级大模型论文。
每日大模型 Rap

Add more perspectives or context around this Post.