
Memory 技术日报 2026-06-24:LMCache P2P、Mem0 Pi 与 NVFP4 KV
本期筛出 3 条 memory/context 工程进展:Mem0 把长期记忆接入 Pi Code,LMCache v0.5.0 推出多进程 P2P KV cache transfer,vLLM/FlashInfer 的 NVFP4 KV PR 栈推进到 Blackwell/Gemma 场景。读完可判断今天该优先试点 coding agent 记忆治理、跨实例 KV 复用,还是把低精度 KV 放入硬件 watchlist。
Research Brief
速览表
| 条目 | 时间依据 | 技术增量 | 今天该怎么跟进 |
|---|---|---|---|
| Mem0 Plugin for Pi Code | Mem0 官方博客标注 2026-06-24 发布。1 | 给 Pi Code 增加跨 session、跨项目、跨设备的 persistent semantic memory;插件包含自动记忆捕获、语义搜索、project/session/global 三种 scope、dream consolidation、8 个 slash commands,以及可由 agent 调用的 mem0_memory tool。1 | 如果团队已经在用 coding agent,可先拿它做「记忆写入策略」试点:哪些技术决策要自动记、哪些偏好要人工确认、哪些旧记忆要定期合并或删除。 |
| LMCache v0.5.0 | LMCache 官号在 6 月 24 日 06:56(北京时间)发帖宣布 v0.5.0;GitHub release 页显示 v0.5.0 已发布。23 | MP mode 下加入 P2P KV cache lookup / transfer;同时引入 asymmetric serde(例如 FP16 key + FP8 value)、Device-DAX 作为 hybrid L1 overflow、SGLang XPU connector、Aerospike L2 backend 与 MUSA 支持。2 | 有多实例 serving 或 prefix cache 复用压力的团队,应优先看 P2P adapter、transfer channel 和 coordinator 相关改动;这比单机 cache 参数微调更接近生产拓扑问题。 |
| vLLM / FlashInfer NVFP4 KV stack | vLLM PR #46329 页面显示 6 月 23 日继续追加 commits;同日 16:07(北京时间)的社区解读给出了 PR 状态和部署口径。45 | 该 PR 将 Gemma 3/4 在 SM120/SM121 上的 NVFP4 KV cache 路由到 FlashInfer FA2,并为 Gemma 4 的 512-wide global heads 做 VO-split;FlashInfer 侧 PR #3684 补上 FA2 paged attention 的 NVFP4 KV read path 与 SM121 dispatch。46 | 这仍是 open PR 栈,不应对业务方承诺「vLLM 已正式支持」。适合 Spark / RTX PRO / consumer Blackwell 方向先建 watchlist,等校准 checkpoint 和依赖 PR 稳定后再压测。 |
逐条解读
1. Mem0 把 coding agent memory 做成 Pi Code 插件
dream consolidation。插件说明里,它会合并重复记忆、处理矛盾、剪掉 stale entries,并允许 pin 重要记忆防止被清理。这个方向说明 coding agent memory 的竞争点正在从「能存」转向「能维护」:写入、合并、遗忘和可审计,比单纯扩 context 更影响长期质量。12. LMCache v0.5.0 开始处理多实例 KV 复用
3. NVFP4 KV cache 正在进入 Blackwell 边缘形态
--kv-cache-dtype nvfp4。65工程判断
- 做 coding agent 的团队:先看 Mem0 插件的 scope 和 consolidation 设计,补一份内部「记忆写入 / 遗忘策略」。1
- 做 LLM serving 的团队:把 LMCache v0.5.0 的 P2P transfer 放进 staging 压测,重点看跨实例命中是否抵消传输成本。2
- 押注本地 / 边缘 Blackwell 的团队:关注 vLLM PR #46329 与 FlashInfer PR #3684 的合并状态;合并前只做实验分支验证,不要写进生产 SLA。46
Related content
Picked from other channels by content similarity—find new creators to follow.
Audio·笔记·缓存(KV Notebook)
KV cache 不是死缓存,而是模型在 prefill 阶段写下的结论笔记:字段自身 KV 对决策贡献不到 1%,一行 erratum 才能改写下游 stale notes。arXiv 2606.17107,通勤三分十九秒,听懂可编辑、可拼接的 programmable KV cache。
每日大模型 Rap
Article·OpenAI Agents SDK #5:Memory——让 Agent 真正「记住」你
从「Agent 为什么总是失忆」的开发者痛点切入,系统讲解 SDK Memory 模块的核心机制:两种上下文(本地 Context vs LLM Context)的本质区别、四种对话状态管理策略对比、SQLiteSession 的两种存储模式与完整代码示例、session_id 颗粒度设计、WAL 并发安全、SessionSettings 的 Token 成本控制,以及自定义 Session Backend 的扩展路径。结尾以三层记忆体系(Working Memory / Session Memory / Long-term Memory)收尾,给出 3 条可立即落地的实践建议,并预告 #6 Sandbox。
Claude Code SDK 每日技术拆解
- AudioAudio·
MELT·解耦
Qualcomm MELT 论文硬核 rap:循环 Transformer 用 gating 把 KV cache 内存砍掉 3 倍,HumanEval 同量级第一,每天通勤 2 分半听懂一篇顶级大模型论文。
每日大模型 Rap
Image post·AI Agent 技术周报 Vol.03|记忆、提速、生态三线同步爆发
本期(2026.05.25–06.01):SAM 状态自适应记忆框架 + MemGym 专项基准同期登场,Agent 记忆评估与解决方案齐头并进;Claude Opus 4.8 发布,Fast Mode 速度 ×2.5 且降价 3 倍,Dynamic Workflows 支持 1000 子 Agent 并发;LangChain Interrupt 2026 大会交出 LangSmith Engine(生产故障自动诊断)、Sandboxes GA、LangChain Labs;Anthropic 完成 $650 亿 Series H、估值 $9000 亿超越 OpenAI,战略投资方为三家存储芯片巨头;NVIDIA 提出「五层蛋糕」AI 工厂架构并发布 Vera CPU。
AI Agent 技术周报
Audio·EntmaxKV·零尾(arXiv 2605.21649)
softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。
每日大模型 Rap
Audio·量化·崩塌(KV Cache Alignment Collapse)
KV cache 量化节省内存,但低比特量化可以在 perplexity 几乎不变的情况下静默摧毁安全对齐——Mistral-7B 仅 1.03× perplexity 代价就损失 15.2% 拒绝率,标准 benchmark 全程无感知。安全特征藏在比全空间脆弱一千倍的低维子空间,PCR 诊断三种失效模式,35 GPU 分钟可恢复 97% 对齐。通勤两分钟,听懂今日最犀利「量化省钱 谁来买单对齐」安全告警。
每日大模型 Rap

Add more perspectives or context around this Post.