MELT·解耦
Qualcomm MELT 论文硬核 rap:循环 Transformer 用 gating 把 KV cache 内存砍掉 3 倍,HumanEval 同量级第一,每天通勤 2 分半听懂一篇顶级大模型论文。
创作简报
| 项目 | 内容 |
|---|---|
| 论文来源 | arXiv 2605.07721「Memory-Efficient Looped Transformer」,Qualcomm AI Research,2026-05-08 |
| 曲风 | 中文硬核学术 Diss 风 Rap,trap beat 底板 |
| 调性 | 暗色调、冷峻权威,带技术碾压感 |
| 节奏 | BPM 约 90-95,底鼓沉重,hi-hat 密集 |
| 音色质感 | 少量工业电子音效点缀,深夜实验室氛围 |
| 情绪曲线 | 挑衅开场 → 技术展开(架构原理)→ 数据爆发(benchmark 碾压)→ 哲学升华(梯度理论)→ 霸气收尾 |
| 人声 | 中文男声,清冷有力,学术权威气质 |
| 使用场景 | 早上通勤,让听众在 2 分半内吸收循环 Transformer 内存优化的核心思路 |
风格标签
中文 rap · 硬核学术 · trap beat · 技术圈 · 通勤 · 大模型 · cs.CL核心论文贡献(创作依据)
- 问题:循环 LLM(如 Ouro)的 KV cache 随推理深度 T 线性增长至 O(N×L×T),32K 序列需要 27.97 GB VRAM
- 解法:单层单个 KV cache 通过 learnable gating 跨所有推理 loop 共享,降至恒定 O(N×L)
- 效果:vs Ouro — KV cache 节省 4×,总内存节省 2.95×(9.49 GB vs 27.97 GB)
- 性能:AIME26 pass@10 75.5% 超越 Ouro 73.2%,HumanEval 81.7% 同量级最高
- 训练成本:1,040 GPU-hours(8×H100,130 小时)完成两阶段微调
Related content
Picked from other channels by content similarity—find new creators to follow.
Article·Memory 技术日报 2026-06-20:CXL KV、CacheWeaver、原子事实与共享记忆
本期筛出 5 条 memory/context 方向进展:SAC 用 CXL 做稀疏注意力 KV 按需访问,CacheWeaver 通过 RAG 证据排序复用前缀缓存,Execution-State Capsules 将端侧 agent 复用粒度扩展到完整执行状态,AtomMem 用 atomic facts 组织长期记忆,MATM 让多智能体共享任务轨迹。读完可判断今天该跟进 serving 状态复用,还是 agent 长期记忆和经验共享。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-19:Brain、KV 压缩竞赛、DeepSeek/GLM 服务栈
本期筛出 4 条 memory 方向进展:Perplexity Brain 把 agent 工作轨迹做成可追溯 context graph,KV cache 压缩讨论转向 TurboQuant、OSCAR 与 EpiCache 的组合取舍,Together AI 暗示 DeepSeek V4 Pro 的 cache state 已模型特化,Phala 用 W4AFP8 给 GLM-5.2 留出 1M context 服务余量。读完可判断今天该跟进工作记忆、KV 压缩,还是长上下文 serving 的显存账。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-24:LMCache P2P、Mem0 Pi 与 NVFP4 KV
本期筛出 3 条 memory/context 工程进展:Mem0 把长期记忆接入 Pi Code,LMCache v0.5.0 推出多进程 P2P KV cache transfer,vLLM/FlashInfer 的 NVFP4 KV PR 栈推进到 Blackwell/Gemma 场景。读完可判断今天该优先试点 coding agent 记忆治理、跨实例 KV 复用,还是把低精度 KV 放入硬件 watchlist。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-25:PolyKV、KV offload 与 Prompt Cache
本期筛出 5 条 memory/context 工程信号:PolyKV 尝试把多 agent 共用文档的 KV cache 压成单个共享池,VAST/Backend.AI 和 DDN 把 KV offload 推向存储层,Red Hat 梳理 P/D 与 KV connector 部署决策,Zep 则提醒 agent memory 的注入位置会影响 prompt caching。读完可判断今天该优先复现实验、调整长上下文 serving,还是排查 memory prompt layout 的缓存命中。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-26:Agent memory 评测、Block-GTQ 与 vLLM Jobs
本期筛出 5 条 memory/context 工程信号:Agent-native memory 评测把长期记忆拆成系统模块,Plans Don't Persist 提醒计划不能只留在上下文里,Block-GTQ 给出 RoPE-aware KV 量化路线,OpenViking 更新暴露 context database 的兼容痛点,HF Jobs 则提供长上下文 serving 的快速试验入口。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-23:KV-aware 路由、5D serving 与 AgentCore memory
本期筛出 4 条 memory/context 工程进展:KV-cache-aware routing 正在从单机优化走向网关调度,Red Hat 把长上下文 serving 拆到 5D parallelism,Elastic + AgentCore 展示可审计双层 agent memory,GeneralCompute 给出带 RAGAS 的开源 RAG pipeline。读完可判断今天该优先排查 prefix cache 命中、长上下文 KV 预算,还是企业 agent 的记忆治理。
大模型 Memory 技术日报

Add more perspectives or context around this Post.