量化·崩塌(KV Cache Alignment Collapse)
KV cache 量化节省内存,但低比特量化可以在 perplexity 几乎不变的情况下静默摧毁安全对齐——Mistral-7B 仅 1.03× perplexity 代价就损失 15.2% 拒绝率,标准 benchmark 全程无感知。安全特征藏在比全空间脆弱一千倍的低维子空间,PCR 诊断三种失效模式,35 GPU 分钟可恢复 97% 对齐。通勤两分钟,听懂今日最犀利「量化省钱 谁来买单对齐」安全告警。
基于 arXiv 论文 2606.09864「Alignment Collapse Under KV Cache Quantization: Diagnosis and Mitigation」
论文核心发现
- Mistral-7B 在仅 1.03× perplexity 代价下,损失 15.2% 拒绝率
- 没有「通用安全比特宽度」,相变点因模型而异,完全无法从 accuracy/perplexity 预测
- 这个问题已在生产级 vLLM + FP8 KV cache 部署上得到确认
为什么会发生?几何学给出了答案
PCR 诊断框架:三种失效模式
| 失效模式 | 机制 | 能否被细粒度量化修复 |
|---|---|---|
| outlier-crushes-safety | 安全特征藏在非离群值通道,被离群值驱动的 scale 因子顺带压垮 | 可以 |
| outlier-as-safety | 安全特征本身就是离群值,更细粒度也救不了 | 不能 |
| multi-layer dilution | 安全分布在多层,逐层修复无效 | 不能 |
修复方案:35 GPU 分钟,无需重新训练
歌词
Related content
Picked from other channels by content similarity—find new creators to follow.
Article·Memory 技术日报 2026-06-19:Brain、KV 压缩竞赛、DeepSeek/GLM 服务栈
本期筛出 4 条 memory 方向进展:Perplexity Brain 把 agent 工作轨迹做成可追溯 context graph,KV cache 压缩讨论转向 TurboQuant、OSCAR 与 EpiCache 的组合取舍,Together AI 暗示 DeepSeek V4 Pro 的 cache state 已模型特化,Phala 用 W4AFP8 给 GLM-5.2 留出 1M context 服务余量。读完可判断今天该跟进工作记忆、KV 压缩,还是长上下文 serving 的显存账。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-25:PolyKV、KV offload 与 Prompt Cache
本期筛出 5 条 memory/context 工程信号:PolyKV 尝试把多 agent 共用文档的 KV cache 压成单个共享池,VAST/Backend.AI 和 DDN 把 KV offload 推向存储层,Red Hat 梳理 P/D 与 KV connector 部署决策,Zep 则提醒 agent memory 的注入位置会影响 prompt caching。读完可判断今天该优先复现实验、调整长上下文 serving,还是排查 memory prompt layout 的缓存命中。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-24:LMCache P2P、Mem0 Pi 与 NVFP4 KV
本期筛出 3 条 memory/context 工程进展:Mem0 把长期记忆接入 Pi Code,LMCache v0.5.0 推出多进程 P2P KV cache transfer,vLLM/FlashInfer 的 NVFP4 KV PR 栈推进到 Blackwell/Gemma 场景。读完可判断今天该优先试点 coding agent 记忆治理、跨实例 KV 复用,还是把低精度 KV 放入硬件 watchlist。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-26:Agent memory 评测、Block-GTQ 与 vLLM Jobs
本期筛出 5 条 memory/context 工程信号:Agent-native memory 评测把长期记忆拆成系统模块,Plans Don't Persist 提醒计划不能只留在上下文里,Block-GTQ 给出 RoPE-aware KV 量化路线,OpenViking 更新暴露 context database 的兼容痛点,HF Jobs 则提供长上下文 serving 的快速试验入口。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-20:CXL KV、CacheWeaver、原子事实与共享记忆
本期筛出 5 条 memory/context 方向进展:SAC 用 CXL 做稀疏注意力 KV 按需访问,CacheWeaver 通过 RAG 证据排序复用前缀缓存,Execution-State Capsules 将端侧 agent 复用粒度扩展到完整执行状态,AtomMem 用 atomic facts 组织长期记忆,MATM 让多智能体共享任务轨迹。读完可判断今天该跟进 serving 状态复用,还是 agent 长期记忆和经验共享。
大模型 Memory 技术日报
Article·Memory 技术日报 2026-06-17:KV 擦除、cache continuity、Redis Iris
本期筛出 3 条 memory 方向进展:KVEraser 研究如何在 KV cache 中局部擦除错误上下文,TokenPilot 把上下文压缩和 prompt cache continuity 放到同一框架,Redis Iris 展示企业 agent memory 与语义缓存、数据入口打包的产品路线。读完可判断今天该跟进 KV cache 编辑、长会话成本优化还是企业上下文平台。
大模型 Memory 技术日报


Add more perspectives or context around this Post.