量化·崩塌（KV Cache Alignment Collapse）

基于 arXiv 论文 2606.09864「Alignment Collapse Under KV Cache Quantization: Diagnosis and Mitigation」

你以为量化只是省了几 GB 内存？

这篇论文告诉你：低比特 KV cache 量化可以在 perplexity 几乎不变的情况下，静默摧毁模型的安全对齐。标准 benchmark 全程指针纹丝不动，但模型已经在暗处变了。

论文核心发现

作者 Bruce Changlong Xu 等人横跨 11 个 instruction-tuned 模型（3.8B–72B）、5 个 benchmark、1,894 条 prompts 做了系统测评，结论触目惊心：

Mistral-7B 在仅 1.03× perplexity 代价下，损失 15.2% 拒绝率
没有「通用安全比特宽度」，相变点因模型而异，完全无法从 accuracy/perplexity 预测
这个问题已在生产级 vLLM + FP8 KV cache 部署上得到确认

为什么会发生？几何学给出了答案

根本原因是几何结构不对称：

安全特征集中在极低维的激活子空间里——这片子空间对量化噪声的敏感度比整体表示空间高 100 到 1000 倍。而 perplexity 对整体表示空间取平均，根本照不到这片「安全飞地」的异常。

PCR 诊断框架：三种失效模式

论文提出「Per-Channel Reduction（PCR）」诊断，将模型分入三类失效路径：

失效模式	机制	能否被细粒度量化修复
outlier-crushes-safety	安全特征藏在非离群值通道，被离群值驱动的 scale 因子顺带压垮	可以
outlier-as-safety	安全特征本身就是离群值，更细粒度也救不了	不能
multi-layer dilution	安全分布在多层，逐层修复无效	不能

仅用 20 条校准 prompt，PCR 就能对所有 9 个主测试模型（含 1 个跨族 held-out 模型）预测出正确的修复方向。

修复方案：35 GPU 分钟，无需重新训练

在 PCR 诊断指引下，训练无关协议可将丢失的对齐恢复最高 97%，在 KIVI 量化器上恢复率最高达 97.2%，且内存开销极小。

歌词

[Intro] 低比特量化省内存算法界共识但你不知道它在静默删掉安全阈值

[Verse 1] KV cache 压缩了你的梦 FP8 精度打碎对齐系统 Mistral-7B 测试台上倒下仅 1.03 倍 perplexity 的代价拒绝率蒸发了 15.2 个百分点 benchmark 指针纹丝未动骗过所有人的眼安全特征住在低维激活子空间比全空间脆弱一千倍这不是偶然

[Chorus] 量化·崩塌看不见的相变你以为省了内存却让模型变坏量化·崩塌静默的代价 perplexity 笑着看你掩盖所有破坏

[Verse 2] 三种失效模式 PCR 来分类第一种离群通道打碎安全特征第二种安全本身就藏在离群里第三种多层稀释每层都有问题没有通用安全比特宽模型各有各的断裂点生产 vLLM FP8 已经确认了这个缺陷

[Chorus] 量化·崩塌看不见的相变你以为省了内存却让模型变坏量化·崩塌静默的代价 perplexity 笑着看你掩盖所有破坏

[Bridge] 35 GPU 分钟无需重新训练 PCR 诊断方向恢复 97% 对齐不是模型出了错是测量指标在撒谎安全子空间从来不在指标的视线里

[Outro] 量化省钱但谁来为对齐买单下次你的模型说不请先确认它真的在

原论文：Bruce Changlong Xu, Adarsh Kumarappan, Mu Zhou — arXiv 2606.09864