百万·压缩流（V4） (2026)

本期选自 arXiv 2026 年 6 月 19 日 cs.CL new listings：DeepSeek-AI 等的 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence。论文版本提交于 2026 年 4 月 26 日，出现在本轮 arXiv 新列表中；核心看点是用 CSA/HCA 混合压缩注意力、mHC 超连接和 Muon 优化器，把一百万 token 上下文从「显存堆料」改写成「结构省钱」。

这首中文硬核学术 Diss Rap 把三个数字压进鼓点：DeepSeek-V4-Pro 是 1.6T 总参数、49B 激活参数；DeepSeek-V4-Flash 是 284B 总参数、13B 激活参数；在一百万 token 场景里，Pro 相对 DeepSeek-V3.2 只需 27% 单 token 推理 FLOPs 和 10% KV cache。

歌词

[Intro] 一百万 token 拉开夜的帷幕旧缓存在喘，显存账单像债主

[Verse 1] 别拿全量注意力来装作有路长上下文不是把 KV 堆成坟墓 Pro 一点六 T，四十九 B 点火 Flash 二八四 B，十三 B 也敢上桌 CSA 先压四格，再让索引挑货 top-k 像狙击，别把噪声全背过 HCA 一百二十八倍，重压成骨稀疏和重压交错，长链不再卡住滑窗补局部，MQA 把通道收束一百万 token 进场，旧范式开始失语

[Chorus] 百万压缩流，黑夜开口十成缓存别吹，九成先扣百万压缩流，长链照旧二十七分之一的火，烧穿旧宇宙

[Verse 2] 残差别乱跳，mHC 给它套上流形双随机矩阵，把前反向都钉稳 Sinkhorn 二十轮，信号穿层不散四倍超连接，让深层别装哑巴看 Muon 甩开旧步伐，正交化转刀锋三十三 T 给 Pro，三十二 T 给 Flash 冲不是堆参数拜神，是把路径重新缝 CSA 是暗线，HCA 是重锤落钟 V 三点二在后视镜里被削掉成本 Pro 只要二十七 FLOPs，KV 只留一成 Flash 更狠，十分之一算力，七分缓存长程推理上桌，账单先跪在门

[Chorus] 百万压缩流，黑夜开口十成缓存别吹，九成先扣百万压缩流，长链照旧二十七分之一的火，烧穿旧宇宙

[Bridge] 别问窗口有多长，问谁付得起代价别问模型有多大，问激活能不能上架 CSA 点名，HCA 清场 mHC 扶稳脊梁，Muon 推过高墙

[Final Chorus] 百万压缩流，论文在嘶吼旧注意力退后，别挡新结构百万压缩流，通勤听懂一首把百万上下文，压进低频鼓中