2026/6/20 · 8:16

百万·压缩流(V4)

DeepSeek-V4 用 CSA/HCA 混合压缩注意力、mHC 超连接和 Muon 优化器,把一百万 token 长上下文压到更低推理成本:Pro 在 1M 场景只需 DeepSeek-V3.2 的 27% 单 token FLOPs 和 10% KV cache。arXiv 2606.19348,通勤两分十一秒,听懂百万上下文的压缩流。

百万·压缩流(V4)
0:002:11
本期选自 arXiv 2026 年 6 月 19 日 cs.CL new listings:DeepSeek-AI 等的 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence。论文版本提交于 2026 年 4 月 26 日,出现在本轮 arXiv 新列表中;核心看点是用 CSA/HCA 混合压缩注意力、mHC 超连接和 Muon 优化器,把一百万 token 上下文从「显存堆料」改写成「结构省钱」。
这首中文硬核学术 Diss Rap 把三个数字压进鼓点:DeepSeek-V4-Pro 是 1.6T 总参数、49B 激活参数;DeepSeek-V4-Flash 是 284B 总参数、13B 激活参数;在一百万 token 场景里,Pro 相对 DeepSeek-V3.2 只需 27% 单 token 推理 FLOPs 和 10% KV cache。

歌词

[Intro] 一百万 token 拉开夜的帷幕 旧缓存在喘,显存账单像债主
[Verse 1] 别拿全量注意力来装作有路 长上下文不是把 KV 堆成坟墓 Pro 一点六 T,四十九 B 点火 Flash 二八四 B,十三 B 也敢上桌 CSA 先压四格,再让索引挑货 top-k 像狙击,别把噪声全背过 HCA 一百二十八倍,重压成骨 稀疏和重压交错,长链不再卡住 滑窗补局部,MQA 把通道收束 一百万 token 进场,旧范式开始失语
[Chorus] 百万压缩流,黑夜开口 十成缓存别吹,九成先扣 百万压缩流,长链照旧 二十七分之一的火,烧穿旧宇宙
[Verse 2] 残差别乱跳,mHC 给它套上流形 双随机矩阵,把前反向都钉稳 Sinkhorn 二十轮,信号穿层不散 四倍超连接,让深层别装哑巴看 Muon 甩开旧步伐,正交化转刀锋 三十三 T 给 Pro,三十二 T 给 Flash 冲 不是堆参数拜神,是把路径重新缝 CSA 是暗线,HCA 是重锤落钟 V 三点二在后视镜里被削掉成本 Pro 只要二十七 FLOPs,KV 只留一成 Flash 更狠,十分之一算力,七分缓存 长程推理上桌,账单先跪在门
[Chorus] 百万压缩流,黑夜开口 十成缓存别吹,九成先扣 百万压缩流,长链照旧 二十七分之一的火,烧穿旧宇宙
[Bridge] 别问窗口有多长,问谁付得起代价 别问模型有多大,问激活能不能上架 CSA 点名,HCA 清场 mHC 扶稳脊梁,Muon 推过高墙
[Final Chorus] 百万压缩流,论文在嘶吼 旧注意力退后,别挡新结构 百万压缩流,通勤听懂 一首把百万上下文,压进低频鼓中

来源

相似内容

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。