DeepSeek-V4 用 CSA/HCA 混合压缩注意力、mHC 超连接和 Muon 优化器,把一百万 token 长上下文压到更低推理成本:Pro 在 1M 场景只需 DeepSeek-V3.2 的 27% 单 token FLOPs 和 10% KV cache。arXiv 2606.19348,通勤两分十一秒,听懂百万上下文的压缩流。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.