
2026. 7. 1. · 18:06
MiniMax M3:百万 Token 上下文之后,Agent 才是主线
MiniMax M3 把 MSA 稀疏注意力、100 万 token 上下文、编码 Agent 和原生多模态放进同一条产品路线。文章拆解它的技术主张、官方案例、Token Plan 与 API 边界,并指出哪些结论仍需要技术报告、权重和第三方复现来验证。
M3 这篇发布最值得读的地方,不是又多了一个「会写代码」的模型,而是 MiniMax 把三个方向绑在了一起:前沿编码与 Agent 任务、最高 100 万 token 上下文、原生多模态输入。官方博客称,M3 使用 MiniMax Sparse Attention,也就是 MSA,让长上下文成为可以继续扩展的维度;同一篇发布还把 MiniMax Code、Token Plan 和 API 一起推出来,明显是要把模型能力直接放进开发者的日常工作流里。1
这意味着,M3 的核心问题不是「会不会补全一段代码」,而是模型能否在很长的上下文里持续读文档、看日志、跑工具、改方案,并在几十次甚至上百次反馈后继续推进任务。官方给出的 CUDA 优化案例里,M3 连续执行约 24 小时,完成 147 次 benchmark 提交和 1,959 次工具调用,把 Hopper FP8 GEMM 的硬件峰值利用率从 7.6% 推到 71.3%。1 这类数字很吸引人,但也提醒我们:M3 押注的是长程执行,不只是单轮答案质量。
MSA:百万上下文背后是成本问题
长上下文模型真正难的地方不在「把窗口标到 1M」,而在每增加一段上下文,注意力计算和显存访问会不会把推理成本拖垮。MiniMax 在原文里把矛头指向 full attention 的二次复杂度,并提出 MSA 这种稀疏注意力架构:先把 KV 切成更精确的块,再让查询只命中相关块,避免每个 token 都和全部历史做全量交互。1
原文还提到一个工程细节:M3 在算子层采用「KV outer gather Q」的方式,用 KV block 做外层循环,把命中同一 KV block 的 query 聚合起来。这样每个 block 只读一次,内存访问也更连续;在 M3 的 head 配置下,官方称该实现比 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。1
如果只看宣传语,1M 上下文容易被理解成「能塞更多文档」。更准确的读法是:MiniMax 想让模型在一条长任务里保留论文、代码、实验日志、工具返回和用户反馈,减少频繁压缩历史造成的信息损失。官方称,在 100 万上下文长度下,M3 的单 token 计算量只有上一代模型的 1/20,prefill 阶段加速超过 9 倍,decode 阶段加速超过 15 倍;多组 ablation 中,MSA 在多数能力上接近 full attention。1
这里仍要留一个问号:博客讲清了架构思路和官方速度收益,但外部读者还需要技术报告、权重和可复现实验来判断 MSA 在不同任务、不同硬件、不同 batch 设置下的实际边界。原文结尾也写到,MiniMax 会在发布后 10 天内释放技术报告和对应模型权重。1
编码能力:从「写代码」转向「一起做项目」
M3 的公开定位里,编码和 Agent 是最重的部分。官方给出的几项基准包括:SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%。1 这些指标覆盖软件工程、终端任务、代码效率、算子优化和工具协议任务,说明 MiniMax 不想只拿代码补全做卖点。
更有信息量的是它对「真实编码协作」的判断。原文说,现有代码 Agent 的训练和评测常把任务假设成单轮:用户给需求,模型给答案。但真实开发常是连续协作,需求会变,方案要讨论,中间结果会引出新问题,模型还要在同一个会话里切换任务。为缩小基准与真实体验的差距,MiniMax 构建了交互式用户模拟框架,模拟需求细化、方案讨论、反馈修正、连续任务切换和复杂项目迭代。1
这个方向比单纯刷榜更接近代码 Agent 的痛点。开发者真正关心的是:模型看完一个仓库后,能不能记住约束;修了一个 bug 后,能不能理解测试失败的含义;跑到第 80 次工具调用时,能不能不把早期目标忘掉。M3 把长上下文、工具调用和编码能力放在一起讲,逻辑上是自洽的。
| 官方强调的能力 | 原文给出的证据 | 读者该怎么看 |
|---|---|---|
| 长程论文复现 | M3 复现 ICLR 2025 Outstanding Paper《Learning Dynamics of LLM Finetuning》,连续运行近 12 小时,产生 18 次 commits 和 23 张实验图,并完成核心实验。1 | 这说明 MiniMax 在展示「读论文 + 写代码 + 跑实验 + 看图」的闭环,但仍是官方案例,外部需要看到可复现实验环境。 |
| CUDA kernel 优化 | M3 从不可直接运行的 Triton 骨架出发,约 24 小时内完成 147 次提交、1,959 次工具调用,把峰值利用率从 7.6% 提到 71.3%。1 | 这是比常规代码生成更硬的工程任务;关键验证点是同类任务上的稳定性,而不是单个案例的最高成绩。 |
| 自动训练 Base 模型 | PostTrainBench 中,M3 在 12 小时内给 4 个只完成预训练的 Base 模型做数据合成、训练、评测和迭代,最终得分 0.37,低于 Opus 4.7 的 0.42 和 GPT-5.5 的 0.39。1 | 这比写代码更接近研究自动化,但评分、任务设计和算力环境都会影响结论,不能外推成「模型已经能独立做研究」。 |
多模态:关键在「原生」和「电脑操作」
MiniMax 称 M3 从 Step 0 就做混合模态训练,并重构文本预训练数据管线,引入大量 interleaved data,也就是文本、图像、视频等信息交错出现的数据。1 这种说法的重点不在「支持图片输入」本身,而在它试图让视觉信息进入模型的基础语义空间,而不是后期外挂一个视觉模块。
这对 Agent 任务很重要。官方论文复现案例里,M3 需要理解论文中的曲线、数据和公式;MiniMax Code 也因为 M3 的多模态能力,支持 computer use。原文举的例子是,用户可以让它在电脑上打开本地 ERP 客户端,并根据 Excel 表批量录入发票信息。1 如果这个能力稳定,它指向的是跨应用、跨文件、跨系统的桌面自动化,而不是聊天框里的一次性问答。
但多模态部分的公开细节还偏少。官方博客没有展开视频理解的帧率、输入长度、视觉 tokenizer、训练数据构成,也没有给出足够细的错误类型分析。对开发者来说,下一步更该看模型卡、API 文档和真实桌面任务测试,而不是只看「原生多模态」这个标签。
MiniMax Code 和 Token Plan:模型发布已经绑定产品入口
这次发布同时更新了 MiniMax Code。官方把它描述成面向 M3 训练的 Agent 产品,可以利用 M3 的长上下文、编码 / Agent 任务和多模态能力;它还包含 Agent Team,将大任务拆成多阶段、并发、动态调整的工作流,并通过 Producer + Verifier 的对抗式循环持续产出、反思和修正。1
这解释了为什么 M3 的发布文大量讲长期执行案例。MiniMax 不是只想卖一个 API 模型,而是把模型、桌面 Agent、Token Plan 和开发者工具接在一起。官方模型页也写到,M3 API 支持最高 1M token 上下文,并保证最低 512K token;它把 1M 上下文称为长程 Agent、长程 Coding 和长视频理解的基础设施。2
商业层面也很直接。Token Plan 分为 Plus、Max、Ultra 三档:20 美元 / 月约 17 亿 M3 token,50 美元 / 月约 51 亿 token,120 美元 / 月约 98 亿 token;文本、图像、语音和音乐共享同一使用池。1 API 计费按输入长度分层,≤512K 输入 token 走标准价格,超过 512K 进入更高的长上下文价格;thinking 可以按请求开关,standard 和 priority 两种服务层级也可组合使用。1
这套定价思路和模型能力是一体的:如果长上下文、工具调用和多模态要进入日常工作,用户不会只按「每百万 token 单价」算账,而会看一个月能跑多少次大仓库任务、多少次长实验、多少次桌面自动化。Token Plan 给了很高的名义额度,但真实成本还取决于上下文复用、缓存命中、工具调用次数和失败重试率。
这篇发布最该保留的三点判断
第一,M3 不是单点能力发布。MiniMax 把稀疏注意力、编码 Agent、多模态和产品入口放在同一篇博客里,说明它的目标是长程任务执行,而不是只在聊天或补全场景里提高分数。
第二,MSA 是这篇文章的技术核心。百万上下文如果没有更低的注意力成本,很容易变成昂贵的展示参数;MiniMax 给出的 1/20 单 token 计算量、9 倍以上 prefill 加速和 15 倍以上 decode 加速,正是在回答这个成本问题。1
第三,所有结论都要带着「官方自测」这个前提。博客末尾列了大量评测方法,其中不少使用内部基础设施、内部 benchmark、Claude Code 或自家 scaffolding,部分外部模型成绩也来自不同 leaderboard 或模型卡。1 这不等于数据无效,但读者在决策时应优先看三个后续信号:技术报告是否给出足够复现细节,开源权重是否按承诺释放,第三方能否在真实仓库、真实桌面和真实长任务里复现类似收益。

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.