四大模型同日登场,五角大楼清洗 AI 供应商 | 5月1日

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Grok 4.3 同日亮相,闭源模型越来越贵、开源竞品越来越能打,剪刀差持续扩大;美国国防部重新划定 AI 供应商名单,Anthropic 因拒绝放松「自主武器」使用限制而被踢出;Meta 收购人形机器人公司 ARI 入局具身 AI,Musk v. Altman 庭审中 xAI 用 OpenAI 模型蒸馏 Grok 的事实被坐实;Salesforce 发布企业 Agent 运维平台,Netomi 完成 1.1 亿美元 C 轮。

研究速览

5 月 1 日,AI 圈经历了久违的「同台轰炸」。GPT-5.5、Claude Opus 4.7、DeepSeek V4、Grok 4.3 在同一天内密集亮相,各家评测数据满天飞。与此同时,五角大楼悄悄做了一件事:重新划定了哪些 AI 公司有资格接触美国军事密级网络。

一天四模,谁打赢了这场「跑分战」

OpenAI、Anthropic、DeepSeek、xAI 四家,同日放出新模型或新定价,这事儿本身已经够离奇了。
GPT-5.5 是这批里最贵的。输入 $5、输出 $30 每百万 token,大约是 GPT-5.4 的两倍。1 Artificial Analysis 综合指数 60 分拿第一,ARC-AGI-2 准确率 85% 也是头名。但有个问题没法轻描淡写:Apollo Research 测试发现,GPT-5.5 在遇到无法完成的编程任务时,撒谎概率高达 29%——GPT-5.4 只有 7%。更高能力,配上更高的幻觉率(85.53%),这个组合让人有点犯嘀咕。
相比之下,Claude Opus 4.7 的用户口碑要好得多。在 Arena.ai 代码评测里排第一,代码网页开发 Elo 分 1565,Artificial Analysis 综合 57 分排第二,幻觉率 36.18% 也低于 GPT-5.5。1 Anthropic 强调它更擅长「承认自己不知道」,而非自信编造。
真正撬动价格体系的是 DeepSeek V4。MIT 开源,V4-Pro 1.6 万亿总参数、49 亿激活参数,API 定价输入 $1.74、输出 $3.48 每百万 token——比 GPT-5.5 便宜整整 85%,比 Claude Opus 4.7 便宜 86%。2 性能与闭源前沿模型「大致相当」,100 万 token 上下文,还是开源的。这种组合在国内几乎没人能继续假装竞争不存在。
Grok 4.3 API 定价对比表
Grok 4.3 API 定价对比表
Grok 4.3 的打法走另一条路:专业化 + 极端低价。输入 $1.25、输出 $2.50 每百万 token,比前代 Grok 4.2 降价 37.5%–58%,1M token 上下文、内置推理、自带 Web 搜索与代码执行。3 法律推理准确率 79.3% 排第一,企业金融指数也拿了头名。VentureBeat 的判断是:xAI 放弃了追赶通用综合能力,转而押注「专项比拼 + 成本碾压」的路子。
Moonshot AI 的 Kimi K2.6 同期也值得一提。开源,Artificial Analysis 综合得分 54 分,在所有开源权重模型里最高,幻觉率 39.26% 也控制得不错。4
一天之内,模型市场完成了一次价格重新定价。闭源旗舰越来越贵,开源竞品却越来越能打。这个剪刀差还在扩大。

五角大楼换了一份 AI 供应商名单

5 月 1 日,美国国防部悄悄更新了一份名单。5
新签约的有:Nvidia、微软、AWS、Reflection AI。加上此前已授权的 OpenAI、Google、xAI,共计 7 家公司的 AI 技术可以部署在国防部 Impact Level 6/7 密级网络上,执行「合法作战使用」任务。超过 130 万国防部人员已通过 GenAI.mil 平台处理非密任务。
被踢出名单的,是 Anthropic。
原因不是能力问题。国防部首席技术官 Emil Michael 给出的理由是:Anthropic 明确拒绝放松其对「大规模国内监控与完全自主武器」的使用限制,因此被列为「供应链风险」。6 讽刺的是,Anthropic 此前与国防部有 2 亿美元的密级材料处理合同,但这次谈判显然在某个条款上卡死了。
一家以「安全优先」为旗帜的 AI 公司,因为真的坚守安全底线,反而被政府采购排除在外。怎么看这件事,大概取决于你觉得「AI 安全」更应该是商业策略还是真实承诺。

Meta 花钱买了一支人形机器人团队

Meta 收购了人形机器人初创公司 Assured Robot Intelligence(ARI)。7 交易金额未披露,但 ARI 的两位联合创始人都会进入 Meta Superintelligence Labs——Xiaolong Wang 之前是 Nvidia 研究员和加州大学圣地亚哥分校副教授,Lerrel Pinto 之前是纽约大学教授、Fauna Robotics 创始人(后被 Amazon 收购)。
ARI 做的事情是为人形机器人构建基础模型,让机器人能够「理解、预测并适应复杂动态环境中的人类行为」。简单说,就是让机器人在你的厨房里不至于把碗打碎,而且能学会不打碎。
Meta 收购人形机器人,人机协作概念图
Meta 收购人形机器人,人机协作概念图
背景是整个行业共同押注的一个假设:通往 AGI 的路不仅仅在数字世界里,机器人需要在物理世界里学习。高盛预计 2035 年全球机器人市场规模 380 亿美元,摩根士丹利更激进地估计 2050 年人形机器人市场达 5 万亿美元。不管哪个数字最后对,Meta 的意图很清楚:从元宇宙赛道切出去,往具身 AI 走一步。

庭审第四天:xAI 用 OpenAI 模型训练 Grok,供认了

Musk v. Altman 的庭审在加州联邦法院进入第四天,有一条证据格外刺眼。8
庭上曝光的材料显示,xAI 曾使用 OpenAI 模型的输出来训练 Grok——这一点 Musk 方面没有否认。前一天的日报已经提到过这件事,但放在这个庭审背景下格外有意思:Musk 以「OpenAI 背叛使命」为由起诉 Altman,而自己公司的模型训练用的是 OpenAI 的输出。
庭上还挖出了更多细节。Musk 2020 年曾致信 Altman,称 OpenAI 在与微软交易后显得「虚伪」,建议改名;Altman 保证公司坚守使命,Musk 暂时没有起诉。Brockman 和 Sutskever 在早期就担心 Musk 的控制欲过强。Jensen Huang 曾向 OpenAI 捐赠稀缺超级计算机。
这场诉讼已经从一个创始人恩怨变成了一个关于「非营利组织如何转型为逐利机构」的公开审判。OpenAI 和 SpaceX 都计划 2026 年上市,这个时间节点让每一天的庭审都不只是私人纠纷。

企业 Agent:终于有人承认「能跑起来」和「能稳定跑」是两件事

5 月 1 日还有一个信号,没那么炸,但很实在。
Salesforce 发布了 Agentforce Operations,定位是「企业 AI 工作流的运维控制层」。9 核心功能:把现有业务流程上传后自动分解为 Agent 可执行的任务集合,提供 Session Tracing 可观测性、人工介入检查点、AI 驱动的流程优化建议。Salesforce 的 Sanjna Parulekar 直接说了:问题出在 PRD(产品需求文档),而不是模型能力。
同一天,企业 AI 客服平台 Netomi 完成 1.1 亿美元 C 轮,由 Accenture Ventures 领投,Adobe Ventures 和 WndrCo 等跟投,累计融资额超过 1.6 亿美元。10
两件事放在一起,透露出同一件事:企业 AI 的竞争重心,正在从「哪个模型最强」移向「谁能让 Agent 在生产环境里不崩」。工作流编排、可观测性、人工介入——这套东西听起来不性感,但那是真的在花钱解决的问题。

五月的第一天,AI 行业把几条线同时往前推了一大截:模型性能跑分、国防采购、物理世界、庭审里的历史账,还有企业里真实跑着的工作流。
这些事之间的连线比每一件单独来看都要有意思。国防部在选 AI 供应商,Meta 在买机器人团队,Salesforce 在修流程——「AGI 竞争」这个词,越来越不像是在说一个抽象的里程碑,而是在描述一堆正在砸钱的具体赛道。
5 月接下来几天,值得盯的是:Anthropic 估值超 900 亿美元的融资轮是否如期敲定11,以及庭审中 OpenAI 下一批证据会曝出什么。

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。