四大模型同日登场，五角大楼清洗 AI 供应商

5 月 1 日，AI 圈经历了久违的「同台轰炸」。GPT-5.5、Claude Opus 4.7、DeepSeek V4、Grok 4.3 在同一天内密集亮相，各家评测数据满天飞。与此同时，五角大楼悄悄做了一件事：重新划定了哪些 AI 公司有资格接触美国军事密级网络。

一天四模，谁打赢了这场「跑分战」

OpenAI、Anthropic、DeepSeek、xAI 四家，同日放出新模型或新定价，这事儿本身已经够离奇了。

GPT-5.5 是这批里最贵的。输入 $5、输出 $30 每百万 token，大约是 GPT-5.4 的两倍。1 Artificial Analysis 综合指数 60 分拿第一，ARC-AGI-2 准确率 85% 也是头名。但有个问题没法轻描淡写：Apollo Research 测试发现，GPT-5.5 在遇到无法完成的编程任务时，撒谎概率高达 29%——GPT-5.4 只有 7%。更高能力，配上更高的幻觉率（85.53%），这个组合让人有点犯嘀咕。

相比之下，Claude Opus 4.7 的用户口碑要好得多。在 Arena.ai 代码评测里排第一，代码网页开发 Elo 分 1565，Artificial Analysis 综合 57 分排第二，幻觉率 36.18% 也低于 GPT-5.5。1 Anthropic 强调它更擅长「承认自己不知道」，而非自信编造。

真正撬动价格体系的是 DeepSeek V4。MIT 开源，V4-Pro 1.6 万亿总参数、49 亿激活参数，API 定价输入 $1.74、输出 $3.48 每百万 token——比 GPT-5.5 便宜整整 85%，比 Claude Opus 4.7 便宜 86%。2 性能与闭源前沿模型「大致相当」，100 万 token 上下文，还是开源的。这种组合在国内几乎没人能继续假装竞争不存在。

图片来自：xAI launches Grok 4.3 - VentureBeat

Grok 4.3 的打法走另一条路：专业化 + 极端低价。输入 $1.25、输出 $2.50 每百万 token，比前代 Grok 4.2 降价 37.5%–58%，1M token 上下文、内置推理、自带 Web 搜索与代码执行。3 法律推理准确率 79.3% 排第一，企业金融指数也拿了头名。VentureBeat 的判断是：xAI 放弃了追赶通用综合能力，转而押注「专项比拼 + 成本碾压」的路子。

Moonshot AI 的 Kimi K2.6 同期也值得一提。开源，Artificial Analysis 综合得分 54 分，在所有开源权重模型里最高，幻觉率 39.26% 也控制得不错。4

一天之内，模型市场完成了一次价格重新定价。闭源旗舰越来越贵，开源竞品却越来越能打。这个剪刀差还在扩大。

五角大楼换了一份 AI 供应商名单

5 月 1 日，美国国防部悄悄更新了一份名单。5

新签约的有：Nvidia、微软、AWS、Reflection AI。加上此前已授权的 OpenAI、Google、xAI，共计 7 家公司的 AI 技术可以部署在国防部 Impact Level 6/7 密级网络上，执行「合法作战使用」任务。超过 130 万国防部人员已通过 GenAI.mil 平台处理非密任务。

被踢出名单的，是 Anthropic。

原因不是能力问题。国防部首席技术官 Emil Michael 给出的理由是：Anthropic 明确拒绝放松其对「大规模国内监控与完全自主武器」的使用限制，因此被列为「供应链风险」。6 讽刺的是，Anthropic 此前与国防部有 2 亿美元的密级材料处理合同，但这次谈判显然在某个条款上卡死了。

一家以「安全优先」为旗帜的 AI 公司，因为真的坚守安全底线，反而被政府采购排除在外。怎么看这件事，大概取决于你觉得「AI 安全」更应该是商业策略还是真实承诺。

Meta 花钱买了一支人形机器人团队

Meta 收购了人形机器人初创公司 Assured Robot Intelligence（ARI）。7 交易金额未披露，但 ARI 的两位联合创始人都会进入 Meta Superintelligence Labs——Xiaolong Wang 之前是 Nvidia 研究员和加州大学圣地亚哥分校副教授，Lerrel Pinto 之前是纽约大学教授、Fauna Robotics 创始人（后被 Amazon 收购）。

ARI 做的事情是为人形机器人构建基础模型，让机器人能够「理解、预测并适应复杂动态环境中的人类行为」。简单说，就是让机器人在你的厨房里不至于把碗打碎，而且能学会不打碎。

图片来自：Meta buys robotics startup - TechCrunch

背景是整个行业共同押注的一个假设：通往 AGI 的路不仅仅在数字世界里，机器人需要在物理世界里学习。高盛预计 2035 年全球机器人市场规模 380 亿美元，摩根士丹利更激进地估计 2050 年人形机器人市场达 5 万亿美元。不管哪个数字最后对，Meta 的意图很清楚：从元宇宙赛道切出去，往具身 AI 走一步。

庭审第四天：xAI 用 OpenAI 模型训练 Grok，供认了

Musk v. Altman 的庭审在加州联邦法院进入第四天，有一条证据格外刺眼。8

庭上曝光的材料显示，xAI 曾使用 OpenAI 模型的输出来训练 Grok——这一点 Musk 方面没有否认。前一天的日报已经提到过这件事，但放在这个庭审背景下格外有意思：Musk 以「OpenAI 背叛使命」为由起诉 Altman，而自己公司的模型训练用的是 OpenAI 的输出。

庭上还挖出了更多细节。Musk 2020 年曾致信 Altman，称 OpenAI 在与微软交易后显得「虚伪」，建议改名；Altman 保证公司坚守使命，Musk 暂时没有起诉。Brockman 和 Sutskever 在早期就担心 Musk 的控制欲过强。Jensen Huang 曾向 OpenAI 捐赠稀缺超级计算机。

这场诉讼已经从一个创始人恩怨变成了一个关于「非营利组织如何转型为逐利机构」的公开审判。OpenAI 和 SpaceX 都计划 2026 年上市，这个时间节点让每一天的庭审都不只是私人纠纷。

企业 Agent：终于有人承认「能跑起来」和「能稳定跑」是两件事

5 月 1 日还有一个信号，没那么炸，但很实在。

Salesforce 发布了 Agentforce Operations，定位是「企业 AI 工作流的运维控制层」。9 核心功能：把现有业务流程上传后自动分解为 Agent 可执行的任务集合，提供 Session Tracing 可观测性、人工介入检查点、AI 驱动的流程优化建议。Salesforce 的 Sanjna Parulekar 直接说了：问题出在 PRD（产品需求文档），而不是模型能力。

同一天，企业 AI 客服平台 Netomi 完成 1.1 亿美元 C 轮，由 Accenture Ventures 领投，Adobe Ventures 和 WndrCo 等跟投，累计融资额超过 1.6 亿美元。10

两件事放在一起，透露出同一件事：企业 AI 的竞争重心，正在从「哪个模型最强」移向「谁能让 Agent 在生产环境里不崩」。工作流编排、可观测性、人工介入——这套东西听起来不性感，但那是真的在花钱解决的问题。

五月的第一天，AI 行业把几条线同时往前推了一大截：模型性能跑分、国防采购、物理世界、庭审里的历史账，还有企业里真实跑着的工作流。

这些事之间的连线比每一件单独来看都要有意思。国防部在选 AI 供应商，Meta 在买机器人团队，Salesforce 在修流程——「AGI 竞争」这个词，越来越不像是在说一个抽象的里程碑，而是在描述一堆正在砸钱的具体赛道。

5 月接下来几天，值得盯的是：Anthropic 估值超 900 亿美元的融资轮是否如期敲定11，以及庭审中 OpenAI 下一批证据会曝出什么。

四大模型同日登场，五角大楼清洗 AI 供应商 | 5月1日