还没有赢家:2026 年 5 月大模型竞争全景

还没有赢家:2026 年 5 月大模型竞争全景

Claude Opus 4.7 在编程 Agent 领域领跑,但综合智能指数第一是 GPT-5.5。Gemini 3.1 Pro 以 40% 的价格交付 80% 的性能,Grok 4.3 靠实时知识打差异化。Anthropic 估值飙至 $1.2 万亿背后是 Claude Code 的企业渗透逻辑,而开源模型正在改变「赢」的定义本身。

Twitter AI 长文精选
2026/5/20 · 13:07
1 订阅 · 1 内容

研究速览

每一次 benchmark 刷新,都有人宣布比赛结束。
Claude Opus 4.7 发布后,「Anthropic 已经赢了」的论断在 X 上铺天盖地。数据摆在那里:SWE-Bench Verified 87.6%,代理编程任务上碾压同期所有对手。有人写了数千字的长文论证这场 AI 军备竞赛的终局已经来临。
但同一时间,综合智能指数排名第一的不是 Claude,是 GPT-5.5。1
这两件事同时成立——说明我们正处在一个比任何人声称的都要复杂的竞争格局里。

谁在最前面?取决于你怎么量

根据 Artificial Analysis 2026 年 5 月的综合智能指数(Intelligence Index),当前排名如下:1
模型综合智能指数
GPT-5.5 (xhigh)60
GPT-5.5 (high)59
Claude Opus 4.7 (max)57
Gemini 3.1 Pro Preview57
Grok 4.353
指数涵盖推理、编程、数学、Agent 工作流等数十项评测的聚合结果。综合来看,GPT-5.5 保持对最广维度的整体领先。
但换一把尺子,画面立刻不同。
SWE-Bench Verified(真实 GitHub issue 的端到端修复率,被视为编程 Agent 的黄金标准)上,Claude Opus 4.7 以 87.6% 领先,GPT-5.5 系列徘徊在 80–88% 之间。在多文件代码库导航、从 Ticket 到 PR 的完整工作流场景里,Claude 目前是最可靠的合作者。
LMSYS Chatbot Arena Elo 分(盲测人类偏好投票)是另一面镜子。GPT-5.5-high 区间在 1506–1562,Claude Opus 4.7 与 Gemini 3.1 Pro 分别在 1503–1505 附近交火。差距在统计误差以内——也就是说,「用户主观感受谁更聪明」这件事,顶级模型之间没有决定性胜负。
结论不是「Claude 赢了」,也不是「GPT-5.5 赢了」。结论是:在哪个维度比,答案不一样。

Gemini:被低估的价值选项

在这场双雄叙事里,Google 的 Gemini 3.1 Pro 往往缺席。
但它做到了一件其他两家都没做到的事:在保持前沿水准的同时,大幅压低成本。在 GPQA Diamond(博士级科学题)和数学评测上,Gemini 3.1 Pro 与顶级竞品互有胜负;而其定价与吞吐量,通常只有 Claude 或 GPT-5.5 同等级选项的 40–60%。1
原生多模态也是真正的差异化能力——视频和长音频理解、100 万 token 以上的上下文可靠性,让它在企业场景里有独立的立足点。
不是每家公司都需要最强,很多公司需要的是「80% 的性能、40% 的价格」。在这条赛道上,Gemini 3.1 Pro 是当前最合理的答案。

Grok 的真正武器不是分数

xAI 的 Grok 4.3 综合指数 53,看起来是四家里的末位。但这个数字掩盖了一个别人没有的能力:实时知识
通过 X 平台的内容整合,Grok 在新鲜度上享有结构性优势。当你需要回答「这件事昨天最新进展是什么」,其他模型只能用知识截止日期以前的训练数据答题,Grok 可以直接检索。
速度也是真实差异。80+ token/秒的推理速度,在需要低延迟的应用场景里,性能分数高 5 分不一定抵得上推理快一倍的实用价值。
Grok 的策略是在「实时 + 速度 + 真话」这条细分轨道上打差异化,而不是正面争综合指数的每一个高地。

基准测试的信号正在失效

这是整个模型竞争评估体系里最少被正视的问题。
MMLU、HumanEval、GSM8K、基础 MATH,这批曾经标志性的基准测试现在已经被解了——顶级模型得分 90–97%+,几乎没有区分度。社区的回应是不断推出更难的评测(GPQA Diamond、SWE-Bench Verified/Pro、LiveBench、Humanity's Last Exam),但这些测试本身的有效窗口也在以季度为单位缩短。1
更麻烦的是推理模式的引入。同一个基础模型,普通模式和 Thinking/推理模式下的测试结果可能差 10–15 分。「哪个模型更强」这个问题已经无法脱离「在多少推理预算下比」这个前提单独成立。
当前能区分顶级模型的评测,大多集中在长程 Agent 可靠性、多日任务持续性、科学发现工作流、鲁棒多模态推理这几个方向。但这些领域目前没有一个被广泛认可的单一数字能代表。
这意味着「某模型全面领先」的表述,通常是以一种特定评测口径的领先来替代全面领先。

Anthropic 的 $1.2 万亿叙事

就在模型评分讨论如火如荼时,产业侧发生了一件更大的事。
2026 年 5 月,Anthropic 的 Pre-IPO 链上市场隐含估值升至 1.2 万亿美元,短暂超过 OpenAI 约 20%。2 年化经常性收入(ARR)从 2025 年底的 90 亿美元在不到五个月内跳至 440 亿美元——平均每天新增收入约 9600 万美元。
拉动这条增长曲线的不是模型榜单,而是 Claude Code
Anthropic 自己的工程师几乎不再手写代码,只负责需求分析、架构设计和代码审查。其独特的渗透路径是:个人开发者先用 → 扩散到团队代码库 → 触发公司级企业采购。企业客户贡献了 Claude Code 总收入的超过一半,在 AI 编程细分市场的占有率达到 54%,远超 OpenAI 的 21%。2
支撑溢价采购的,是 Anthropic 花多年建立的合规护城河:HIPAA 认证、HITRUST 审计、对 FCA(False Claims Act)可解释性要求的支持。在金融、法律、医疗这些行业,模型出错的代价远超迁移成本,信任框架变成最硬的壁垒。
但这个叙事里也有清醒的声音。美国银行警告,Anthropic 和 SpaceX 等万亿级 IPO 可能吸走大量市场流动性,引发科技股估值重定价。部分早期 VC 已在二级市场减持,锁定约 30 倍回报。
$1.2 万亿的隐含估值,到底是 Cisco 式的基础设施税收者,还是 2000 年互联网泡沫的高位,目前还是一个开放的问题。

开源在改变胜负的定义

这场竞争还有第三方玩家在重写规则:开源模型。
DeepSeek、Qwen3、Llama 4 系列,在大量任务上已经能交付前沿性能的 80–90%,但成本只是闭源选项的一小部分。2026 年,「最好的模型」对很多使用者来说可能不是 GPT-5.5 也不是 Claude,而是一个跑在本地或廉价云上的开源微调版本。
这个趋势对竞争格局的意义是:性能领先的绝对值在缩水。当差距从 20% 缩到 5%,「我的模型比你好」的价值主张就越来越依赖周边生态——定价、延迟、合规认证、集成深度——而不是 benchmark 分数本身。
未来的竞争,或许不是谁的单模型最强,而是谁的模型路由系统(把不同任务派给不同专业化子模型的调度层)最有效率。在那个世界里,今天的综合智能指数排名将是最不重要的输入之一。

数据来源:文章中模型性能数据引自 Artificial Analysis(2026 年 5 月)、Vellum LLM Leaderboard(2026 年 4 月)、LMSYS Chatbot Arena 公开数据;估值与商业数据来自链上二级市场及相关机构分析报告。具体数字以原始来源为准,评测结果随版本更新持续变化。

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。