Claude 5上岗！AI开始抢电了 (2026)

昨天的关键词，不是聊天，是上岗。

Claude Sonnet 5 被 Anthropic 直接推成默认模型，美团把万亿参数 LongCat-2.0 开源到国产算力叙事里，OpenAI 则拿生物科研 benchmark 说明：AI Agent 不只会写代码，还要开始做「判断题」。另一边，Etched、Bloom/Brookfield 和英国央行一起把问题摊开了：算力、电力、监管，谁也别想躲。

先看速览

事件	关键信号	读者该盯什么
Anthropic 发布 Claude Sonnet 5	Sonnet 5 成为 Free 和 Pro 默认模型，API 首发价到 8 月 31 日为每百万输入 token 2 美元、输出 10 美元，之后回到 3/15 美元。1	中档模型开始承担更多 Agent 工作，企业会更敢把多步任务交给「便宜但能干」的模型。
Claude Science 上线 beta	面向 Pro、Max、Team、Enterprise 用户，集成科研常用工具、可审计产物和本地/HPC/按需 GPU 计算。2	AI for Science 从论文 demo 往真实工作台走，科研软件栈要被重新包装。
OpenAI 发布 GeneBench-Pro	129 道计算生物学任务里，GPT-5.6 Sol 最高推理档通过率 28.7%，Pro 模式 31.5%，而 GPT-5 在早期 GeneBench 上低于 5%。3	下一轮模型竞争，会从「刷题」转向「会不会在脏数据里做判断」。
美团开源 LongCat-2.0	Reuters 报道称，美团发布并将开源 LongCat-2.0，宣称其为在 5 万颗国产芯片集群上完成训练和推理的万亿参数模型，支持 100 万 token 输入。4	国产模型竞争不只拼参数，也开始拼「国产算力能不能闭环」。
Etched 与 Bloom/Brookfield 抢基础设施	Etched 称已有 10 亿美元系统订单、投后估值 50 亿美元；Bloom 与 Brookfield 则把 AI 基建供电融资框架扩大到 250 亿美元。5 6	AI 战场继续下沉：谁能把推理成本和电力接入压住，谁就拿到下一阶段门票。

Claude 5 来了：Agent 终于开始「干完」

Sonnet 5 的定位很直白：不是最贵旗舰，但更像能上班的执行层。

Anthropic 说，Sonnet 5 在编码、工具调用、推理和知识工作上都比 Sonnet 4.6 明显进步，接近 Opus 4.8，但价格更低。具体看官方表格：SWE-bench Pro 为 63.2%，Terminal-Bench 2.1 为 80.4%，OSWorld-Verified 为 81.2%；HLE 无工具 43.2%、有工具 57.4%。1

Claude Sonnet 5 官方基准表 — Claude Sonnet 5 在多项 Agent、编码和知识工作评测上追近 Opus 4.8，价格则落在 Sonnet 档位。1

这就是本轮最关键的变化：Agent 能力开始从旗舰模型下放到日常模型。

对开发者来说，这比单个榜单数字更实在。以前很多自动化任务卡在「开了个头就停」，现在厂商卖点变成「自己写测试、复现 bug、改完再验证」。这类能力一旦稳定，软件工程、法务检索、保险流程、数据分析这些「多步但不玄学」的白领任务，会最先被重做一遍。

同一天，Anthropic 还把 Claude Science 推到 beta。它不是简单聊天窗口，而是把 PubMed、Jupyter、R、终端、结构生物学、基因组学工具链揉进一个科研工作台，还强调每个图表、代码和计算过程都要可追溯。2

一句话：Claude 不只想进 IDE，还想进实验室。

OpenAI 也开卷：科研不是背题，是判断

OpenAI 的 GeneBench-Pro，重点不在「又一个 benchmark」。它测的是计算生物学里最难标准化的东西：数据脏不脏、分析路径该不该改、结果能不能支撑下一步决策。

官方给出的设计很重：129 道问题，覆盖 10 个领域和 21 个子领域；每道题提供数据、实验背景和目标估计量，要求模型自己探索数据、选择分析方法、迭代实验，最后给出答案。3

结果也很诚实：最强 GPT-5.6 Sol 在最高推理档通过率 28.7%，开 Pro 模式也只有 31.5%。OpenAI 同时说，评审专家估算，一个典型 GeneBench-Pro 问题需要人类专家花 20-40 小时完成。3

这说明两件事同时成立：AI 已经能把专家级科研分析的边角啃下来；但离独立替代专家，还远。

OpenAI 还在同日发布 ChatGPT 使用数据，称注册 6 个月后的用户，日均消息数比注册初期高 50%，尝试过的任务类型翻倍；非英语用户已占活跃用户过半。7 这给 GeneBench-Pro 补了一层背景：用户规模已经全球化，下一步拼的不是谁会聊天，而是谁能在高价值场景里可靠交付。

国产万亿模型上桌：美团押的是「算力闭环」

LongCat-2.0 这一条，很中国。

Reuters 报道，美团发布并将开源下一代 LongCat 大模型，称其为全球首个完全在 5 万颗国产芯片集群上训练和运行的万亿参数 AI 系统；模型支持最多 100 万 token 输入，面向 Agentic Coding，也就是更贴近真实软件开发任务的代码 Agent 场景。4

用户在手机上使用美团应用 — 美团把 LongCat-2.0 放在「Agentic Commerce」和自研模型路线里，早期模型已用于餐饮、酒店推荐和下单订房等场景。4

这里不要只看「万亿参数」。更值得盯的是 Reuters 文中的自给自足叙事：美国出口管制后，中国模型公司必须回答一个硬问题——不用英伟达最新芯片，能不能把训练、推理、商业化都跑起来？

美团没有披露芯片供应方，但它公开强调「国产计算集群」能力。这等于把模型发布会开成了基础设施宣言。

推理芯片和电力，一起成了新瓶颈

Etched 这家公司以前讲的是一个很激进的故事：专门为 Transformer 推理做芯片，别什么都拿 GPU 扛。

现在故事变成订单了。TechCrunch 报道，Etched 称其芯片已由 TSMC 成功制造，正在和客户测试第一款产品「frontier inference clusters」；公司还称已有 10 亿美元合同订单，累计融资 8 亿美元，去年 12 月完成一轮未公开的 5 亿美元融资，投后估值 50 亿美元。5

Etched 联合创始人兼 CEO Gavin Uberti — Etched 押注专用推理系统，目标是让前沿模型推理更快、更便宜、更省电。5

芯片之外，电力也在加速变成 AI 公司的第二张账单。

Bloom Energy 和 Brookfield 宣布扩大 AI 基础设施供电合作，把融资框架从此前最高 50 亿美元扩大 5 倍到 250 亿美元，用于部署 Bloom 燃料电池；Reuters 称，Bloom 盘后股价一度上涨 12%。6

VivaTech 展会上展示的 AI 标识 — AI 数据中心扩张让核能、可再生能源和燃料电池都被重新抬上桌。6

过去一年，大家讨论的是「GPU 够不够」。现在要改成三连问：芯片能不能专用化？电能不能接上？推理成本能不能压下去？

监管也坐不住：Agent 不是普通软件

当 Agent 真开始接入交易、支付和企业流程，监管逻辑也变了。

英国央行副行长 Sarah Breeden 在欧洲央行论坛上说，现有框架并不是为自主 Agent 设计的，指望每一个 Agent 动作都有人类把关并不现实；英国央行正在考虑「增强恢复」、市场级熔断或 kill switch，以应对故障 AI 模型引发市场动荡的风险。Reuters 同文还援引 Cambridge Centre for Alternative Finance 调查称，52% 金融公司已经在使用 Agentic AI。8

美国那边也在摇摆。Reuters 报道，美国商务部预计将取消对 Anthropic Fable 5 的出口管制，距离 6 月 12 日要求 Anthropic 暂停最先进模型访问还不到 3 周。9

这就是今天的主线：AI Agent 越能干，越不像普通软件。它开始碰到实验室、金融市场、跨境模型访问、数据中心电力和芯片供应链。

模型发布还会继续刷屏。但真正决定下一阶段格局的，可能是更无聊也更硬的东西：成本、供电、可审计性，以及出事时谁能按下停止键。

Claude 5上岗！AI开始抢电了