Claude 5上岗!AI开始抢电了
1/7/2026 · 8:10

Claude 5上岗!AI开始抢电了

6月30日,AI行业主线变成「Agent 上岗」:Anthropic 连发 Sonnet 5 和 Claude Science,OpenAI 把科研 benchmark 拉高,美团用国产芯片开源万亿参数模型,Etched 与 Bloom/Brookfield 则把战场推向推理芯片和电力基础设施。

昨天的关键词,不是聊天,是上岗。
Claude Sonnet 5 被 Anthropic 直接推成默认模型,美团把万亿参数 LongCat-2.0 开源到国产算力叙事里,OpenAI 则拿生物科研 benchmark 说明:AI Agent 不只会写代码,还要开始做「判断题」。另一边,Etched、Bloom/Brookfield 和英国央行一起把问题摊开了:算力、电力、监管,谁也别想躲。

先看速览

事件关键信号读者该盯什么
Anthropic 发布 Claude Sonnet 5Sonnet 5 成为 Free 和 Pro 默认模型,API 首发价到 8 月 31 日为每百万输入 token 2 美元、输出 10 美元,之后回到 3/15 美元。1中档模型开始承担更多 Agent 工作,企业会更敢把多步任务交给「便宜但能干」的模型。
Claude Science 上线 beta面向 Pro、Max、Team、Enterprise 用户,集成科研常用工具、可审计产物和本地/HPC/按需 GPU 计算。2AI for Science 从论文 demo 往真实工作台走,科研软件栈要被重新包装。
OpenAI 发布 GeneBench-Pro129 道计算生物学任务里,GPT-5.6 Sol 最高推理档通过率 28.7%,Pro 模式 31.5%,而 GPT-5 在早期 GeneBench 上低于 5%。3下一轮模型竞争,会从「刷题」转向「会不会在脏数据里做判断」。
美团开源 LongCat-2.0Reuters 报道称,美团发布并将开源 LongCat-2.0,宣称其为在 5 万颗国产芯片集群上完成训练和推理的万亿参数模型,支持 100 万 token 输入。4国产模型竞争不只拼参数,也开始拼「国产算力能不能闭环」。
Etched 与 Bloom/Brookfield 抢基础设施Etched 称已有 10 亿美元系统订单、投后估值 50 亿美元;Bloom 与 Brookfield 则把 AI 基建供电融资框架扩大到 250 亿美元。56AI 战场继续下沉:谁能把推理成本和电力接入压住,谁就拿到下一阶段门票。

Claude 5 来了:Agent 终于开始「干完」

Sonnet 5 的定位很直白:不是最贵旗舰,但更像能上班的执行层。
Anthropic 说,Sonnet 5 在编码、工具调用、推理和知识工作上都比 Sonnet 4.6 明显进步,接近 Opus 4.8,但价格更低。具体看官方表格:SWE-bench Pro 为 63.2%,Terminal-Bench 2.1 为 80.4%,OSWorld-Verified 为 81.2%;HLE 无工具 43.2%、有工具 57.4%。1
Claude Sonnet 5 官方基准表
Claude Sonnet 5 在多项 Agent、编码和知识工作评测上追近 Opus 4.8,价格则落在 Sonnet 档位。1
这就是本轮最关键的变化:Agent 能力开始从旗舰模型下放到日常模型
对开发者来说,这比单个榜单数字更实在。以前很多自动化任务卡在「开了个头就停」,现在厂商卖点变成「自己写测试、复现 bug、改完再验证」。这类能力一旦稳定,软件工程、法务检索、保险流程、数据分析这些「多步但不玄学」的白领任务,会最先被重做一遍。
同一天,Anthropic 还把 Claude Science 推到 beta。它不是简单聊天窗口,而是把 PubMed、Jupyter、R、终端、结构生物学、基因组学工具链揉进一个科研工作台,还强调每个图表、代码和计算过程都要可追溯。2
一句话:Claude 不只想进 IDE,还想进实验室。

OpenAI 也开卷:科研不是背题,是判断

OpenAI 的 GeneBench-Pro,重点不在「又一个 benchmark」。它测的是计算生物学里最难标准化的东西:数据脏不脏、分析路径该不该改、结果能不能支撑下一步决策。
官方给出的设计很重:129 道问题,覆盖 10 个领域和 21 个子领域;每道题提供数据、实验背景和目标估计量,要求模型自己探索数据、选择分析方法、迭代实验,最后给出答案。3
结果也很诚实:最强 GPT-5.6 Sol 在最高推理档通过率 28.7%,开 Pro 模式也只有 31.5%。OpenAI 同时说,评审专家估算,一个典型 GeneBench-Pro 问题需要人类专家花 20-40 小时完成。3
这说明两件事同时成立:AI 已经能把专家级科研分析的边角啃下来;但离独立替代专家,还远。
OpenAI 还在同日发布 ChatGPT 使用数据,称注册 6 个月后的用户,日均消息数比注册初期高 50%,尝试过的任务类型翻倍;非英语用户已占活跃用户过半。7 这给 GeneBench-Pro 补了一层背景:用户规模已经全球化,下一步拼的不是谁会聊天,而是谁能在高价值场景里可靠交付。

国产万亿模型上桌:美团押的是「算力闭环」

LongCat-2.0 这一条,很中国。
Reuters 报道,美团发布并将开源下一代 LongCat 大模型,称其为全球首个完全在 5 万颗国产芯片集群上训练和运行的万亿参数 AI 系统;模型支持最多 100 万 token 输入,面向 Agentic Coding,也就是更贴近真实软件开发任务的代码 Agent 场景。4
用户在手机上使用美团应用
美团把 LongCat-2.0 放在「Agentic Commerce」和自研模型路线里,早期模型已用于餐饮、酒店推荐和下单订房等场景。4
这里不要只看「万亿参数」。更值得盯的是 Reuters 文中的自给自足叙事:美国出口管制后,中国模型公司必须回答一个硬问题——不用英伟达最新芯片,能不能把训练、推理、商业化都跑起来?
美团没有披露芯片供应方,但它公开强调「国产计算集群」能力。这等于把模型发布会开成了基础设施宣言。

推理芯片和电力,一起成了新瓶颈

Etched 这家公司以前讲的是一个很激进的故事:专门为 Transformer 推理做芯片,别什么都拿 GPU 扛。
现在故事变成订单了。TechCrunch 报道,Etched 称其芯片已由 TSMC 成功制造,正在和客户测试第一款产品「frontier inference clusters」;公司还称已有 10 亿美元合同订单,累计融资 8 亿美元,去年 12 月完成一轮未公开的 5 亿美元融资,投后估值 50 亿美元5
Etched 联合创始人兼 CEO Gavin Uberti
Etched 押注专用推理系统,目标是让前沿模型推理更快、更便宜、更省电。5
芯片之外,电力也在加速变成 AI 公司的第二张账单。
Bloom Energy 和 Brookfield 宣布扩大 AI 基础设施供电合作,把融资框架从此前最高 50 亿美元扩大 5 倍到 250 亿美元,用于部署 Bloom 燃料电池;Reuters 称,Bloom 盘后股价一度上涨 12%。6
VivaTech 展会上展示的 AI 标识
AI 数据中心扩张让核能、可再生能源和燃料电池都被重新抬上桌。6
过去一年,大家讨论的是「GPU 够不够」。现在要改成三连问:芯片能不能专用化?电能不能接上?推理成本能不能压下去?

监管也坐不住:Agent 不是普通软件

当 Agent 真开始接入交易、支付和企业流程,监管逻辑也变了。
英国央行副行长 Sarah Breeden 在欧洲央行论坛上说,现有框架并不是为自主 Agent 设计的,指望每一个 Agent 动作都有人类把关并不现实;英国央行正在考虑「增强恢复」、市场级熔断或 kill switch,以应对故障 AI 模型引发市场动荡的风险。Reuters 同文还援引 Cambridge Centre for Alternative Finance 调查称,52% 金融公司已经在使用 Agentic AI。8
美国那边也在摇摆。Reuters 报道,美国商务部预计将取消对 Anthropic Fable 5 的出口管制,距离 6 月 12 日要求 Anthropic 暂停最先进模型访问还不到 3 周。9
这就是今天的主线:AI Agent 越能干,越不像普通软件。它开始碰到实验室、金融市场、跨境模型访问、数据中心电力和芯片供应链。
模型发布还会继续刷屏。但真正决定下一阶段格局的,可能是更无聊也更硬的东西:成本、供电、可审计性,以及出事时谁能按下停止键。

Contenido relacionado

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.