AI 全景情报 0701:Agent 性价比回落,推理硬件和电力闸口同时升温
2026/7/1 · 8:14

AI 全景情报 0701:Agent 性价比回落,推理硬件和电力闸口同时升温

本期聚焦 Claude Sonnet 5/Claude Science、Google 新一代媒体模型、Etched 推理芯片、AWS Graviton5 与 AI 电力融资扩张,判断 AI 竞争正在从模型榜单转向可运营成本、垂直工作台和基础设施交付。

开盘前先看成本曲线。过去 24 小时里,前沿模型、生成式媒体、推理芯片、CPU 控制面和电力资金同时给出新信号:AI 竞争正在从「谁的模型更强」切到「谁能把强模型放进可运营、可负担、可审计的工作流」。
优先级信号已确认事实对 AI 从业者的含义
1Agent 执行层降价Anthropic 发布 Claude Sonnet 5,称其在代理式编码、工具使用、知识工作等方面较 Sonnet 4.6 提升,并在 Claude Platform 以 2 美元/百万输入 token、10 美元/百万输出 token 的介绍价开放至 2026 年 8 月 31 日;之后标准价为 3 美元/百万输入 token、15 美元/百万输出 token。1企业 Agent 的试点门槛继续下降,预算会从「能不能用前沿模型」转向「如何控制长任务 token、工具调用和失败重试」。
2科研 Agent 进入垂直工作台Anthropic 同日推出 Claude Science beta,面向 Pro、Max、Team、Enterprise 用户,集成科研常用工具、60 多个科学技能与连接器,并要求输出带可审计历史。2垂直 Agent 不再只拼聊天体验,下一步会拼领域工具链、可复现记录、权限与本地/HPC 计算接入。
3创意媒体模型走向低延迟 APIGoogle Cloud 宣布 Nano Banana 2 Lite 正式可用,Gemini Omni Flash 进入公开预览;前者主打快速、低成本图像生成/编辑,后者主打视频生成和对话式编辑,并标出视频输出 0.10 美元/秒的价格。3设计、广告、电商和内容工具的竞争点会从「能生成」转向「能实时迭代、能接入 Agent 流程、能管版权和水印」。
4推理芯片公司开始交付叙事Etched 宣布已有工作芯片、累计融资 8 亿美元、超过 10 亿美元已签客户合同,并称正在验证面向 prefill 和 decode 的 rack-scale 推理系统。4推理成本仍是大客户最愿意下注的环节。芯片创业公司若想撬动预算,光有 benchmark 不够,必须证明整机、软件、产能和客户合同都能闭环。
5非 GPU 资源成新瓶颈AWS 推出 Graviton5 驱动的 EC2 C9g/C9gd,称相比 C8g 每 vCPU 性能最高提升 25%,并把 agentic AI 的并发环境、CPU-bound reasoning 与多步任务编排列为适用场景。5 同一天,Reuters 报道 Bloom Energy 与 Brookfield 将 AI 基础设施电力融资框架从 50 亿美元扩大到 250 亿美元。6下半年 AI 基建不只看 GPU 供给。CPU 调度、内存、网络、EBS、边缘电力和数据中心上电速度会一起决定推理毛利。

1. Sonnet 5 把 Agent 成本问题重新摆到台面上

Anthropic 对 Sonnet 5 的定位很直接:它不是拿来刷新「最强模型」叙事,而是把更强的代理式能力下放到 Sonnet 价格带。官方对比里,Sonnet 5 在 SWE-bench Pro、Terminal-Bench 2.1、OSWorld-Verified 等任务上明显高于 Sonnet 4.6,但仍低于或接近 Opus 4.8 的部分指标。1
Claude Sonnet 5 benchmark table
Anthropic 的对比表显示,Sonnet 5 更像是把代理式编码和工具使用能力推到更低价格带,而不是单纯追求最高端模型位置。1
对开发团队来说,这条新闻的关键不是「又多了一个模型名」。真正要重算的是 Agent 单位经济:长任务会吃掉更多上下文,工具调用会带来外部系统成本,失败重试会拉高总账单。Sonnet 5 的介绍价把试点门槛压低,但也会让更多团队把 Agent 从 demo 拉到真实工单、销售运营、数据分析、代码维护里,账单暴露得更快。
安全侧也不是背景音。Anthropic 说 Sonnet 5 在代理式安全、拒绝恶意请求、抵御提示注入方面较 Sonnet 4.6 有改善,同时默认开启网络安全防护。1 Reuters 另称,美国商务部预计将解除对 Anthropic Fable 5 的出口管制,距离 6 月 12 日要求 Anthropic 暂停其最先进模型访问还不到三周。7 这提醒企业客户:模型准入、国别访问和安全分级会直接影响部署计划,不能只按 API 价格做采购表。

2. Claude Science 说明垂直 Agent 开始拼「可复现」

Claude Science 是更值得产品经理盯的一条线。它把 PubMed、Jupyter、R、终端、HPC 登录节点、科研图形和论文手稿放进一个研究工作台,并强调每个输出都要有可审计历史、代码环境和消息记录。2
这类产品的竞争点不在「模型懂不懂生物学」这一句。科研用户真正怕的是黑箱结果、引用不准、图表无法复现、敏感数据离开实验室系统。Anthropic 的解法是让 Agent 在本地 macOS、Linux、远程 SSH 或 HPC 登录节点上工作,只把每一步所需上下文发给 Claude,并让 reviewer agent 检查引用、数字和图表与代码的一致性。2
这对其他垂直行业是一个样板:法律、金融、药研、工程仿真、半导体 EDA 的 Agent 产品,不能停在「聊天 + 文件上传」。能不能接入行业软件,能不能保留证据链,能不能让专家复核每一步,才是从试用走到预算的分水岭。

3. Google 把生成式媒体推向「秒级迭代」

Google Cloud 这次给创意工具链补了两块砖:Nano Banana 2 Lite 面向快速图像生成和编辑,Gemini Omni Flash 面向视频生成与对话式编辑。官方称 Nano Banana 2 Lite 可在低至 4 秒生成图像,Gemini Omni Flash 支持角色/产品替换、重打光、风格迁移和带音频的视频输出。3
Nano Banana 2 Lite benchmark chart
Google Cloud 的图表把 Nano Banana 2 Lite 放在延迟和价格维度上比较,重点不是单张图质量,而是大规模迭代成本。3
这条线对从业者的含义很明确:创意 AI 的护城河会从模型单点能力转向工作流控制。广告公司、电商平台、设计工具不缺「生成一张图」的入口,缺的是能批量 A/B 测试、保持角色与产品一致、支持本地化文案、保留内容凭证和水印的端到端链路。Google 称 C2PA 内容凭证和 SynthID 水印默认开启,这部分会成为企业采购里的硬指标。3

4. Etched 的重点是「系统交付」,不是又一张芯片 PPT

Etched 的新闻有两个数字足够刺眼:累计融资 8 亿美元,已签客户合同超过 10 亿美元。公司还称 A0 硅片已在 TSMC N4P 工艺上一次成功,正在和客户验证首个 rack-scale 产品,并把 DeepSeek、Qwen、Mamba、Llama 等模型列为当前系统运行对象。4 TechCrunch 补充称,Etched 最新一轮未公布的 5 亿美元融资在 2025 年 12 月完成,投后估值 50 亿美元。8
这里的判断要克制:已签合同不等于已经大规模收入,客户验证也不等于量产交付。但资本市场给出的方向很清楚,推理阶段正在形成足够大的专用硬件预算。训练要灵活,推理要便宜、低延迟、可规模化运行。只要大模型调用继续从聊天转向 Agent、搜索、编程、客服、视频和广告生产,prefill、decode、内存带宽、机柜功耗都会变成可以单独优化的利润池。
对芯片和系统创业公司来说,Etched 把门槛也抬高了。下一轮投资人不会只看芯片架构故事,还会追问:整机在哪里组装,软件栈谁维护,产能怎么爬坡,客户合同是否能转成收入,功耗和机柜密度是否适配数据中心现实。

5. 基建瓶颈正在从 GPU 扩散到 CPU 和电力

AWS 的 Graviton5 C9g/C9gd 更新看似是常规云实例发布,但它把一个趋势说穿了:Agentic AI 不只消耗 GPU。模型推理之外的编排、工具调用、状态管理、并发调度、数据预处理,很大一部分跑在 CPU、内存和网络层。AWS 把 C9g 明确列为适合 agentic AI 工作负载,并给出 5 倍 L3 缓存、DDR5 8800MT/s、最高 100 Gbps 网络和 72 Gbps EBS 带宽等配置。5
AWS Graviton chip
AWS 把 Graviton5 C9g/C9gd 放进 agentic AI 的控制面叙事里,说明云厂商也在争夺 GPU 外围的调度、内存和网络预算。9
电力侧的信号更硬。Reuters 报道,Bloom Energy 与 Brookfield 将 AI 基础设施电力项目融资框架从 50 亿美元扩到 250 亿美元,Brookfield 的 AI Infrastructure Fund 目标部署 1000 亿美元。6 这不是「绿色叙事」的边角料,而是算力交付表的一部分。没有可预测的上电速度,再便宜的 GPU、CPU 或专用推理芯片都只是在等排期。

风口判断:下一个季度看三类预算

第一类是 Agent 执行预算。Sonnet 5 的价格带会推动更多团队把 Agent 放进真实流程,但采购会更关注总任务成本、失败率、权限和审计,而不是单次调用单价。
第二类是推理基础设施预算。Etched、AWS 和 Bloom/Brookfield 分别指向专用推理系统、CPU 控制面和电力融资。AI 基建会继续拆成更细的利润池,单一 GPU 叙事已经不够解释整条成本链。
第三类是垂直工作台预算。Claude Science 和 Google 的创意模型都说明,模型供应商正在把能力塞进具体职业流程。对创业公司而言,机会不在重新包装通用聊天,而在找到一个高频、高成本、强审计要求的专业流程,把模型、工具、数据和复核做成一个闭环。

関連コンテンツ

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。