AI 全景情报 0701：Agent 性价比回落，推理硬件和电力闸口同时升温 (2026)

开盘前先看成本曲线。过去 24 小时里，前沿模型、生成式媒体、推理芯片、CPU 控制面和电力资金同时给出新信号：AI 竞争正在从「谁的模型更强」切到「谁能把强模型放进可运营、可负担、可审计的工作流」。

优先级	信号	已确认事实	对 AI 从业者的含义
1	Agent 执行层降价	Anthropic 发布 Claude Sonnet 5，称其在代理式编码、工具使用、知识工作等方面较 Sonnet 4.6 提升，并在 Claude Platform 以 2 美元/百万输入 token、10 美元/百万输出 token 的介绍价开放至 2026 年 8 月 31 日；之后标准价为 3 美元/百万输入 token、15 美元/百万输出 token。1	企业 Agent 的试点门槛继续下降，预算会从「能不能用前沿模型」转向「如何控制长任务 token、工具调用和失败重试」。
2	科研 Agent 进入垂直工作台	Anthropic 同日推出 Claude Science beta，面向 Pro、Max、Team、Enterprise 用户，集成科研常用工具、60 多个科学技能与连接器，并要求输出带可审计历史。2	垂直 Agent 不再只拼聊天体验，下一步会拼领域工具链、可复现记录、权限与本地/HPC 计算接入。
3	创意媒体模型走向低延迟 API	Google Cloud 宣布 Nano Banana 2 Lite 正式可用，Gemini Omni Flash 进入公开预览；前者主打快速、低成本图像生成/编辑，后者主打视频生成和对话式编辑，并标出视频输出 0.10 美元/秒的价格。3	设计、广告、电商和内容工具的竞争点会从「能生成」转向「能实时迭代、能接入 Agent 流程、能管版权和水印」。
4	推理芯片公司开始交付叙事	Etched 宣布已有工作芯片、累计融资 8 亿美元、超过 10 亿美元已签客户合同，并称正在验证面向 prefill 和 decode 的 rack-scale 推理系统。4	推理成本仍是大客户最愿意下注的环节。芯片创业公司若想撬动预算，光有 benchmark 不够，必须证明整机、软件、产能和客户合同都能闭环。
5	非 GPU 资源成新瓶颈	AWS 推出 Graviton5 驱动的 EC2 C9g/C9gd，称相比 C8g 每 vCPU 性能最高提升 25%，并把 agentic AI 的并发环境、CPU-bound reasoning 与多步任务编排列为适用场景。5 同一天，Reuters 报道 Bloom Energy 与 Brookfield 将 AI 基础设施电力融资框架从 50 亿美元扩大到 250 亿美元。6	下半年 AI 基建不只看 GPU 供给。CPU 调度、内存、网络、EBS、边缘电力和数据中心上电速度会一起决定推理毛利。

1. Sonnet 5 把 Agent 成本问题重新摆到台面上

Anthropic 对 Sonnet 5 的定位很直接：它不是拿来刷新「最强模型」叙事，而是把更强的代理式能力下放到 Sonnet 价格带。官方对比里，Sonnet 5 在 SWE-bench Pro、Terminal-Bench 2.1、OSWorld-Verified 等任务上明显高于 Sonnet 4.6，但仍低于或接近 Opus 4.8 的部分指标。1

Claude Sonnet 5 benchmark table — Anthropic 的对比表显示，Sonnet 5 更像是把代理式编码和工具使用能力推到更低价格带，而不是单纯追求最高端模型位置。1

对开发团队来说，这条新闻的关键不是「又多了一个模型名」。真正要重算的是 Agent 单位经济：长任务会吃掉更多上下文，工具调用会带来外部系统成本，失败重试会拉高总账单。Sonnet 5 的介绍价把试点门槛压低，但也会让更多团队把 Agent 从 demo 拉到真实工单、销售运营、数据分析、代码维护里，账单暴露得更快。

安全侧也不是背景音。Anthropic 说 Sonnet 5 在代理式安全、拒绝恶意请求、抵御提示注入方面较 Sonnet 4.6 有改善，同时默认开启网络安全防护。1 Reuters 另称，美国商务部预计将解除对 Anthropic Fable 5 的出口管制，距离 6 月 12 日要求 Anthropic 暂停其最先进模型访问还不到三周。7 这提醒企业客户：模型准入、国别访问和安全分级会直接影响部署计划，不能只按 API 价格做采购表。

2. Claude Science 说明垂直 Agent 开始拼「可复现」

Claude Science 是更值得产品经理盯的一条线。它把 PubMed、Jupyter、R、终端、HPC 登录节点、科研图形和论文手稿放进一个研究工作台，并强调每个输出都要有可审计历史、代码环境和消息记录。2

这类产品的竞争点不在「模型懂不懂生物学」这一句。科研用户真正怕的是黑箱结果、引用不准、图表无法复现、敏感数据离开实验室系统。Anthropic 的解法是让 Agent 在本地 macOS、Linux、远程 SSH 或 HPC 登录节点上工作，只把每一步所需上下文发给 Claude，并让 reviewer agent 检查引用、数字和图表与代码的一致性。2

这对其他垂直行业是一个样板：法律、金融、药研、工程仿真、半导体 EDA 的 Agent 产品，不能停在「聊天 + 文件上传」。能不能接入行业软件，能不能保留证据链，能不能让专家复核每一步，才是从试用走到预算的分水岭。

3. Google 把生成式媒体推向「秒级迭代」

Google Cloud 这次给创意工具链补了两块砖：Nano Banana 2 Lite 面向快速图像生成和编辑，Gemini Omni Flash 面向视频生成与对话式编辑。官方称 Nano Banana 2 Lite 可在低至 4 秒生成图像，Gemini Omni Flash 支持角色/产品替换、重打光、风格迁移和带音频的视频输出。3

Nano Banana 2 Lite benchmark chart — Google Cloud 的图表把 Nano Banana 2 Lite 放在延迟和价格维度上比较，重点不是单张图质量，而是大规模迭代成本。3

这条线对从业者的含义很明确：创意 AI 的护城河会从模型单点能力转向工作流控制。广告公司、电商平台、设计工具不缺「生成一张图」的入口，缺的是能批量 A/B 测试、保持角色与产品一致、支持本地化文案、保留内容凭证和水印的端到端链路。Google 称 C2PA 内容凭证和 SynthID 水印默认开启，这部分会成为企业采购里的硬指标。3

4. Etched 的重点是「系统交付」，不是又一张芯片 PPT

Etched 的新闻有两个数字足够刺眼：累计融资 8 亿美元，已签客户合同超过 10 亿美元。公司还称 A0 硅片已在 TSMC N4P 工艺上一次成功，正在和客户验证首个 rack-scale 产品，并把 DeepSeek、Qwen、Mamba、Llama 等模型列为当前系统运行对象。4 TechCrunch 补充称，Etched 最新一轮未公布的 5 亿美元融资在 2025 年 12 月完成，投后估值 50 亿美元。8

这里的判断要克制：已签合同不等于已经大规模收入，客户验证也不等于量产交付。但资本市场给出的方向很清楚，推理阶段正在形成足够大的专用硬件预算。训练要灵活，推理要便宜、低延迟、可规模化运行。只要大模型调用继续从聊天转向 Agent、搜索、编程、客服、视频和广告生产，prefill、decode、内存带宽、机柜功耗都会变成可以单独优化的利润池。

对芯片和系统创业公司来说，Etched 把门槛也抬高了。下一轮投资人不会只看芯片架构故事，还会追问：整机在哪里组装，软件栈谁维护，产能怎么爬坡，客户合同是否能转成收入，功耗和机柜密度是否适配数据中心现实。

5. 基建瓶颈正在从 GPU 扩散到 CPU 和电力

AWS 的 Graviton5 C9g/C9gd 更新看似是常规云实例发布，但它把一个趋势说穿了：Agentic AI 不只消耗 GPU。模型推理之外的编排、工具调用、状态管理、并发调度、数据预处理，很大一部分跑在 CPU、内存和网络层。AWS 把 C9g 明确列为适合 agentic AI 工作负载，并给出 5 倍 L3 缓存、DDR5 8800MT/s、最高 100 Gbps 网络和 72 Gbps EBS 带宽等配置。5

AWS Graviton chip — AWS 把 Graviton5 C9g/C9gd 放进 agentic AI 的控制面叙事里，说明云厂商也在争夺 GPU 外围的调度、内存和网络预算。9

电力侧的信号更硬。Reuters 报道，Bloom Energy 与 Brookfield 将 AI 基础设施电力项目融资框架从 50 亿美元扩到 250 亿美元，Brookfield 的 AI Infrastructure Fund 目标部署 1000 亿美元。6 这不是「绿色叙事」的边角料，而是算力交付表的一部分。没有可预测的上电速度，再便宜的 GPU、CPU 或专用推理芯片都只是在等排期。

风口判断：下一个季度看三类预算

第一类是 Agent 执行预算。Sonnet 5 的价格带会推动更多团队把 Agent 放进真实流程，但采购会更关注总任务成本、失败率、权限和审计，而不是单次调用单价。

第二类是推理基础设施预算。Etched、AWS 和 Bloom/Brookfield 分别指向专用推理系统、CPU 控制面和电力融资。AI 基建会继续拆成更细的利润池，单一 GPU 叙事已经不够解释整条成本链。

第三类是垂直工作台预算。Claude Science 和 Google 的创意模型都说明，模型供应商正在把能力塞进具体职业流程。对创业公司而言，机会不在重新包装通用聊天，而在找到一个高频、高成本、强审计要求的专业流程，把模型、工具、数据和复核做成一个闭环。

AI 全景情报 0701：Agent 性价比回落，推理硬件和电力闸口同时升温