同款 Agent 成本差 30 倍，以及永远先建基准——本期 Twitter AI 长文精选

本期精选 2026 年 5 月 10 日 Twitter 上引发广泛讨论的 2 篇 AI 深度长文，聚焦 AI 工程师和创业者最关心的两个问题：如何控制 Agent 成本，以及如何判断 Agent 写的代码是否正确。

精选一：LLM FinOps——同款 Agent，成本差 30 倍的秘密

核心观点：做相同的事情，用相同的模型，架构纪律不同的团队，每月 API 账单相差 10-30 倍。

这篇长文由 Data & AI Architect @DataDan 发布于 5 月 10 日，围绕一个刺眼的数字展开：1

没有成本管控的 Agent 解决一个软件工程任务：$5-8/次
同一任务，做好路由 + 缓存 + 输出控制后：$0.30-0.80/次
Paxrel 案例：完整自主 Agent 管道从 $90/月压缩到 $3/月

DataDan｜AI Data Engineering @ba_niu80557·1w

A new engineering discipline was born this year, and most AI teams haven't heard the name yet. It's called LLM FinOps — and the teams who practice it are running the same agents as everyone else at 70-90% lower cost.

View on X

正在加载内容卡片…

为什么 2026 年这个问题突然变得紧迫？两个原因叠加：其一，Anthropic 已把企业版从包月制切换为按 token 计费，Google 和 OpenAI 预计在 6 个月内跟进2；其二，Gartner 的 2026 年 3 月分析显示，Agentic AI 每次任务消耗的 token 是普通聊天机器人的 5-30 倍——Agent 会规划、调工具、观察结果、重试失败，每个步骤都是一次 LLM 调用，上下文随循环累积，到第 15 步可能已经带着 50K+ 输入 token 在跑。

四个成本杠杆

作者把降本路径归纳为四根支柱，按影响量级排序：

杠杆一：模型路由——影响最大，也最容易被忽视。

2026 年同等能力的模型价差极为悬殊：GPT-5.4 Pro 约 $15/百万 token，Haiku 4.5 约 $0.25/百万 token，差距 60 倍。Zylos Research 的数据显示，80% 的 Agent 任务——分类、路由、提取、格式化——根本不需要旗舰模型，只有 20% 的复杂推理任务才需要1。把所有调用都走最贵模型的团队，相当于用 $15 的预算做了一件 $0.25 就够的事。

杠杆二：Prompt 缓存——配置改动，立竿见影。

Anthropic 和 OpenAI 都确认 prompt 缓存可将可缓存工作负载的成本降低 50-90%。一个 1000 token 的系统提示，乘以每天 10 万次请求，等于每月 30 亿个冗余 token。生产环境实测缓存命中率可达 73-77%。这不是工程改造，是配置问题。

杠杆三：输出端纪律——容易被遗忘的最贵部分。

Zylos Research 数据：输出 token 与输入 token 的成本比中位数是 4:1，高端推理模型达 8:1。这意味着控制输出长度比控制输入长度在成本上高效 4-8 倍。具体做法：强制 JSON 结构化输出（schema 约束输出边界）、显式设置 max_tokens、压缩 tool 输出再入 context（5000 token 的工具返回值通常可以压缩到 500 token）。

杠杆四：防失控护栏——防止账单在夜里爆炸。

作者提到，去年 4 月 29 日有团队收到一张 $437 的隔夜账单——一个没有设置迭代上限的 Agent 持续循环到天亮。每个生产 Agent 都需要：最大迭代次数（收敛不了就停并上报），每工作流的 token 预算硬上限，重复调用检测（同参数调用 3 次以上就杀掉），以及单会话成本超阈值时实时告警。LangGraph、CrewAI、OpenAI Agents SDK 都支持这些配置，但默认全都不开。

作者最后提出三个检验问题，任何一个答不上来都说明你还没有 LLM FinOps：你的 Agent 成本按工作流步骤和模型分拆了吗？你的 LLM 调用里有多少比例走的是最贵的模型？单个 Agent 会话超过多少钱会触发告警？

精选二：Agent 时代，工程师最有价值的技能是说「不」

核心观点：AI 可以写代码，但它不知道你的代码对不对——建立基准测试的优先级，高于一切新功能。

这篇长文由 SGLang 核心开发者 Chayenne Zhao（@GenAI_is_real）发布于 4 月 15 日，作者身兼两个角色：推理引擎开发者（SGLang 有 25K+ stars，运行在 40 万张 GPU 上），以及 Claude Code 的重度用户（SGLang Omni 最新的基准测试基础设施，数千行代码，基本全部由 Claude Code 执行）。这种「既做铁锹又用铁锹挖矿」的立场，让他的判断和只从一个角度看问题的人不一样。3

Chayenne Zhao | SGLang Core Dev @GenAI_is_real·5w

In the Age of Agents, an Engineer's Most Valuable Skill Is Saying "No" AI can write thousands of lines a day. But it can't tell you which direction is wrong — only benchmarking can.

View on X

正在加载内容卡片…

他拿自己做 how-to-sglang 的经历作证：项目启动时有很多诱人的方向——加 RAG、接更多数据源、做多轮对话、试 Agent 辩论。但他第一件事是建 LLM-as-a-Judge 评测框架。在没有基准测试之前加任何功能，都是在盲目飞行。结果：「大多数看起来很有希望的优化，在测试中显示毫无改善。」

努力但不测量，是自欺欺人。

他在 SGLang Omni 的经历更直接。接手前，有人合并了一个优化 PR，TPS 数字好看，大家满意。一段时间后准确率下降，没人知道是哪次提交导致的，只能痛苦 bisect。他接手第一件事：停止所有开发，先建准确率和性能 CI，再谈优化。最终指标：S2 Pro WER 1.18%，接受标准 ±0.1%，全部通过。

Prompt 本身就是系统设计，是他给的第二个洞察。作者说 Omni 的基准测试重构主要由 AI 完成，但关键决策——任务和模型的正交分离——是他自己定的。把 722 行单体脚本拆成五个模块，原因不是「更整洁」，而是他预见到后续会有新模型加入，没有模型无关抽象，每次新模型上线都要重写评测框架。这个决策写进了 prompt，AI 只是执行了设计。

他的最终判断简洁：判断哪些事情不该做、什么时候停下来，比让 AI 写更多代码更有价值。「工程判断力」在 Agent 时代不是被替代的东西，而是变得更稀缺的东西——因为 AI 可以生产海量代码，但它无法告诉你这些代码是否值得生产。

两篇文章的共同指向

这两篇文章从不同角度指向同一件事：AI 工具的使用效率取决于使用者设定的约束和测量体系，而不是工具本身的能力。一个没有成本护栏的 Agent 会把账单烧穿，一个没有基准测试的 Agent 项目会在不知不觉中退步。工具越强大，「框定边界」的工程判断越值钱。

1 3