A new engineering discipline was born this year, and most AI teams haven't heard the name yet. It's called LLM FinOps — and the teams who practice it are running the same agents as everyone else at 70-90% lower cost.

Twitter AI 长文精选
2026/05/20 19:50:27@Graf
同款 Agent 成本差 30 倍,以及永远先建基准——本期 Twitter AI 长文精选
本期精选 Twitter 上两篇高热度 AI 工程长文:其一拆解「LLM FinOps」四大成本杠杆,同款 Agent 架构纪律不同成本相差 10-30 倍;其二由 SGLang 核心开发者总结在 Agent 时代工程判断力为何比写代码更值钱。
研究速览
本期精选 2026 年 5 月 10 日 Twitter 上引发广泛讨论的 2 篇 AI 深度长文,聚焦 AI 工程师和创业者最关心的两个问题:如何控制 Agent 成本,以及如何判断 Agent 写的代码是否正确。
精选一:LLM FinOps——同款 Agent,成本差 30 倍的秘密
核心观点:做相同的事情,用相同的模型,架构纪律不同的团队,每月 API 账单相差 10-30 倍。
这篇长文由 Data & AI Architect @DataDan 发布于 5 月 10 日,围绕一个刺眼的数字展开:1
- 没有成本管控的 Agent 解决一个软件工程任务:$5-8/次
- 同一任务,做好路由 + 缓存 + 输出控制后:$0.30-0.80/次
- Paxrel 案例:完整自主 Agent 管道从 $90/月压缩到 $3/月
正在加载内容卡片…
为什么 2026 年这个问题突然变得紧迫?两个原因叠加:其一,Anthropic 已把企业版从包月制切换为按 token 计费,Google 和 OpenAI 预计在 6 个月内跟进2;其二,Gartner 的 2026 年 3 月分析显示,Agentic AI 每次任务消耗的 token 是普通聊天机器人的 5-30 倍——Agent 会规划、调工具、观察结果、重试失败,每个步骤都是一次 LLM 调用,上下文随循环累积,到第 15 步可能已经带着 50K+ 输入 token 在跑。
四个成本杠杆
作者把降本路径归纳为四根支柱,按影响量级排序:
杠杆一:模型路由——影响最大,也最容易被忽视。
2026 年同等能力的模型价差极为悬殊:GPT-5.4 Pro 约 $15/百万 token,Haiku 4.5 约 $0.25/百万 token,差距 60 倍。Zylos Research 的数据显示,80% 的 Agent 任务——分类、路由、提取、格式化——根本不需要旗舰模型,只有 20% 的复杂推理任务才需要1。把所有调用都走最贵模型的团队,相当于用 $15 的预算做了一件 $0.25 就够的事。
杠杆二:Prompt 缓存——配置改动,立竿见影。
Anthropic 和 OpenAI 都确认 prompt 缓存可将可缓存工作负载的成本降低 50-90%。一个 1000 token 的系统提示,乘以每天 10 万次请求,等于每月 30 亿个冗余 token。生产环境实测缓存命中率可达 73-77%。这不是工程改造,是配置问题。
杠杆三:输出端纪律——容易被遗忘的最贵部分。
Zylos Research 数据:输出 token 与输入 token 的成本比中位数是 4:1,高端推理模型达 8:1。这意味着控制输出长度比控制输入长度在成本上高效 4-8 倍。具体做法:强制 JSON 结构化输出(schema 约束输出边界)、显式设置
max_tokens、压缩 tool 输出再入 context(5000 token 的工具返回值通常可以压缩到 500 token)。杠杆四:防失控护栏——防止账单在夜里爆炸。
作者提到,去年 4 月 29 日有团队收到一张 $437 的隔夜账单——一个没有设置迭代上限的 Agent 持续循环到天亮。每个生产 Agent 都需要:最大迭代次数(收敛不了就停并上报),每工作流的 token 预算硬上限,重复调用检测(同参数调用 3 次以上就杀掉),以及单会话成本超阈值时实时告警。LangGraph、CrewAI、OpenAI Agents SDK 都支持这些配置,但默认全都不开。
作者最后提出三个检验问题,任何一个答不上来都说明你还没有 LLM FinOps:你的 Agent 成本按工作流步骤和模型分拆了吗?你的 LLM 调用里有多少比例走的是最贵的模型?单个 Agent 会话超过多少钱会触发告警?
精选二:Agent 时代,工程师最有价值的技能是说「不」
核心观点:AI 可以写代码,但它不知道你的代码对不对——建立基准测试的优先级,高于一切新功能。
这篇长文由 SGLang 核心开发者 Chayenne Zhao(@GenAI_is_real)发布于 4 月 15 日,作者身兼两个角色:推理引擎开发者(SGLang 有 25K+ stars,运行在 40 万张 GPU 上),以及 Claude Code 的重度用户(SGLang Omni 最新的基准测试基础设施,数千行代码,基本全部由 Claude Code 执行)。这种「既做铁锹又用铁锹挖矿」的立场,让他的判断和只从一个角度看问题的人不一样。3
正在加载内容卡片…
他拿自己做 how-to-sglang 的经历作证:项目启动时有很多诱人的方向——加 RAG、接更多数据源、做多轮对话、试 Agent 辩论。但他第一件事是建 LLM-as-a-Judge 评测框架。在没有基准测试之前加任何功能,都是在盲目飞行。结果:「大多数看起来很有希望的优化,在测试中显示毫无改善。」
努力但不测量,是自欺欺人。
他在 SGLang Omni 的经历更直接。接手前,有人合并了一个优化 PR,TPS 数字好看,大家满意。一段时间后准确率下降,没人知道是哪次提交导致的,只能痛苦 bisect。他接手第一件事:停止所有开发,先建准确率和性能 CI,再谈优化。最终指标:S2 Pro WER 1.18%,接受标准 ±0.1%,全部通过。
Prompt 本身就是系统设计,是他给的第二个洞察。作者说 Omni 的基准测试重构主要由 AI 完成,但关键决策——任务和模型的正交分离——是他自己定的。把 722 行单体脚本拆成五个模块,原因不是「更整洁」,而是他预见到后续会有新模型加入,没有模型无关抽象,每次新模型上线都要重写评测框架。这个决策写进了 prompt,AI 只是执行了设计。
他的最终判断简洁:判断哪些事情不该做、什么时候停下来,比让 AI 写更多代码更有价值。「工程判断力」在 Agent 时代不是被替代的东西,而是变得更稀缺的东西——因为 AI 可以生产海量代码,但它无法告诉你这些代码是否值得生产。
两篇文章的共同指向
这两篇文章从不同角度指向同一件事:AI 工具的使用效率取决于使用者设定的约束和测量体系,而不是工具本身的能力。一个没有成本护栏的 Agent 会把账单烧穿,一个没有基准测试的 Agent 项目会在不知不觉中退步。工具越强大,「框定边界」的工程判断越值钱。
13
围绕这条内容继续补充观点或上下文。