别让优化器给自己打分:Google 把 Agent 质量飞轮交给编码 Agent1×0:004:580:08事件播报0:54技术拆解2:23工程意义3:30落地建议0:08主播欢迎收听 AI Loop Engineering 每日深度播客。今天的主事件来自过去二十四小时边界内:Google Developers Blog 在六月三十日发布 Agent Quality Flywheel。它不是一个新模型,也不是单独的评分面板,而是让编码 Agent 带着评估数据、自动评分和失败分析,反复改进另一个 Agent。0:30主播Google 在文章里指出,很多团队会改提示词,也会攒几条评测样例,但真正难的是判断「三条例子变好」有没有让线上十条例子变坏。这个 quality flywheel skill 把流程拆成五步:准备数据,跑推理,评分,分析失败,再优化迭代。重点是把改动放进可复现循环,而不是靠肉眼 vibe check。0:54主播先看数据层。Google Cloud 的 Agent evaluation 文档把 eval case 定义成 Agent 任务规格,可以包含多轮对话、上下文状态和模拟用户响应。每次执行会生成 trace。Google 的 tracing 文档说,trace 是由 span 组成的时间线,能记录模型输入输出、工具调用和相关属性。长循环 Agent 的错误,经常就藏在这条时间线里。1:20主播再看指标层。Google Cloud 的指标文档列出三类指标:Google 管理的预定义指标、自定义 LLM rubric,以及自定义代码指标。预定义指标覆盖最终响应质量、幻觉、安全、工具使用质量,也覆盖多轮任务成功和多轮轨迹质量。它们的价值不在于给一个漂亮分数,而在于能落到具体 trace 上。1:44主播Google 的博客给了一个旅行规划器例子。用户中途改日期、酒店或者人数,编码 Agent 会先读代码,再选择 multi turn task success 和 trajectory quality 两个内置 rater,同时加一个自定义 rubric,专门判断 revision honored,也就是最终计划有没有尊重用户中途修改。2:03主播第一次评估里,二十一个百分点的场景被判成 IGNORED,用户修改被丢掉。更微妙的是,失败不一定发生在内部状态。文章提到,有些案例里内部记忆和工具调用已经存了正确的新日期,但最后回复又把旧日期说给用户。Agent 里面做对了,出口却讲错了。2:23主播这就是本期最值得关注的点:Agent 质量不能只看最终文本。一个系统可能查对了库存,更新了状态,也调用了正确工具,最后却在自然语言回复里泄漏旧信息。只加一个最终答案 verifier,可能看不见故障从哪里开始。把 trace、指标和修复建议接成循环,才是工程化的做法。2:46主播Google 还强调,优化器不能给自己的工作打分。提出修复的可以是编码 Agent、自动优化器,或者人;评分要由 Gemini Enterprise Agent Platform 的 GenAI evaluation service 独立完成。这个边界很重要。如果同一个系统既改提示词又判分,它很容易学会讨好指标,而不是修好用户任务。3:09主播上线后的另一半是持续监控。Google 的 online monitors 文档说,生产环境可以从 Cloud Trace 和 Cloud Logging 抽样,用 Evaluation Service 评分,再把结果写回 Cloud Monitoring,循环通常每十分钟跑一次。这样,质量漂移不只靠用户投诉发现,而可以成为一条时间序列。3:30主播如果你在做生产 Agent,可以先做三件事。第一,挑一个最怕出错的行为,写成 eval case,比如客服 Agent 有没有真正关闭工单,代码 Agent 有没有真的跑过测试,研究 Agent 有没有把来源放进最终报告。不要一开始就追一百个指标。3:47主播第二,把 trace 打全。在线监控需要 Agent 名称、对话 ID、输入输出、系统指令和工具定义。缺工具定义时,rater 可能把合法调用误判成错误。第三,每轮修复都保留人类审批,因为低分可能来自提示词,也可能来自工具接口或业务规则不清。4:07主播今天可以带走的判断是:Agent 工程正在从「让模型更聪明」,转向「让改动可验证」。这会改变团队分工:产品负责人定义什么叫成功,工程师保证 trace 和工具语义可被读取,评估服务负责独立打分,编码 Agent 只提出可审查的修复。哪怕你不用 Google 这套平台,也可以先照着这个思路做一个小循环:固定十条失败会话,保留每次运行轨迹,改动只和一个指标对照。下次你改一行 prompt,真正该问的不是它听起来顺不顺,而是哪条 trace、哪个指标、哪组生产会话能证明,这次改动没有把别处弄坏。
Añade más opiniones o contexto en torno a este contenido.