大模型不是做 AI Agent 的最优解——小语言模型(SLM)才是

大模型不是做 AI Agent 的最优解——小语言模型(SLM)才是

NVIDIA 研究院最新论文揭示:真实 Agent 大多在重复执行窄任务,SLM 的推理成本比 LLM 低 10–30 倍,在工具调用等专项能力上甚至超过 GPT-4o。PM 如何用「SLM 兜底 + LLM 兜顶」的双层架构降本增效?

技术趋势翻译官:给产品经理的简报
2026/6/3 · 17:56
購読 1 件 · コンテンツ 1 件

リサーチノート

今日趋势:小语言模型(SLM)正在接管智能体 AI 的执行层 技术来源:NVIDIA 研究院 ArXiv 论文(2025.06.02)+ Microsoft Build 2026 产品发布

这个技术趋势是什么

过去两年,AI Agent 的主流做法是:把任务直接扔给 GPT-4o 或 Claude 3.5 这样的大语言模型(LLM),让它既理解需求、又规划步骤、又调用工具。
2025 年 6 月 2 日,来自 NVIDIA 研究院的 8 位研究员在 ArXiv 发表了一篇立场论文,明确提出:这个做法在大多数 Agent 场景下是浪费1
他们的核心论断是:真实世界里的 Agent 大多在干一件事——把一个复杂任务拆成若干个小的、重复的子任务,然后反复执行。而这些子任务根本不需要千亿参数的大脑,参数量在 10 亿到 120 亿之间的「小语言模型(Small Language Model,SLM)」完全够用,而且在专项任务上往往更准、更快、成本更低。
SLM 的定义:一般指参数量在 10 亿(1B)到 120 亿(12B)之间的语言模型,区别于 700 亿参数以上的 LLM。

解决了什么问题:LLM 做 Agent 的三个代价

当前「什么任务都用 LLM」的 Agent 架构,在规模化时会撞上三面墙:
第一,成本墙。论文中给出的数据是:70 亿参数 SLM 的推理延迟、能耗和算力消耗,比 700 亿到 1750 亿参数的 LLM 低 10 到 30 倍。一个 Agent 每次完成任务要调用几十次模型,乘数效应非常显著。1
第二,速度墙。LLM 推理本质上是网络往返,单次调用的延迟可达数秒。Agent 需要在「感知—规划—执行」的循环里高速迭代,延迟是硬伤。SLM 可以部署在本地或边缘设备,单次响应可达毫秒级。
第三,精度墙。大模型的「通才」特性有时反而是噪声。针对特定任务微调后的 SLM,在格式遵循、工具调用准确率上,往往超过通用 LLM。论文给出了一批有据可查的数据点:
模型参数量对比 LLM具体能力
Microsoft Phi-227 亿约等于 300 亿模型常识推理、代码生成;推理速度快 15 倍
Microsoft Phi-3 small70 亿约等于 700 亿模型语言理解、常识推理
Salesforce xLAM-2-8B80 亿超过 GPT-4o、Claude 3.5工具调用准确率
DeepSeek-R1-Distill-Qwen-7B70 亿超过 Claude-3.5-Sonnet、GPT-4o常识推理
NVIDIA Nemotron-H2–90 亿混合约等于 300 亿稠密 LLM指令跟随、代码生成;FLOPs 仅为其 1/10
1
论文还给出了三个可直接参考的开源 Agent 框架替换比例:在 MetaGPT 里约 60% 的 LLM 调用可被 SLM 可靠完成,Open Operator 里约 40%,Cradle(计算机控制 Agent)里约 70%
コンテンツカードを読み込んでいます…

产品落地路径:PM 可以做的三件事

这个技术趋势对产品侧的含义,不是「把你们的 API 从 GPT-4o 换成小模型」。它的核心是架构思路的转变:把 Agent 的任务拆得更细,用「小模型集群」替代「单一大模型通才」。
Microsoft Build 2026 上,微软发布的多智能体平台方向印证了这个判断:未来 Agent 系统的主流形态是多个专项 Agent 协同,每个 Agent 负责一类窄任务,共享同一个数据上下文。2
Fabric IQ 分层架构:底层统一数据,中层语义模型,顶层操作智能(本体)
Fabric IQ 多智能体上下文分层架构 2
基于上面的素材,PM 可以把这个趋势拆解成三个可操作的决策点:
① 盘点你们 Agent 里哪些调用是「重复窄任务」
把当前 Agent 的每次模型调用按「任务类型」分类。典型的可替换场景:文档格式化、结构化数据提取、路由分类、工具调用参数填写、模板生成。这些任务用微调后的 70 亿模型完成,成本和速度都会好很多。
② 推动「SLM 兜底 + LLM 兜顶」的双层架构
常规路径走 SLM,只有遇到需要真正跨领域推理、开放式生成、或不确定性极高的任务时才升级到 LLM。这种异构 Agent 架构(论文称为 heterogeneous agentic system)是研究者认为最具经济性的方向。
③ 用 Agent 自身产生的数据持续微调 SLM
Agent 在运行中会自然积累大量「输入-输出」对,这正是微调 SLM 的最优数据。SLM 微调只需数个 GPU 小时(通常可在一天内完成),而同等规模的 LLM 微调往往需要数周。这形成一个飞轮:Agent 跑得越多,专属 SLM 越准,成本越低。

给 PM 的一句话结论

用 LLM 做 Agent 有点像雇一个顾问来做所有事情,包括端茶送水。真正规模化的 Agent 产品,核心竞争力在于把任务拆得足够细,让每个环节都只用最适合它的模型。SLM 不是 LLM 的低配版,它是 Agent 架构走向生产成熟的信号。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。