大模型不是做 AI Agent 的最优解——小语言模型（SLM）才是

今日趋势：小语言模型（SLM）正在接管智能体 AI 的执行层 技术来源：NVIDIA 研究院 ArXiv 论文（2025.06.02）+ Microsoft Build 2026 产品发布

这个技术趋势是什么

过去两年，AI Agent 的主流做法是：把任务直接扔给 GPT-4o 或 Claude 3.5 这样的大语言模型（LLM），让它既理解需求、又规划步骤、又调用工具。

2025 年 6 月 2 日，来自 NVIDIA 研究院的 8 位研究员在 ArXiv 发表了一篇立场论文，明确提出：这个做法在大多数 Agent 场景下是浪费。1

他们的核心论断是：真实世界里的 Agent 大多在干一件事——把一个复杂任务拆成若干个小的、重复的子任务，然后反复执行。而这些子任务根本不需要千亿参数的大脑，参数量在 10 亿到 120 亿之间的「小语言模型（Small Language Model，SLM）」完全够用，而且在专项任务上往往更准、更快、成本更低。

SLM 的定义：一般指参数量在 10 亿（1B）到 120 亿（12B）之间的语言模型，区别于 700 亿参数以上的 LLM。

解决了什么问题：LLM 做 Agent 的三个代价

当前「什么任务都用 LLM」的 Agent 架构，在规模化时会撞上三面墙：

第一，成本墙。论文中给出的数据是：70 亿参数 SLM 的推理延迟、能耗和算力消耗，比 700 亿到 1750 亿参数的 LLM 低 10 到 30 倍。一个 Agent 每次完成任务要调用几十次模型，乘数效应非常显著。1

第二，速度墙。LLM 推理本质上是网络往返，单次调用的延迟可达数秒。Agent 需要在「感知—规划—执行」的循环里高速迭代，延迟是硬伤。SLM 可以部署在本地或边缘设备，单次响应可达毫秒级。

第三，精度墙。大模型的「通才」特性有时反而是噪声。针对特定任务微调后的 SLM，在格式遵循、工具调用准确率上，往往超过通用 LLM。论文给出了一批有据可查的数据点：

模型	参数量	对比 LLM	具体能力
Microsoft Phi-2	27 亿	约等于 300 亿模型	常识推理、代码生成；推理速度快 15 倍
Microsoft Phi-3 small	70 亿	约等于 700 亿模型	语言理解、常识推理
Salesforce xLAM-2-8B	80 亿	超过 GPT-4o、Claude 3.5	工具调用准确率
DeepSeek-R1-Distill-Qwen-7B	70 亿	超过 Claude-3.5-Sonnet、GPT-4o	常识推理
NVIDIA Nemotron-H	2–90 亿混合	约等于 300 亿稠密 LLM	指令跟随、代码生成；FLOPs 仅为其 1/10

论文还给出了三个可直接参考的开源 Agent 框架替换比例：在 MetaGPT 里约 60% 的 LLM 调用可被 SLM 可靠完成，Open Operator 里约 40%，Cradle（计算机控制 Agent）里约 70%。

コンテンツカードを読み込んでいます…

产品落地路径：PM 可以做的三件事

这个技术趋势对产品侧的含义，不是「把你们的 API 从 GPT-4o 换成小模型」。它的核心是架构思路的转变：把 Agent 的任务拆得更细，用「小模型集群」替代「单一大模型通才」。

Microsoft Build 2026 上，微软发布的多智能体平台方向印证了这个判断：未来 Agent 系统的主流形态是多个专项 Agent 协同，每个 Agent 负责一类窄任务，共享同一个数据上下文。2

Fabric IQ 分层架构：底层统一数据，中层语义模型，顶层操作智能（本体） — Fabric IQ 多智能体上下文分层架构 2

基于上面的素材，PM 可以把这个趋势拆解成三个可操作的决策点：

① 盘点你们 Agent 里哪些调用是「重复窄任务」

把当前 Agent 的每次模型调用按「任务类型」分类。典型的可替换场景：文档格式化、结构化数据提取、路由分类、工具调用参数填写、模板生成。这些任务用微调后的 70 亿模型完成，成本和速度都会好很多。

② 推动「SLM 兜底 + LLM 兜顶」的双层架构

常规路径走 SLM，只有遇到需要真正跨领域推理、开放式生成、或不确定性极高的任务时才升级到 LLM。这种异构 Agent 架构（论文称为 heterogeneous agentic system）是研究者认为最具经济性的方向。

③ 用 Agent 自身产生的数据持续微调 SLM

Agent 在运行中会自然积累大量「输入-输出」对，这正是微调 SLM 的最优数据。SLM 微调只需数个 GPU 小时（通常可在一天内完成），而同等规模的 LLM 微调往往需要数周。这形成一个飞轮：Agent 跑得越多，专属 SLM 越准，成本越低。

给 PM 的一句话结论

用 LLM 做 Agent 有点像雇一个顾问来做所有事情，包括端茶送水。真正规模化的 Agent 产品，核心竞争力在于把任务拆得足够细，让每个环节都只用最适合它的模型。SLM 不是 LLM 的低配版，它是 Agent 架构走向生产成熟的信号。

大模型不是做 AI Agent 的最优解——小语言模型（SLM）才是

这个技术趋势是什么

解决了什么问题：LLM 做 Agent 的三个代价

产品落地路径：PM 可以做的三件事

给 PM 的一句话结论

参考ソース