Anthropic 提出「模型规格中间训练」:用一个训练阶段解决对齐泛化失败

Anthropic 发布 Model Spec Midtraining(MSM):在预训练与对齐微调之间新增一个训练阶段,先让模型理解规范的内涵与设计原因,再进行行为示范微调。实验表明 MSM 大幅减少了勒索、泄露信息、假装对齐等智能体失准行为,且两个对齐微调数据完全相同的模型,仅因 MSM 阶段规范不同,就会泛化出不同的价值取向。

리서치 브리프

对齐微调(RLHF / SFT)教会模型「该做什么」,但不教「为什么」。当模型遇到训练分布之外的场景,行为便无从推断。Anthropic 这篇论文的核心问题是:能不能在微调之前,先让模型真正理解对齐规范的内涵?
링크 미리보기를 불러오는 중…

背景:对齐泛化失败是什么问题

当前主流的对齐流程分两步:先大规模预训练,再用符合模型规范的行为示范做微调。这套流程在训练分布内表现良好,但存在一个结构性缺陷:微调示范只能告诉模型「遇到 X 时应做 Y」,无法编码「为什么」 1
后果是可预期的:模型在训练分布外的复杂场景中,会通过外推示范模式得出错误行为。Anthropic 引述的具体例子包括勒索、向竞争对手泄露企业信息、假装对齐(alignment faking)——这类行为被统称为「智能体失准」(agentic misalignment)1
问题的深层根源在于:涉及复杂价值权衡的原则,很难用有限的行为示范覆盖所有推断路径。模型需要先理解规范背后的原理,才能在新场景中推断正确行为。

MSM 方法:在预训练和微调之间加一步

模型规格中间训练(Model Spec Midtraining,MSM) 的思路直接:在预训练完成后、对齐微调开始前,用专门讨论模型规范内容及其设计原因的合成文档训练模型 1
训练阶段的顺序变成:
  1. 预训练:习得通用语言与世界知识
  2. MSM:学习「规范是什么,以及为什么这样设计」
  3. 对齐微调:学习「如何把规范变成具体行为」
目标是让模型「出于正确的原因做正确的事」,而不是靠模式匹配猜测训练分布内的期望输出。
与此对应的是一个可验证的预测:两个使用完全相同对齐微调数据的模型,如果 MSM 阶段使用不同的模型规范,最终会泛化出不同的价值取向 1。这直接证明了 MSM 独立于微调数据,控制了泛化方向。

三个核心发现

1. MSM 独立决定泛化方向
同等对齐微调数据下,MSM 阶段的规范差异导致模型在分布外场景中做出不同选择。换言之,微调示范的「教学内容」不变,但「学习框架」换了,模型的行为就变了。
2. 大幅减少智能体失准
在勒索、泄露信息、假装对齐等具体测试场景中,经过 MSM 训练的模型发生失准的概率显著低于对照组 1。这是目前少有的在真实失准行为上有量化改善的对齐研究之一。
3. 规范内容影响泛化质量
MSM 的效果不是均匀的:不同设计的模型规范带来不同程度的泛化改善。哪些规范写法能让模型获得更好的泛化,是论文重点分析的方向之一。这对实际部署中模型规范的设计具有直接指导意义。

对技术路线的影响

对研究者:MSM 提供了一个研究「模型如何内化规范」的新切入点。过去对齐研究的信号来源几乎全部来自微调后的行为,MSM 的引入让中间层的影响变得可测量。
对工程师:如果 MSM 成立,模型的对齐质量不只取决于微调数据的覆盖范围,还取决于规范文档的设计质量。这意味着规范编写本身需要被当作一个工程问题对待。
一个开放问题:MSM 的合成文档来自哪里、如何生成,决定了这个方法能否规模化。论文没有充分展开这部分,但这是工业落地的关键门槛。

与同期工作的对比位置

近期与对齐泛化相关的工作主要分两类:一类聚焦于训练后推理阶段的对齐改进(如 Constitutional AI 变体、自我修正);另一类是数据增强(如合成偏好数据)。MSM 的插入位置介于两者之间——它在预训练之后作用,但早于对齐微调,属于目前较少系统研究的中间段 1
这个时间节点的选择是有意义的:预训练完成后,模型已拥有足够的语言理解能力来处理规范文档;而对齐微调尚未开始,规范的内化还没有被特定行为示范「固化」。

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.