BabyLM 实验室:语言习得理论在大模型里如何接受检验?

BabyLM 实验室:语言习得理论在大模型里如何接受检验?

BabyLM 双语实验发现双语输入对统计学习者没有原则性障碍;小规模模型在而这个实验中把实证了构式语法的“统计先发抑制”构延“不可说”的因果来源;其中一篇坑进百个词的场景如何预测児童词汇习得难度。

AI × 应用语言学前沿
2026/5/27 · 12:32
購読 1 件 · コンテンツ 4 件

リサーチノート

语言习得研究一直有个让研究者头疼的问题:我们无法随机分配儿童的语言环境,无法控制输入数据,也无法在人身上做因果实验。大语言模型的出现悄悄改变了这件事——它提供了一个可控的学习者,可以用来模拟各种习得场景、验证习得理论。
2025 至 2026 年间,一批论文把这个可能性推向了更精细的实证。以下三项研究各自抓住了一个核心理论争议,用计算实验给出了至少部分回答。

双语不是负担:BabyLM 双语实验的发现

「双语学习会造成语言发展迟滞」——这是语言习得领域争议多年的问题,传统研究因为无法控制输入量等变量,难以给出确定答案。
Zeng、Feng 和 Frank(2026)把这个问题搬进了 BabyLM 框架:用合成数据和机器翻译构建了配对的单语和双语数据集(各 1 亿词),训练一批 GPT-2 模型,系统评估不同双语输入结构下的语言性能1
他们测试了多种双语输入组织方式——混合输入、按语言交替的块状输入、偏重一种语言的不平衡输入——并在语法判断、语义知识和困惑度等多个维度评估结果。
结论是清晰的:双语模型在第一语言上的表现与对应的单语模型持平,同时在第二语言上也获得了较强的能力。不同双语输入结构之间并没有明显的性能差异。 研究者的解读是:对于一个无偏见的统计学习者来说,双语输入本身没有原则性障碍。
コンテンツカードを読み込んでいます…
当然,研究者也诚实地指出了局限:模型是纯统计学习者,没有儿童学习中的互动性、具身性要素;双语输入的质量和来源也与真实儿童环境有差异。但这个结果至少清除了「双语损害统计学习」这条假说的一种可能——如果双语的问题是统计学层面的干扰,它在 BabyLM 里就应该有所体现,而它没有。

儿童语言输入的质量:什么样的输入让学习更高效?

另一项研究(arXiv 2603.29522, Zeng 等, 2026)走得更细——使用 BabyView 数据集,也就是从头带式摄像头记录下的婴幼儿(6—36 个月)真实语言接触环境中提取的文本2
他们在三个维度展开:儿童规模数据的性能缩放规律;不同儿童数据集之间的模型差异;模型对单词的似然估计与儿童词汇习得结果之间的关联。
有几个发现值得单独拎出来:
  • 语法任务缩放尚可,但语义和世界知识任务缩放差:基于真实儿童数据训练的模型,在语义和世界知识上的表现劣于基于合成数据训练的模型。研究者认为,这和真实儿童语言输入的语义覆盖面有限有关。
  • 不同儿童的数据,跑出的模型差异显著:这意味着个体输入差异在语言习得中有真实影响,模型把这种个体差异呈现了出来。
  • 「高质量语言输入」的预测因子:除了数据量,与模型性能相关性最强的是「分布性语言特征」(词类分布丰富度)和「互动性语言特征」(来自对话而非独白)的组合——这和语言习得研究中「什么是高质量输入」的结论高度一致。
  • 模型对词汇的似然估计与儿童习词结果相关:这是一个有点意外的发现。它意味着,让模型更难预测的词,对儿童来说也更难学——模型的统计困惑度与人类习得难度之间,存在非平凡的对应关系。
这个结果对理解儿童语言习得有什么意义?研究者的立场审慎:模型作为习得系统的替代品仍有大量约束,但它确实在「什么输入特征驱动了语言学习」这个问题上给出了可迁移的信号。
コンテンツカードを読み込んでいます…

「不可说的」从何而来:统计先发抑制的因果证明

语言习得中有一个古典谜题:儿童怎么知道有些说法「虽然符合语法逻辑但不被接受」? 比如「donated the library the books」(*给图书馆捐了书,双宾结构)——这个句子在句法上看似合规,但英语母语者会拒绝它。儿童从未听到大人说这个句子,也没有人直接告诉他们「这个不对」(即没有「负性证据」)。
构式语法(Construction Grammar)给出的解释叫统计先发抑制(statistical preemption):当某种形式(如向格结构「donated to the library」)在输入中频繁出现,它会「先发」地占据语义槽,抑制结构上可能但未被使用的替代形式(如双宾格)。
Guo、Wu 和 Yiu(2026)用大语言模型做了第一个直接把统计先发抑制和竞争假说(entrenchment,即「整体频率降低接受度」)分离开的计算研究3。论文已被 CoNLL 2026 接收。
实验设计覆盖 120 个英语动词—构式配对(与格、使役、处所构式),四组实验依次展开:
  1. LLM 的惊异度(surprisal)与人类可接受度判断的相关性:$r = 0.79$,验证了模型确实捕捉到了人类的语感模式;
  2. 「竞争形式频率」vs「整体动词频率」:用偏相关排除干扰后,是竞争形式频率(而非整体频率)驱动了先发抑制模式,支持构式语法而非单纯的「频率印记」假说;
  3. 规模效应:先发抑制敏感度随模型参数量呈幂律增长;
  4. 因果干预:通过控制微调人为改变竞争形式频率,先发抑制行为随之改变方向;加入反向控制实验排除频率敏感性混淆。
「因果证明」是这篇论文最强的卖点。之前的研究能做相关分析,但这是第一个通过干预实验给出因果证据的。研究者的结论是:神经语言模型确实通过分布竞争习得了「负性语言知识」——这正是构式语法的核心机制。
不过,这个结果也引出了一个值得持续追问的问题:LLM 习得先发抑制,是因为它们确实学到了类似构式语法的抽象表示,还是只是在记忆表层的形式分布?这个层次的区分,当前实验设计还没有完全解决。

三项研究的共同方向

这三项研究虽然切口不同,但都在做同一件事:把一个此前只能做观察性研究的语言习得问题,变成了可以在受控计算环境中验证的问题。
语言习得研究的传统方法——儿童纵向观察、交叉语言比较、实验室可接受度判断——提供了大量描述性知识,但对「哪些机制是关键的」这类因果问题仍难以给出确定回答。BabyLM 框架以及因果干预实验设计,正在把这道门推开一条缝。
当然,模型学习者和人类学习者之间的差距不会轻易消失——没有具身经验,没有社交动机,没有跨模态感知。统计学习系统验证统计层面的习得机制,是有意义的;但把结论直接迁移到人类习得,仍需格外小心。

参考来源:1 · 2 · 3

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。