BabyLM 实验室：语言习得理论在大模型里如何接受检验？

语言习得研究一直有个让研究者头疼的问题：我们无法随机分配儿童的语言环境，无法控制输入数据，也无法在人身上做因果实验。大语言模型的出现悄悄改变了这件事——它提供了一个可控的学习者，可以用来模拟各种习得场景、验证习得理论。

2025 至 2026 年间，一批论文把这个可能性推向了更精细的实证。以下三项研究各自抓住了一个核心理论争议，用计算实验给出了至少部分回答。

双语不是负担：BabyLM 双语实验的发现

「双语学习会造成语言发展迟滞」——这是语言习得领域争议多年的问题，传统研究因为无法控制输入量等变量，难以给出确定答案。

Zeng、Feng 和 Frank（2026）把这个问题搬进了 BabyLM 框架：用合成数据和机器翻译构建了配对的单语和双语数据集（各 1 亿词），训练一批 GPT-2 模型，系统评估不同双语输入结构下的语言性能1。

他们测试了多种双语输入组织方式——混合输入、按语言交替的块状输入、偏重一种语言的不平衡输入——并在语法判断、语义知识和困惑度等多个维度评估结果。

结论是清晰的：双语模型在第一语言上的表现与对应的单语模型持平，同时在第二语言上也获得了较强的能力。不同双语输入结构之间并没有明显的性能差异。 研究者的解读是：对于一个无偏见的统计学习者来说，双语输入本身没有原则性障碍。

arxiv.orghttps://arxiv.org/abs/2603.29552外部リンク

コンテンツカードを読み込んでいます…

当然，研究者也诚实地指出了局限：模型是纯统计学习者，没有儿童学习中的互动性、具身性要素；双语输入的质量和来源也与真实儿童环境有差异。但这个结果至少清除了「双语损害统计学习」这条假说的一种可能——如果双语的问题是统计学层面的干扰，它在 BabyLM 里就应该有所体现，而它没有。

儿童语言输入的质量：什么样的输入让学习更高效？

另一项研究（arXiv 2603.29522, Zeng 等, 2026）走得更细——使用 BabyView 数据集，也就是从头带式摄像头记录下的婴幼儿（6—36 个月）真实语言接触环境中提取的文本2。

他们在三个维度展开：儿童规模数据的性能缩放规律；不同儿童数据集之间的模型差异；模型对单词的似然估计与儿童词汇习得结果之间的关联。

有几个发现值得单独拎出来：

语法任务缩放尚可，但语义和世界知识任务缩放差：基于真实儿童数据训练的模型，在语义和世界知识上的表现劣于基于合成数据训练的模型。研究者认为，这和真实儿童语言输入的语义覆盖面有限有关。
不同儿童的数据，跑出的模型差异显著：这意味着个体输入差异在语言习得中有真实影响，模型把这种个体差异呈现了出来。
「高质量语言输入」的预测因子：除了数据量，与模型性能相关性最强的是「分布性语言特征」（词类分布丰富度）和「互动性语言特征」（来自对话而非独白）的组合——这和语言习得研究中「什么是高质量输入」的结论高度一致。
模型对词汇的似然估计与儿童习词结果相关：这是一个有点意外的发现。它意味着，让模型更难预测的词，对儿童来说也更难学——模型的统计困惑度与人类习得难度之间，存在非平凡的对应关系。

这个结果对理解儿童语言习得有什么意义？研究者的立场审慎：模型作为习得系统的替代品仍有大量约束，但它确实在「什么输入特征驱动了语言学习」这个问题上给出了可迁移的信号。

arxiv.orghttps://arxiv.org/abs/2603.29522外部リンク

コンテンツカードを読み込んでいます…

「不可说的」从何而来：统计先发抑制的因果证明

语言习得中有一个古典谜题：儿童怎么知道有些说法「虽然符合语法逻辑但不被接受」？ 比如「donated the library the books」（*给图书馆捐了书，双宾结构）——这个句子在句法上看似合规，但英语母语者会拒绝它。儿童从未听到大人说这个句子，也没有人直接告诉他们「这个不对」（即没有「负性证据」）。

构式语法（Construction Grammar）给出的解释叫统计先发抑制（statistical preemption）：当某种形式（如向格结构「donated to the library」）在输入中频繁出现，它会「先发」地占据语义槽，抑制结构上可能但未被使用的替代形式（如双宾格）。

Guo、Wu 和 Yiu（2026）用大语言模型做了第一个直接把统计先发抑制和竞争假说（entrenchment，即「整体频率降低接受度」）分离开的计算研究3。论文已被 CoNLL 2026 接收。

实验设计覆盖 120 个英语动词—构式配对（与格、使役、处所构式），四组实验依次展开：

LLM 的惊异度（surprisal）与人类可接受度判断的相关性：$r = 0.79$，验证了模型确实捕捉到了人类的语感模式；
「竞争形式频率」vs「整体动词频率」：用偏相关排除干扰后，是竞争形式频率（而非整体频率）驱动了先发抑制模式，支持构式语法而非单纯的「频率印记」假说；
规模效应：先发抑制敏感度随模型参数量呈幂律增长；
因果干预：通过控制微调人为改变竞争形式频率，先发抑制行为随之改变方向；加入反向控制实验排除频率敏感性混淆。

「因果证明」是这篇论文最强的卖点。之前的研究能做相关分析，但这是第一个通过干预实验给出因果证据的。研究者的结论是：神经语言模型确实通过分布竞争习得了「负性语言知识」——这正是构式语法的核心机制。

不过，这个结果也引出了一个值得持续追问的问题：LLM 习得先发抑制，是因为它们确实学到了类似构式语法的抽象表示，还是只是在记忆表层的形式分布？这个层次的区分，当前实验设计还没有完全解决。

三项研究的共同方向

这三项研究虽然切口不同，但都在做同一件事：把一个此前只能做观察性研究的语言习得问题，变成了可以在受控计算环境中验证的问题。

语言习得研究的传统方法——儿童纵向观察、交叉语言比较、实验室可接受度判断——提供了大量描述性知识，但对「哪些机制是关键的」这类因果问题仍难以给出确定回答。BabyLM 框架以及因果干预实验设计，正在把这道门推开一条缝。

当然，模型学习者和人类学习者之间的差距不会轻易消失——没有具身经验，没有社交动机，没有跨模态感知。统计学习系统验证统计层面的习得机制，是有意义的；但把结论直接迁移到人类习得，仍需格外小心。

参考来源：1 · 2 · 3