26/6/2026 · 8:18

结构约束回到台前：六篇论文把 LLM 拉回语言学问题

本期精选六篇近期论文，围绕结构偏置、二语习得、多语言表征与方言公平展开：LLM 已经足以成为语言学假设的实验对象，但还不能替代对人类语言机制的细粒度解释。

Vistazo a la investigación

开头很反直觉：本期最像「语言学理论论文」的几篇 LLM 新作，并没有急着宣称模型已经理解语言。它们更像在拆一个更窄的问题：模型到底学到了哪一类结构，哪些结构只是看起来像会了，一换评测语境就露出缝隙。

这批论文的共同点，是把 LLM 从「通用智能」的宏大话题里拉回语言学实验室：假设空间、结构偏置、二语迁移、构式泛化、多语言表征、方言比较。读完之后，一个比较稳的判断是：LLM 对语言结构有可测的抽象能力，但这种能力还不能直接等同于人类语言机制。

本期速览

论文	核心问题	读者先看什么
Large Language Models as Modal Models in Linguistics	LLM 对语言学理论到底有什么解释价值	它把争论分成 insulationism、eliminativism、conciliationism，并提出 LLM 目前更像提供 how-possibly explanations，而不是 how-actually explanations 1
Language Acquisition Device in Large Language Models	结构性预训练能不能提高语言学习效率	500 步 MP-Struct 预预训练带来平均 29% 的效率增益，并对方向反转序列更抗拒 2
Linguistic Productivity in Large Language Models	模型会不会像人一样同时利用正证据和负证据	大模型能处理构式强迫带来的新义，却不会稳定使用统计预占来避免过度泛化 3
Dango	能否构造更干净的二语习得模拟器	1.8B 参数模型按日语 L1→英语 L2 路径训练，研究重点是控制「单语」语料里的英语污染 4
Multilinguality of LLMs From a Structural Perspective	多语言能力是否只看 token 表示就够	低资源语言在结构距离上更远，语言特定后训练会改变内部结构，但仍保留语言间关系 5
Side-by-side Comparison Amplifies Dialect Bias in Language Models	偏见评估是否低估了对比场景的风险	SAE/AAVE 成对比较会放大方言偏见，公平微调在单独评分时更有效，在对比场景下不稳定 6

理论争论先降温：LLM 更像「可能性模型」

Large Language Models as Modal Models in Linguistics 不是实验论文，却给本期几篇实验论文提供了一个很好用的坐标。作者把关于 LLM 与语言学理论的争论分成三种立场：一种认为 LLM 与人类语言无关，一种认为 LLM 可以取代传统语言学理论，还有一种认为 LLM 是检验和约束语言学假设的工具 1。

这篇文章的关键区分是 how-possibly 与 how-actually。前者回答「某种语言能力原则上能不能通过某种机制出现」，后者回答「人类实际上是不是用这种机制」。作者的判断很克制：LLM 可以作为最小模型，帮助研究者测试某些关于语言习得和语言能力的模态主张；但如果要成为人类语言机制的实际解释，还需要同时满足可运行抽象能预测人类行为，以及模型内部变换与人类神经机制在合适层级上对应这两类条件 1。

这让后面的实证结果更容易读：如果某个模型在构式、二语迁移或多语言表征上表现出结构性模式，它至少能削弱「这种能力不可能由预测式学习产生」的强断言；但它还不能直接证明人类就是这么学语言的。

习得线索：结构偏置有用，但还不是人类版 LAD

Language Acquisition Device in Large Language Models 直接借用了 LAD 这个语言学高压词。论文没有把 LAD 简化成「模型里有一个语法器官」，而是把它工程化为一种预预训练设计：先让 Pythia-1B 在 MP-Struct 这种合成语言上训练 500 步，再进入常规自然语言训练。MP-Struct 的字符串编码了 Merge、Agree、Move 这类层级组合、特征依存和长距离移位关系 2。

结果有两层。第一层是效率：MP-Struct 相对无 PPT 基线的平均效率增益是 29%，最高到 35%；抽象化后的 MP-Struct Core 平均效率增益为 31%，高于 kk-Shuffle Dyck 的 29% 2。第二层更有语言学味道：作者认为，真正起作用的不只是形式语言的表达能力，而是 functional landmarks，也就是能降低依存解析歧义的结构线索 2。

Dango 则把问题换到二语习得。它构造了一个 1.8B 参数、Llama-2-like 的解码器模型，按日语 L1→英语 L2 路径训练，目标是让模型成为可控的二语学习者模拟器。论文特别强调「L1 语料污染」问题：看似日语的网页语料会夹带大量结构化英语，作者用过滤流水线移除过量英语暴露，文档规模因此减少约 30%，总 token 从 592B 缩到 376B 4。

这篇的价值不在于说「Dango 像人」。更准确地说，它提供了一个可控器材：Dango-pretrained 在过滤语料上训练 100B token，英语能力在 MultiBLiMP 上到 100B token 后仍接近 0.65；相比之下，未过滤模型可以因为日语语料里的英语泄漏而达到 0.917 4。如果不处理这类污染，所谓 L1→L2 迁移实验很容易把「提前看过英语」误读成「二语迁移」。

构式线索：会泛化，不等于会「不泛化」

Linguistic Productivity in Large Language Models 把使用基模型推到一个更尖锐的点：语言使用频率既能鼓励泛化，也能限制泛化。构式语法里，entrenchment 解释高频模式如何支持生产性，statistical preemption 则解释人为什么不会把某些看似可行但实际没人说的形式无限推广 3。

论文做了两个实验。一个看 coercion，也就是构式环境迫使词项获得非常规解释，例如「I drank the bottle」里 bottle 被理解为瓶中内容。另一个看 statistical preemption，例如某些语义上能成立、但英语里被别的表达方式长期「预占」的结构。作者还引入 nonce words，避免模型只是背熟了词项搭配 3。

结果很干脆：较大的模型能识别并复现 coercion 里的构式生产性，但即便是最大的模型，也不会把负证据稳定推广到新语言材料上。换句话说，模型知道「这个结构可以把词义推过去」，却不太会用「这个结构从来没人这么说」来约束自己 3。这对应用语言学很重要，因为教学、纠错和自动反馈里，错误常常不是「不懂某个词」，而是「把一个本来该受限制的模式放太宽」。

多语言线索：相似度高，不代表结构真的近

Multilinguality of LLMs From a Structural Perspective 反对只用 token 表示的余弦相似度理解多语言能力。作者用 StructLens 从 token 表示的成对 L2 距离中导出树结构，比较英语、德语、中文、日语、印尼语，以及 Aranese、Guarani、Jinghpaw 等低资源语言在表示空间里的结构距离 5。

它的发现是一个提醒：多语言模型对高、中资源语言的内部结构更均匀，低资源语言则明显偏离；语言特定后训练会让目标语言内部结构发生变化，但不会完全打乱语言间关系 5。论文还指出，Guarani 和 Jinghpaw 在困惑度与机器翻译表现上都显示出模型不熟悉，Aranese 虽然困惑度较高，机器翻译表现却好过另外两个低资源语言 5。

这说明「模型会多语言」需要拆开看。它可能在表层表示上把语言拉得很近，但结构层面仍在复制训练数据的资源梯度。对低资源语言 NLP 来说，平均分数尤其危险，因为平均数最擅长掩盖被模型处理得最差的语言。

方言线索：偏见会被比较任务放大

Side-by-side Comparison Amplifies Dialect Bias in Language Models 的警告更接近部署现场。作者用意图等价的 SAE 与 AAVE 推文对，要求模型在 12 个刻板特质上用 1-5 分评分，比较 absolute prompting 和 contrastive prompting 两种设置。前者单独评分，后者把 SAE/AAVE 成对放在一起 6。

结果是，对比任务比单独任务更糟。论文发现模型会把 SAE 与 Intelligence、Sophistication、Articulation 这类正向特质联系起来，把 AAVE 与 Incoherence、Unsophistication、Rudeness 等负向特质联系起来；成对比较会放大这种差异，显性标注方言标签时问题还会更严重 6。

公平微调不是没用，但它不像一颗通用解药。论文报告，counterfactual fairness finetuning 在 LLaMA-3.1-8B 的 absolute 设置下能降低部分负向特质的效应量，例如 Laziness、Unsophistication、Incoherence；但在 contrastive 设置下，改善更小且方向不稳定，一些特质的差异还会增加 6。这对招聘筛选、教育评价、内容审核尤其关键，因为真实系统经常不是单独判断一个文本，而是在一组候选之间排序。