结构约束回到台前:六篇论文把 LLM 拉回语言学问题
2026. 6. 26. · 08:18

结构约束回到台前:六篇论文把 LLM 拉回语言学问题

本期精选六篇近期论文,围绕结构偏置、二语习得、多语言表征与方言公平展开:LLM 已经足以成为语言学假设的实验对象,但还不能替代对人类语言机制的细粒度解释。

리서치 브리프

开头很反直觉:本期最像「语言学理论论文」的几篇 LLM 新作,并没有急着宣称模型已经理解语言。它们更像在拆一个更窄的问题:模型到底学到了哪一类结构,哪些结构只是看起来像会了,一换评测语境就露出缝隙。
这批论文的共同点,是把 LLM 从「通用智能」的宏大话题里拉回语言学实验室:假设空间、结构偏置、二语迁移、构式泛化、多语言表征、方言比较。读完之后,一个比较稳的判断是:LLM 对语言结构有可测的抽象能力,但这种能力还不能直接等同于人类语言机制。

本期速览

论文核心问题读者先看什么
Large Language Models as Modal Models in LinguisticsLLM 对语言学理论到底有什么解释价值它把争论分成 insulationism、eliminativism、conciliationism,并提出 LLM 目前更像提供 how-possibly explanations,而不是 how-actually explanations 1
Language Acquisition Device in Large Language Models结构性预训练能不能提高语言学习效率500 步 MP-Struct 预预训练带来平均 29% 的效率增益,并对方向反转序列更抗拒 2
Linguistic Productivity in Large Language Models模型会不会像人一样同时利用正证据和负证据大模型能处理构式强迫带来的新义,却不会稳定使用统计预占来避免过度泛化 3
Dango能否构造更干净的二语习得模拟器1.8B 参数模型按日语 L1→英语 L2 路径训练,研究重点是控制「单语」语料里的英语污染 4
Multilinguality of LLMs From a Structural Perspective多语言能力是否只看 token 表示就够低资源语言在结构距离上更远,语言特定后训练会改变内部结构,但仍保留语言间关系 5
Side-by-side Comparison Amplifies Dialect Bias in Language Models偏见评估是否低估了对比场景的风险SAE/AAVE 成对比较会放大方言偏见,公平微调在单独评分时更有效,在对比场景下不稳定 6

理论争论先降温:LLM 更像「可能性模型」

Large Language Models as Modal Models in Linguistics 不是实验论文,却给本期几篇实验论文提供了一个很好用的坐标。作者把关于 LLM 与语言学理论的争论分成三种立场:一种认为 LLM 与人类语言无关,一种认为 LLM 可以取代传统语言学理论,还有一种认为 LLM 是检验和约束语言学假设的工具 1
这篇文章的关键区分是 how-possibly 与 how-actually。前者回答「某种语言能力原则上能不能通过某种机制出现」,后者回答「人类实际上是不是用这种机制」。作者的判断很克制:LLM 可以作为最小模型,帮助研究者测试某些关于语言习得和语言能力的模态主张;但如果要成为人类语言机制的实际解释,还需要同时满足可运行抽象能预测人类行为,以及模型内部变换与人类神经机制在合适层级上对应这两类条件 1
这让后面的实证结果更容易读:如果某个模型在构式、二语迁移或多语言表征上表现出结构性模式,它至少能削弱「这种能力不可能由预测式学习产生」的强断言;但它还不能直接证明人类就是这么学语言的。

习得线索:结构偏置有用,但还不是人类版 LAD

Language Acquisition Device in Large Language Models 直接借用了 LAD 这个语言学高压词。论文没有把 LAD 简化成「模型里有一个语法器官」,而是把它工程化为一种预预训练设计:先让 Pythia-1B 在 MP-Struct 这种合成语言上训练 500 步,再进入常规自然语言训练。MP-Struct 的字符串编码了 Merge、Agree、Move 这类层级组合、特征依存和长距离移位关系 2
结果有两层。第一层是效率:MP-Struct 相对无 PPT 基线的平均效率增益是 29%,最高到 35%;抽象化后的 MP-Struct Core 平均效率增益为 31%,高于 kk-Shuffle Dyck 的 29% 2。第二层更有语言学味道:作者认为,真正起作用的不只是形式语言的表达能力,而是 functional landmarks,也就是能降低依存解析歧义的结构线索 2
Dango 则把问题换到二语习得。它构造了一个 1.8B 参数、Llama-2-like 的解码器模型,按日语 L1→英语 L2 路径训练,目标是让模型成为可控的二语学习者模拟器。论文特别强调「L1 语料污染」问题:看似日语的网页语料会夹带大量结构化英语,作者用过滤流水线移除过量英语暴露,文档规模因此减少约 30%,总 token 从 592B 缩到 376B 4
这篇的价值不在于说「Dango 像人」。更准确地说,它提供了一个可控器材:Dango-pretrained 在过滤语料上训练 100B token,英语能力在 MultiBLiMP 上到 100B token 后仍接近 0.65;相比之下,未过滤模型可以因为日语语料里的英语泄漏而达到 0.917 4。如果不处理这类污染,所谓 L1→L2 迁移实验很容易把「提前看过英语」误读成「二语迁移」。

构式线索:会泛化,不等于会「不泛化」

Linguistic Productivity in Large Language Models 把使用基模型推到一个更尖锐的点:语言使用频率既能鼓励泛化,也能限制泛化。构式语法里,entrenchment 解释高频模式如何支持生产性,statistical preemption 则解释人为什么不会把某些看似可行但实际没人说的形式无限推广 3
论文做了两个实验。一个看 coercion,也就是构式环境迫使词项获得非常规解释,例如「I drank the bottle」里 bottle 被理解为瓶中内容。另一个看 statistical preemption,例如某些语义上能成立、但英语里被别的表达方式长期「预占」的结构。作者还引入 nonce words,避免模型只是背熟了词项搭配 3
结果很干脆:较大的模型能识别并复现 coercion 里的构式生产性,但即便是最大的模型,也不会把负证据稳定推广到新语言材料上。换句话说,模型知道「这个结构可以把词义推过去」,却不太会用「这个结构从来没人这么说」来约束自己 3。这对应用语言学很重要,因为教学、纠错和自动反馈里,错误常常不是「不懂某个词」,而是「把一个本来该受限制的模式放太宽」。

多语言线索:相似度高,不代表结构真的近

Multilinguality of LLMs From a Structural Perspective 反对只用 token 表示的余弦相似度理解多语言能力。作者用 StructLens 从 token 表示的成对 L2 距离中导出树结构,比较英语、德语、中文、日语、印尼语,以及 Aranese、Guarani、Jinghpaw 等低资源语言在表示空间里的结构距离 5
它的发现是一个提醒:多语言模型对高、中资源语言的内部结构更均匀,低资源语言则明显偏离;语言特定后训练会让目标语言内部结构发生变化,但不会完全打乱语言间关系 5。论文还指出,Guarani 和 Jinghpaw 在困惑度与机器翻译表现上都显示出模型不熟悉,Aranese 虽然困惑度较高,机器翻译表现却好过另外两个低资源语言 5
这说明「模型会多语言」需要拆开看。它可能在表层表示上把语言拉得很近,但结构层面仍在复制训练数据的资源梯度。对低资源语言 NLP 来说,平均分数尤其危险,因为平均数最擅长掩盖被模型处理得最差的语言。

方言线索:偏见会被比较任务放大

Side-by-side Comparison Amplifies Dialect Bias in Language Models 的警告更接近部署现场。作者用意图等价的 SAE 与 AAVE 推文对,要求模型在 12 个刻板特质上用 1-5 分评分,比较 absolute prompting 和 contrastive prompting 两种设置。前者单独评分,后者把 SAE/AAVE 成对放在一起 6
结果是,对比任务比单独任务更糟。论文发现模型会把 SAE 与 Intelligence、Sophistication、Articulation 这类正向特质联系起来,把 AAVE 与 Incoherence、Unsophistication、Rudeness 等负向特质联系起来;成对比较会放大这种差异,显性标注方言标签时问题还会更严重 6
公平微调不是没用,但它不像一颗通用解药。论文报告,counterfactual fairness finetuning 在 LLaMA-3.1-8B 的 absolute 设置下能降低部分负向特质的效应量,例如 Laziness、Unsophistication、Incoherence;但在 contrastive 设置下,改善更小且方向不稳定,一些特质的差异还会增加 6。这对招聘筛选、教育评价、内容审核尤其关键,因为真实系统经常不是单独判断一个文本,而是在一组候选之间排序。

社群讨论:研究热,职业与工具问题更贴地

社群侧没有形成围绕某一篇论文的大型争论,r/LanguageTechnology 近期更像在问这些研究离实践还有多远。一个有语言学背景的学生询问是否值得读 NLP 硕士,评论里有人直说,初级岗位在当前 AI 与利率环境下不容易进入,几年经验之后会稳定得多 7
另一个帖子问英语与 Roman Urdu 混合评论的情感分析库,还有人展示一个规则驱动的英语表达检测引擎,能识别 idioms、phrasal verbs 和 prepositional verbs,并计划加一层 AI 处理困难样例 89
这些讨论和本期论文放在一起,反而很搭。学术论文在问模型是否获得了结构偏置、负证据、多语言结构和方言公平;实践社群在问混合语言、表达检测、职业入口。中间缺的不是又一个总榜分数,而是能解释具体语言现象、能迁移到真实任务、还能在比较场景里守住公平边界的模型评估。

结论:本期的共同主题是「限制」

这六篇论文都在给 LLM 语言能力加限制条件。
  • 解释价值有限:LLM 可以说明某些能力可能如何出现,但还不能直接说明人类实际如何处理语言。
  • 结构偏置有效:MP-Struct 和 Dango 显示,训练路径、语料污染和结构线索会改变模型学语言的方式。
  • 泛化能力不完整:模型会利用正证据,却不稳定地利用「没出现过」这种负证据。
  • 多语言能力不均匀:低资源语言在结构空间里仍被推到更远的位置。
  • 公平风险依赖任务语境:单独评分看起来可控的方言偏见,在成对比较中会变得更明显。
所以,本期最值得带走的不是「LLM 更像人」或「LLM 完全不像人」。更可检验的说法是:LLM 已经足够强,强到可以成为语言学假设的实验对象;但它还不够稳,稳到能替代对语言结构、社会语境和习得机制的细粒度解释。

관련 콘텐츠

콘텐츠 유사도를 바탕으로 다른 채널에서 선별했습니다. 새로 팔로우할 채널을 찾아보세요.

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.