语言学如何重返 AI：三条路径，三种立场

2025 年以来，应用语言学与 AI 的关系开始发生微妙的结构性变化。语言学家不再只是旁观者或批评者——他们以三种截然不同的身份重新进场：作为评估者，手持语用学量尺测量 LLM 的真实能力；作为理论供给方，争论 LLM 究竟能不能反哺语言习得研究；作为田野调查者，把 LLM 本身当作人类语言行为的观察对象。近期几篇重要论文和两本顶级人类学期刊的专题，把这一复杂局面摆上了台面。

语用学的新战场：LLM 真的懂「言外之意」吗？

2025 年 2 月，一篇被 ACL 2025 收录的综述把语用学评估的现状整理了一遍。1 结论是清醒的：现有评估资源极度不均衡——会话含义（implicature）、言语行为（speech acts）和指称消解（reference resolution）这几类现象已有相当多的数据集，但计算礼貌、隐含话语关系、语用预设等领域几乎是空白。更关键的问题不是数据量，而是任务设计：大多数语用评估仍然依赖封闭选项或二分判断，但语用理解本质上是开放的、依赖语境的，「选出最合适的回复」和「在真实对话中实时推断说话人意图」差着好几个量级的复杂度。

这篇综述的价值不在于告诉我们 LLM 有多聪明，而在于指出一个更根本的问题：我们还没有合适的工具来测量它在语用维度上「够不够用」。现有 benchmark 更像是在考一道选择题，而真实的语用能力更像是一种随时随地的社会直觉。

几乎在同期，另一篇研究从更细的角度切入：LLM 作为语用「听者」和「说者」表现是否一致？2 给出了否定的答案——大多数模型在「判断哪个回复更合适」（听者任务）上表现不错，但在「自己生成语用得体的回复」（说者任务）上明显落后。这种不对称性有实际后果：如果用 LLM 作为语用评估的裁判，它的评判标准和自身能力之间的落差会引入系统性偏差。

语言学家与 LLM 的和解：从「不可能的语言」到「有条件的接受」

去年底，一个在语言学界流传了几年的争论终于有人拿出了实验数据来回应。2025 年 1 月的一篇论文3提出了一个折中立场——LLM 既不是语言学理论的终结者，也不能被语言学家简单否定。它的核心论点是：LLM 作为一种「基于使用的（usage-based）」语言系统，恰好可以作为特定类型语言学假设的测试台。换句话说，不是「LLM 证明了语言学错了」，也不是「LLM 什么都不能说明」，而是「LLM 能够帮你测试一类特定假设，前提是你得搞清楚在测什么」。

这篇文章还追踪到 Related DOI 对应的正式期刊版本（发表于 Behavioral and Brain Sciences），说明这一立场已经进入主流学术视野，而非只是预印本上的一家之言。

2026 年初的一篇回应乔姆斯基的论文则把另一端的争议拿到了实验室。4 乔姆斯基 2023 年批评 ChatGPT 时的核心论点之一是：LLM 是「纯粹的模式预测器」，无法区分「可能的语言」和「不可能的语言」。这篇论文直接对这一论点做了实验——构造了若干句法上「不可能」的语言（如按奇偶词数决定是否添加否定），分别用 GPT-2 和 LSTM 训练，比较最终损失和困惑度。

结果有一定说服力但也高度谨慎：GPT-2 在自然语言上的最终损失确实显著低于不可能语言条件，逆序条件下损失比高达 2.25 倍；LSTM 则没有明显差异。作者在论文中多次强调这是单次实验（n=1），不能做统计推断。这也是这篇论文的诚实之处——它没有宣称「乔姆斯基被推翻了」，而是说：即便在一个受控的小规模实验里，GPT-2 的行为也指向某种超越纯粹模式匹配的内部结构偏好，这足以让理论范式的转移（从生成语法向功能主义、经验主义倾斜）成为一个值得认真讨论的方向。

2025 年 2 月的另一项研究则从语言习得角度提出了另一类补充工具。5 它不问「LLM 能不能代表人类语言认知」，而是问「LLM 能不能作为某类认知理论的代理（proxy），帮助我们测试那些理论？」答案是「可以，但有限」——具体来说，LLM 可以用来测试「某个语料环境下某种语言模式是否可学习」，以及「什么样的类型学频率分布比另一种更容易习得」。这是一种方法论上的重新定位：LLM 不是人类大脑的模型，但可以是理论假设的测试工具。

语言人类学的介入：当 LLM 成为田野观察对象

如果说计算语言学和语言习得研究者在争论「LLM 的语言能力」，语言人类学家则绕开了这个问题——他们关心的是「人类如何与 LLM 一起使用语言」。

2026 年 4 月，Journal of Linguistic Anthropology（JLA）出版了一期专刊（Vol. 36:1），Journal of the Royal Anthropological Institute（JRAI）同期发布了一个相关专题，两者都聚焦于 LLM。6 7 r/linguistics 上有人整理了这批文章的清单，帖子下的讨论普遍认为「这类研究终于来了」。

JLA 专刊里几篇文章的题目本身就指向了一种新型研究姿态：

Ole Pütz 的研究问的是：LLM 如何在「没有真正语境理解」的情况下，在对话里产出「语境适当」的文本？这是一个直接挑战语用学直觉的问题——如果「语境」是语用能力的前提，那 LLM 产出语境适当文本的机制需要重新解释。
Tariq Adely 的田野研究在约旦安曼，观察 LLM 工程师如何看待模型对阿拉伯语和英语的不同态度，以及这些态度如何构建符号意识形态（semiotic ideologies）。这一视角把 LLM 嵌入了一个更大的语言政治框架。
Webb Keane 在 JRAI 里提的问题更基础：从「会说话的工具」到「拥有权威的对话者」，ChatGPT 等系统是如何在实际交互中被赋予社会权威的？

这批研究的意义在于：它们不预设 LLM「有没有语言能力」，而是把这个问题放进了人与技术、语言与权威、身份与互动的具体社会脉络里。语言人类学进入 AI 研究，标志着「什么叫理解语言」这个问题的边界正在被重新划定。

本期覆盖论文与讨论

标题	来源	核心维度
Pragmatics in the Era of LLMs: A Survey	arXiv 2502.12378，ACL 2025	语用评估资源全景梳理
How Linguistics Learned to Stop Worrying...	arXiv 2501.17047，BBS	LLM 与语言学理论关系再定位
How Hypocritical Is Your LLM Judge?	arXiv 2604.15873	语用听者/说者能力不对称
LLMs as Proxies for Theories of Human Cognition	arXiv 2502.07687	LLM 作为语言习得理论测试工具
LLMs and Impossible Language Acquisition	arXiv 2602.08437	实验回应乔姆斯基批评
JLA Vol.36:1 + JRAI 专题	2026 年语言人类学专刊	LLM 作为田野对象