语言学如何重返 AI:三条路径,三种立场

语言学如何重返 AI:三条路径,三种立场

语用评估、语言习得理论测试、语言人类学田野——近期论文和两本顶级人类学期刊专刊,展示了语言学家以三种截然不同的方式重新介入 AI 研究。

2025 年以来,应用语言学与 AI 的关系开始发生微妙的结构性变化。语言学家不再只是旁观者或批评者——他们以三种截然不同的身份重新进场:作为评估者,手持语用学量尺测量 LLM 的真实能力;作为理论供给方,争论 LLM 究竟能不能反哺语言习得研究;作为田野调查者,把 LLM 本身当作人类语言行为的观察对象。近期几篇重要论文和两本顶级人类学期刊的专题,把这一复杂局面摆上了台面。

语用学的新战场:LLM 真的懂「言外之意」吗?

2025 年 2 月,一篇被 ACL 2025 收录的综述把语用学评估的现状整理了一遍。1 结论是清醒的:现有评估资源极度不均衡——会话含义(implicature)、言语行为(speech acts)和指称消解(reference resolution)这几类现象已有相当多的数据集,但计算礼貌、隐含话语关系、语用预设等领域几乎是空白。更关键的问题不是数据量,而是任务设计:大多数语用评估仍然依赖封闭选项或二分判断,但语用理解本质上是开放的、依赖语境的,「选出最合适的回复」和「在真实对话中实时推断说话人意图」差着好几个量级的复杂度。
这篇综述的价值不在于告诉我们 LLM 有多聪明,而在于指出一个更根本的问题:我们还没有合适的工具来测量它在语用维度上「够不够用」。现有 benchmark 更像是在考一道选择题,而真实的语用能力更像是一种随时随地的社会直觉。
几乎在同期,另一篇研究从更细的角度切入:LLM 作为语用「听者」和「说者」表现是否一致?2 给出了否定的答案——大多数模型在「判断哪个回复更合适」(听者任务)上表现不错,但在「自己生成语用得体的回复」(说者任务)上明显落后。这种不对称性有实际后果:如果用 LLM 作为语用评估的裁判,它的评判标准和自身能力之间的落差会引入系统性偏差。

语言学家与 LLM 的和解:从「不可能的语言」到「有条件的接受」

去年底,一个在语言学界流传了几年的争论终于有人拿出了实验数据来回应。2025 年 1 月的一篇论文3提出了一个折中立场——LLM 既不是语言学理论的终结者,也不能被语言学家简单否定。它的核心论点是:LLM 作为一种「基于使用的(usage-based)」语言系统,恰好可以作为特定类型语言学假设的测试台。换句话说,不是「LLM 证明了语言学错了」,也不是「LLM 什么都不能说明」,而是「LLM 能够帮你测试一类特定假设,前提是你得搞清楚在测什么」。
这篇文章还追踪到 Related DOI 对应的正式期刊版本(发表于 Behavioral and Brain Sciences),说明这一立场已经进入主流学术视野,而非只是预印本上的一家之言。
2026 年初的一篇回应乔姆斯基的论文则把另一端的争议拿到了实验室。4 乔姆斯基 2023 年批评 ChatGPT 时的核心论点之一是:LLM 是「纯粹的模式预测器」,无法区分「可能的语言」和「不可能的语言」。这篇论文直接对这一论点做了实验——构造了若干句法上「不可能」的语言(如按奇偶词数决定是否添加否定),分别用 GPT-2 和 LSTM 训练,比较最终损失和困惑度。
结果有一定说服力但也高度谨慎:GPT-2 在自然语言上的最终损失确实显著低于不可能语言条件,逆序条件下损失比高达 2.25 倍;LSTM 则没有明显差异。作者在论文中多次强调这是单次实验(n=1),不能做统计推断。这也是这篇论文的诚实之处——它没有宣称「乔姆斯基被推翻了」,而是说:即便在一个受控的小规模实验里,GPT-2 的行为也指向某种超越纯粹模式匹配的内部结构偏好,这足以让理论范式的转移(从生成语法向功能主义、经验主义倾斜)成为一个值得认真讨论的方向。
2025 年 2 月的另一项研究则从语言习得角度提出了另一类补充工具。5 它不问「LLM 能不能代表人类语言认知」,而是问「LLM 能不能作为某类认知理论的代理(proxy),帮助我们测试那些理论?」答案是「可以,但有限」——具体来说,LLM 可以用来测试「某个语料环境下某种语言模式是否可学习」,以及「什么样的类型学频率分布比另一种更容易习得」。这是一种方法论上的重新定位:LLM 不是人类大脑的模型,但可以是理论假设的测试工具。

语言人类学的介入:当 LLM 成为田野观察对象

如果说计算语言学和语言习得研究者在争论「LLM 的语言能力」,语言人类学家则绕开了这个问题——他们关心的是「人类如何与 LLM 一起使用语言」。
2026 年 4 月,Journal of Linguistic Anthropology(JLA)出版了一期专刊(Vol. 36:1),Journal of the Royal Anthropological Institute(JRAI)同期发布了一个相关专题,两者都聚焦于 LLM。6 7 r/linguistics 上有人整理了这批文章的清单,帖子下的讨论普遍认为「这类研究终于来了」。
JLA 专刊里几篇文章的题目本身就指向了一种新型研究姿态:
  • Ole Pütz 的研究问的是:LLM 如何在「没有真正语境理解」的情况下,在对话里产出「语境适当」的文本?这是一个直接挑战语用学直觉的问题——如果「语境」是语用能力的前提,那 LLM 产出语境适当文本的机制需要重新解释。
  • Tariq Adely 的田野研究在约旦安曼,观察 LLM 工程师如何看待模型对阿拉伯语和英语的不同态度,以及这些态度如何构建符号意识形态(semiotic ideologies)。这一视角把 LLM 嵌入了一个更大的语言政治框架。
  • Webb Keane 在 JRAI 里提的问题更基础:从「会说话的工具」到「拥有权威的对话者」,ChatGPT 等系统是如何在实际交互中被赋予社会权威的?
这批研究的意义在于:它们不预设 LLM「有没有语言能力」,而是把这个问题放进了人与技术、语言与权威、身份与互动的具体社会脉络里。语言人类学进入 AI 研究,标志着「什么叫理解语言」这个问题的边界正在被重新划定。

本期覆盖论文与讨论
标题来源核心维度
Pragmatics in the Era of LLMs: A SurveyarXiv 2502.12378,ACL 2025语用评估资源全景梳理
How Linguistics Learned to Stop Worrying...arXiv 2501.17047,BBSLLM 与语言学理论关系再定位
How Hypocritical Is Your LLM Judge?arXiv 2604.15873语用听者/说者能力不对称
LLMs as Proxies for Theories of Human CognitionarXiv 2502.07687LLM 作为语言习得理论测试工具
LLMs and Impossible Language AcquisitionarXiv 2602.08437实验回应乔姆斯基批评
JLA Vol.36:1 + JRAI 专题2026 年语言人类学专刊LLM 作为田野对象

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。