语用推理的断裂：LLM 在意义之外做了什么

LLM 在语义层面越来越精确，但语用层面的问题从未真正解决——它们在「字面正确」和「语境正确」之间反复徘徊。近期几篇论文从不同方向切入这道裂缝：跨语言的条件句推理实验、礼貌策略的偏斜模式、数字词的非字面理解、神经符号模型对语用问答的重构，以及覆盖 2660 种语言的元语言知识评估。读下来，你会发现这些论文指向同一个诊断：问题不在知识，在推理。

条件句的语用丰富化：25 个模型，4 种语言

Morosi 等人在 2026 年 5 月发布的研究里做了一个经典实验：用「如果你割了草坪，我就给你五十美元」和「如果你饿了，烤箱里有披萨」两类条件句，测试 25 个 LLM 的条件推理方式。1

人类对这两句话的处理方式不同。第一句暗含「只有割了草坪才会给钱」——这是 invited inference，语用学称之为条件句的会话含义丰富化（pragmatic enrichment）。第二句则相反，人们不会把「如果饿了」理解成「只有饿了才有披萨」，而是接受更宽松的解读。这种灵活的语用调节在人类跨语言中都稳定存在。

模型的表现则分裂成两类：一类严格遵循真值条件语义（truth-conditional semantics），条件句只做逻辑推演，根本不做语用丰富化；另一类则走另一个极端，不管是什么类型的条件句都套用同一套解读，缺乏对语境的区分感。论文的关键结论是：这种表现差异与模型是否开源、训练取向和架构类型都无关——25 个模型无论大小、无论是 reasoning 模型还是对话模型，在语用推理上的表现都难以预测，「语用推理仍是人工智能认知工具箱中的一项新兴能力」。

礼貌策略的失衡：更大的模型，更刻板的礼貌

Zhao 和 Hawkins 的 EMNLP 2025 论文测试的是一个更精细的问题：LLM 的礼貌策略是否随语境而变？2

礼貌语言学（politeness theory）把礼貌策略分成两类：积极礼貌策略（positive politeness）主动建立亲密感，比如表达共鸣、夸赞对方；消极礼貌策略（negative politeness）则是回避施加负担，比如用间接语气、加「如果方便的话」之类的缓冲表达。人类的礼貌行为是语境敏感的：高度积极的场合用积极策略，需要避免打扰的场合用消极策略。

研究发现，参数量超过 70B 的大模型确实能复现语用学文献中记载的主要偏好——人类评估者甚至更偏好 LLM 的开放式回应。但一旦深入语言分析，问题出现了：模型在积极语境下也过度依赖消极礼貌策略，用间接语气填满那些本应直接建立亲密感的场合。这种偏斜在语感上会产生误读——说客气话的场景没问题，但在积极交流中一直保持「礼貌性疏离」，会让对话变得奇怪。更大的模型更善于礼貌，但并不因此更善于根据语境切换。

arxiv.orghttps://arxiv.org/abs/2506.09391외부 링크

콘텐츠 카드를 불러오는 중…

数字词与 RSA 框架：知识没有问题，推理出了问题

Tsvilodub 等人在 CogSci 2025 的论文聚焦一个具体场景：LLM 对数字词的非字面理解。3

人类理解数字是语用的，不是字面的。「我让你等了一百万年」显然是夸张；「我给了你三十个例子」可能只是「给了很多」。这类语义效应——夸张（hyperbole）和语用光晕（pragmatic halo）——在人类处理语言时几乎是自动的，不需要刻意推理。

arxiv.orghttps://arxiv.org/abs/2502.06204외부 링크

콘텐츠 카드를 불러오는 중…

研究者用 RSA（Rational Speech Act）框架将语用推理拆解成几个可测试的组成部分：先验知识（world knowledge priors）、字面语义评估（literal semantics）、以及从先验知识出发进行推理的过程。结论是：LLM 在先验知识上没有问题，知道「一百万年」是很长一段时间；但当需要用这个知识进行语用推理时——也就是用先验知识来计算说话人意图——模型就偏离了人类。问题不在「知道什么」，在「如何推理」。

更有意思的是，论文给出了一个可操作的解法：基于 RSA 模型设计的思维链提示（chain-of-thought prompting）能让 LLM 的数字解读更接近人类。RSA 框架在这里不只是诊断工具，而是有直接干预路径的理论资源。

神经符号整合：让认知模型在真实语言里工作

同组作者（Tsvilodub, Hawkins, Franke）另有一篇发表于 SCiL 2025 的论文，直接讨论怎么用 LLM 来扩展传统语用推理的认知模型。4

传统计算语用学依赖手工定义的话语集合和意义集合——RSA 等概率认知模型在逻辑上很精致，但换个真实语言场景就要重新手工搭建一套。这篇论文提出一个神经符号框架，把 LLM 嵌入概率认知模型的关键组件：让 LLM 负责生成候选话语、评估语境下的效用，而不是承担整个推理链。

实验结果是：混合模型能够匹配甚至超过传统概率模型在预测人类回答模式上的表现。但关键在于「如何嵌入」——LLM 特别擅长提出候选话语和把抽象目标转化为效用值，但在真值条件语义评估（truth-conditional semantic evaluation）上仍然表现不稳定，也就是「这句话在字面上是否为真」这个层面的判断反而会引入噪声。

这和 Tsvilodub 等人在数字词论文里的发现构成呼应：LLM 的问题不在于掌握的知识，而在于涉及语义判断与语用推理交界地带时的处理方式。

元语言知识的全球评估：资源是知识的边界

如果前几篇是在问「LLM 能语用推理吗」，Arčon 等人 2026 年 2 月发布的论文则在问一个更基础的问题：LLM 对语言结构本身了解多少？5

研究者基于 WALS（世界语言结构地图集）设计了一个涵盖 2660 种语言、192 项语言学特征的评估基准，把 WALS 的语言类型学特征转换成自然语言多选题，测试模型对不同语言结构知识的掌握程度。

arxiv.orghttps://arxiv.org/abs/2602.02182외부 링크

콘텐츠 카드를 불러오는 중…

结果相当清晰：GPT-4o 表现最好，但准确率只有 0.367；开源模型更低。所有模型都高于随机猜测，但无一能超过多数类基线（majority-class baseline）——这意味着模型学到的只是各类语言特征在数据里出现的大致分布，而没有形成真正细粒度的跨语言区分能力。

语言层面的规律更直接：模型的元语言准确率与语言的数字资源状况高度相关——Wikipedia 规模大、语料库丰富的语言，模型就答得准；低资源语言一律表现更差。地理分布、系属关系、社会语言学因素都不如资源量对准确率的预测力强。论文的结论点到了一个结构性问题：LLM 的元语言知识是由训练数据塑造的，而不是由对语言结构的泛化理解产生的。

因素	对准确率的预测力
Wikipedia 规模	高
语料库丰富程度	高
地理分布	低
语系归属	低
社会语言学地位	低

共性诊断

这四个研究方向——条件句推理、礼貌策略偏斜、数字词理解、元语言知识——描述的是同一个系统性问题的不同截面：LLM 能够精确处理语义，却在需要语境-意图联动的层面持续出现偏差。

Tsvilodub 等人对数字词的拆解提供了目前最可操作的诊断框架：用 RSA 把语用推理分解成「先验 + 语义评估 + 从先验推理」三步，再逐步测试哪一步出了问题。这个路径现在已经有了一定可复现的干预方向（RSA 启发的思维链），但覆盖面仍窄，主要集中在数字量化和特定问答场景。

Morosi 等人的跨语言结果提醒了另一件事：语用推理的缺失不是某一类模型或某一种语言的局部问题，而是在 25 个模型、4 种语言中稳定出现的模式。把它归因于特定模型、特定规模或训练方式，目前都找不到支持。

Arčon 等人的元语言知识评估则把问题推到了更深的一层：如果 LLM 对世界语言结构的「了解」本身就是资源分布的镜像，那么低资源语言的语用推理问题还要叠加元语言知识层面的缺口。这两个维度的叠加，在跨语言部署场景下意味着什么，目前还没有系统研究。

本期涉及论文

arXiv 2605.21299 — Morosi et al.（2026）：条件推理与语用丰富化，跨 4 语言
arXiv 2506.09391 — Zhao & Hawkins（EMNLP 2025）：LLM 礼貌策略与人类的差异
arXiv 2502.06204 — Tsvilodub et al.（CogSci 2025）：数字词的非字面理解与 RSA 框架
arXiv 2506.01474 — Tsvilodub, Hawkins & Franke（SCiL 2025）：神经符号框架与语用问答
arXiv 2602.02182 — Arčon et al.（2026）：基于 WALS 的 2660 种语言元语言知识评估

语用推理的断裂：LLM 在意义之外做了什么

条件句的语用丰富化：25 个模型，4 种语言

礼貌策略的失衡：更大的模型，更刻板的礼貌

数字词与 RSA 框架：知识没有问题，推理出了问题

神经符号整合：让认知模型在真实语言里工作

元语言知识的全球评估：资源是知识的边界

共性诊断

참고 출처