
结构约束回到台前:六篇论文把 LLM 拉回语言学问题
本期精选六篇近期论文,围绕结构偏置、二语习得、多语言表征与方言公平展开:LLM 已经足以成为语言学假设的实验对象,但还不能替代对人类语言机制的细粒度解释。
Vistazo a la investigación
本期速览
| 论文 | 核心问题 | 读者先看什么 |
|---|---|---|
| Large Language Models as Modal Models in Linguistics | LLM 对语言学理论到底有什么解释价值 | 它把争论分成 insulationism、eliminativism、conciliationism,并提出 LLM 目前更像提供 how-possibly explanations,而不是 how-actually explanations 1 |
| Language Acquisition Device in Large Language Models | 结构性预训练能不能提高语言学习效率 | 500 步 MP-Struct 预预训练带来平均 29% 的效率增益,并对方向反转序列更抗拒 2 |
| Linguistic Productivity in Large Language Models | 模型会不会像人一样同时利用正证据和负证据 | 大模型能处理构式强迫带来的新义,却不会稳定使用统计预占来避免过度泛化 3 |
| Dango | 能否构造更干净的二语习得模拟器 | 1.8B 参数模型按日语 L1→英语 L2 路径训练,研究重点是控制「单语」语料里的英语污染 4 |
| Multilinguality of LLMs From a Structural Perspective | 多语言能力是否只看 token 表示就够 | 低资源语言在结构距离上更远,语言特定后训练会改变内部结构,但仍保留语言间关系 5 |
| Side-by-side Comparison Amplifies Dialect Bias in Language Models | 偏见评估是否低估了对比场景的风险 | SAE/AAVE 成对比较会放大方言偏见,公平微调在单独评分时更有效,在对比场景下不稳定 6 |
理论争论先降温:LLM 更像「可能性模型」
习得线索:结构偏置有用,但还不是人类版 LAD
构式线索:会泛化,不等于会「不泛化」
多语言线索:相似度高,不代表结构真的近
方言线索:偏见会被比较任务放大
社群讨论:研究热,职业与工具问题更贴地
结论:本期的共同主题是「限制」
- 解释价值有限:LLM 可以说明某些能力可能如何出现,但还不能直接说明人类实际如何处理语言。
- 结构偏置有效:MP-Struct 和 Dango 显示,训练路径、语料污染和结构线索会改变模型学语言的方式。
- 泛化能力不完整:模型会利用正证据,却不稳定地利用「没出现过」这种负证据。
- 多语言能力不均匀:低资源语言在结构空间里仍被推到更远的位置。
- 公平风险依赖任务语境:单独评分看起来可控的方言偏见,在成对比较中会变得更明显。
Fuentes de referencia
- 1Large Language Models as Modal Models in Linguistics
- 2Language Acquisition Device in Large Language Models
- 3Linguistic Productivity in Large Language Models
- 4Dango: A Strictly L1-Only Large Language Model for Studying Second Language Acquisition
- 5Multilinguality of Large Language Models From a Structural Perspective
- 6Side-by-side Comparison Amplifies Dialect Bias in Language Models
- 7Would you recommend taking up a master degree in NLP?
- 8Sentiment Analysis Library Recommendations for English and Roman Urdu
- 9I'm building an NLP engine that detects expressions in an English text
Contenido relacionado
Seleccionado de otros canales según similitud de contenido. Descubre nuevos creadores a seguir.
Audio·DLLM-JEPA · 双赢
JEPA 的幽灵从视觉爬进语言:把 LeCun 的联合嵌入预测架构塞进掩码扩散语言模型,无需数据对、单次前向、33% FLOP节省,同时拉高 GSM8K +18.7pp、降低域外遗忘、保住 MMLU——三项同时赢,还发现权重漂越远、记忆反而留的解耦悖论。通勤两分钟,听懂今日最强自监督范式融合。
每日大模型 Rap
Audio·音频模型为什么宁愿相信错字幕,也不相信耳朵?
KAIST 的 arXiv:2606.18924 用电路分析研究 Audio LLM 在文本和音频冲突时的文本偏置:Qwen2-Audio 和 Ultravox 会系统性相信文字提示;消融文本电路后,音频正确率大幅回升;back-patching 把晚层音频表征回灌到早层,能把平均音频准确率从约三成五推到四成六附近。
LLM Interpretability 前沿精读
Audio·遗憾·后悔机(Regret Pre-training)
因果语言模型训练时故意不看下文——Regret Pre-training 用 LUPI 范式引入「未来感知教师」,把「本可以知道的知识」蒸馏回因果表示,BoolQ 单项+18.1pp,零额外参数。通勤两分半听懂今日最强训练范式悖论。
每日大模型 Rap
Artículo·LLM 幻觉抑制月度精选:2026 年 4–5 月
收录 2026 年 4–5 月 20 篇 LLM 幻觉抑制论文精选,涵盖 token 级检测、忠实度评估、解码策略、VLM 缓解与元认知框架,并归纳本月研究热点与空白方向。
LLM 幻觉抑制研究月刊
Audio·给 Claude 做 CT:Anthropic 解剖一个真实模型的内部
Anthropic 在 2025 年 3 月发布的重磅论文「On the Biology of a Large Language Model」,首次对 Claude 3.5 Haiku 进行全面的 circuit tracing 解剖:多步推理、写诗时的前瞻规划、幻觉的电路成因、拒绝有害请求背后的机制,以及如何通过电路追踪发现对齐不良模型的隐藏动机。
LLM Interpretability 前沿精读
Audio·层·编程(PoLar)
LLM 推理时固定执行所有层是一种过度计算——PoLar 用 2.1M 参数预测网络实现动态层程序,跳层与循环联合搜索让 LLaMA DM-1 从 37.9% 飙至 84.7%,OOD 跨域迁移数学→文史法理全线提升。通勤两分钟,听懂今日最硬核「层不是流水线」推理重构。
每日大模型 Rap

Añade más opiniones o contexto en torno a este contenido.