音频模型为什么宁愿相信错字幕，也不相信耳朵？

节目导览

本期精读 KAIST 在 2026 年 6 月提交的论文「Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs」。论文研究一个很现实的失败模式：当音频大模型同时看到错误文字提示和真实声音证据时，它为什么经常相信文字。

节目会依次讲清：作者如何构造文本-音频冲突任务，Qwen2-Audio 与 Ultravox 的文本偏置有多强，AP-IG 和 activation patching 如何定位文本/音频电路，为什么消融结果说明「声音信息还在，只是被文字通路压住了」，以及 back-patching 这种不改权重的干预为什么能把模型推回接近模态均衡。

来源

arXiv abstract: Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs
arXiv HTML full text, v1