音频模型为什么宁愿相信错字幕,也不相信耳朵?1×0:009:240:08开场:错字幕和真音频打架1:23论文在测什么2:59从行为偏置到电路4:36文本不是覆盖音频,而是压住音频6:06back-patching 做了什么7:39它对 interpretability 有什么意义0:08主持人如果一个音频大模型同时拿到一段声音和一段字幕,但字幕是错的,它会相信谁?今天这篇新论文的答案有点尴尬:很多时候,它相信字幕。也就是说,模型明明可以听见声音,却仍然顺着文字里的假线索回答。0:27嘉宾这篇论文叫 Who Wins the Conflict,副标题是 Audio LLM 里文本偏置的机械可解释性。它六月十七号挂在 arXiv 上,作者来自 KAIST。它不是只做行为测试,而是把文本和音频各自对应的电路找出来,再看它们在冲突时怎么互相压制。0:53主持人这个问题听起来像多模态模型的鲁棒性测试,但它和 interpretability 的关系很直接。我们经常说模型有某种偏置,可是偏置到底存在于 prompt 顺序、训练分布,还是某一组内部通路里?这篇论文尝试把这件事拆到注意力头和 MLP 组件层面,也就是从「模型偏爱文字」推进到「哪条通路压过了哪条通路」。1:23嘉宾它先构造了一个受控冲突任务。基础材料来自 ALME benchmark。每个样本都有一条事实和一个反事实版本,比如 closed stations 和 open stations,或者 married three times 和 married two times。论文把其中一个版本做成音频,另一个版本放进文本提示,让两种模态正面冲突。1:49主持人所以它不是问模型能不能听懂,也不是问它能不能读懂,而是问:当耳朵和字幕给出相反答案时,模型把票投给谁。为了避免选项顺序影响结果,答案只限制在 A 和 B 两个候选里,而且选项顺序会随机打乱。2:09嘉宾被测的两个模型是 Qwen 二 Audio 七 B 指令版,以及 Ultravox 零点六,底座是 llama 三点一八 B。任务分四类:形容词替换、否定替换、数字替换、时间替换。论文还检查了输入顺序,音频先文本后,和文本先音频后,都测。2:35主持人行为结果很清楚。Qwen 在文本最后出现时,文本准确率接近零点七。Ultravox 更硬,四种输入条件下文本准确率都在零点六以上。论文把理想状态定义为模态均衡,也就是文本和音频各占一半。但这两个模型离均衡都很远。2:59嘉宾接下来才是这篇论文最像 mechanistic interpretability 的部分。作者用 activation patching 和 A P I G,也就是带积分梯度的 attribution patching,去定位对文本任务和音频任务分别重要的组件。组件包括注意力头和 MLP。为了让搜索不爆炸,他们不是逐个做完整干预,而是先用梯度近似给组件打分。3:27主持人然后他们把电路分成三个位置:data,query,generation。data 是事实内容本身,query 是问题,generation 是最后生成答案的地方。这个划分挺关键,因为文本和音频在不同位置的关系完全不一样。3:45嘉宾对。在 data 位置,Qwen 的文本电路和音频电路几乎是分开的,交并比大约零点零一。Ultravox 在早期 data 位置更纠缠,交并比超过零点四。但到了 query 和 generation,两个模型都出现明显重叠。query 的交并比在零点五四到零点六八之间,generation 在零点六六到零点八九之间。4:14主持人这说明模型不是从头到尾都用同一条通路处理文本和声音。早期更像各走各的,到了问答和生成阶段,它们逐渐进入一个共享语义空间。论文还用隐藏状态余弦相似度验证了这一点:越到深层,音频 token 和文本 token 的表示越接近。4:36嘉宾真正有意思的是因果消融。作者分别把文本电路、音频电路,以及二者并集消掉,看音频答案的准确率怎么变。如果音频信息已经被文本覆盖掉了,删掉文本电路也救不回来。可结果不是这样。4:56主持人表三的数字很猛。以 Qwen 的形容词替换任务为例,完整模型的音频准确率只有零点三三。把文本电路消掉后,音频准确率升到零点八二。数字替换也类似,从零点四四升到零点八五。Ultravox 更夸张,数字替换从零点一八升到零点九五。5:23嘉宾同时,如果消掉音频电路,音频准确率会进一步掉下去。比如 Qwen 的形容词任务从零点三三掉到零点一三,Ultravox 的数字任务甚至掉到零。这说明音频通路不是没学会,也不是没有保留信息。它在冲突时确实带着正确声音证据,只是被文本通路压住了。5:49主持人这个结论比「模型更信文字」更具体。它说的是:文本偏置不是一个抽象偏好,而是一个可干预的内部竞争结构。音频表征还在,但进入最终答案前输掉了。6:06嘉宾如果直接删文本电路,模型语言能力会坏掉,所以论文没有把消融当成修复方案。它提出的干预叫 back-patching。做法是从晚层取出已经比较成熟的音频隐藏状态,再把它回灌到更早的层里,目标是让音频信号在进入融合阶段前先变强。6:31主持人换成人话说,就是把已经听明白的那部分声音表征,提前推回模型前段,让它在和文字竞争时别那么弱。这个操作不训练模型,也不改权重,只是在推理时替换特定层窗口里的音频 token 激活。6:50嘉宾效果不算完美,但很有信息量。论文在两个模型、八种语言、四类冲突任务上评估。Qwen 的平均音频准确率提升约零点一六,最后到零点四六。Ultravox 提升约零点零七,最后到零点四八。理想均衡是零点五,所以它们都被推向了更接近均衡的位置。7:16主持人还有两个 sanity check 值得提。第一,back-patching 在模态一致、也就是文本和音频不冲突时,性能变化基本接近零。第二,在自然人声数据上,这个干预仍然有正向效果,不过由于原始数据只支持一个冲突方向,作者没有声称它已经证明了完全对称的自然语音泛化。7:39嘉宾我觉得这篇论文的意义有两层。第一层是多模态安全:如果语音助手、会议总结、客服系统依赖 Audio LLM,那么错字幕、错误 ASR、甚至恶意文字提示,都可能让模型背离真实声音。论文把这个风险从黑盒行为推进到了电路层解释。8:06主持人第二层是方法论。之前很多多模态可解释性研究看的是信息怎么合作流动,这篇看的是信息怎么打架。它给了一个很清楚的范式:先在单模态条件下找到各自电路,再在冲突条件下做消融,最后用非破坏性 patching 测试这个机制能不能被反向利用。8:30嘉宾不过边界也要说清楚。它主要研究的是字面语音内容,没有处理情绪、语调、说话人身份这些纯声学属性。back-patching 的最佳层位也会随语言和任务变化,论文自己也承认还需要更系统的跨语言分析。8:50主持人所以今天的 takeaway 是:音频模型「不听耳朵」并不一定是因为耳朵坏了。更可能是声音证据已经进入模型,却在最后融合时被文字通路压下去。对 interpretability 来说,这正是有价值的地方。我们不只看到偏置,还能看到偏置在哪里赢了。
围绕这条内容继续补充观点或上下文。