DiffusionGemma 还会把思考写在明面上吗?1×0:0010:190:00开场:潜在推理会不会把 CoT 监控打穿0:52DiffusionGemma 跟自回归模型哪里不一样2:34中间向量能不能被 token 化4:32只看最终文本,监控还够不够5:39扩散模型独有的推理形态8:06这篇论文对领域的意义9:56收尾0:00主持人今天这篇论文的题目很直接:DiffusionGemma 到底有多透明?它问的是一个挺现实的问题。过去我们监控推理模型,常常依赖模型把 chain of thought 写出来。可如果模型开始在连续向量里思考,推理过程还会留在明面上吗?0:20研究者对,这不是普通的架构介绍。Joshua Engels、Callum McDougall、Bilal Chughtai、Arthur Conmy、Rohin Shah、Neel Nanda 等人把 DiffusionGemma 当成一个样本,做了一次透明度审计。它的结论没有简单说安全,也没有简单说危险,而是把问题拆成了三层:中间变量能不能读,算法过程能不能还原,最后输出能不能被监控。0:52主持人先把对象说清楚。自回归模型是一格一格往右写 token,前面的 token 定下来以后,后面的 token 只能接着它走。DiffusionGemma 不一样,它先拿到一整块 canvas,然后多轮去噪。每一步都可以改这块 canvas 上的任何位置。也就是说,它不是一边想一边把字钉死,而是在同一张草稿纸上反复改答案。1:18研究者这就带来一个新的透明度风险。DiffusionGemma 每个去噪步骤之间,不只传递可读 token,还传递一组 self-conditioning vectors。它们是连续向量,默认看不懂。如果重要推理藏在这些向量里,我们只看最终文本,可能会错过模型真正做决定的那部分。1:43主持人论文先用一个指标把这种担心量化,叫 opaque serial depth。可以把它理解成:模型最长可以做多少串行计算,而中间不经过一个人类可读的瓶颈。如果 self-conditioning 向量不能解释,DiffusionGemma 的 opaque serial depth 比对应的 Gemma 四二十六 B A 四 B 高二十八点六倍。2:07研究者但这只是最悲观的算法账本。作者随后问:这些中间向量真的完全不可读吗?如果能把它们映射回少量 token,而且模型能力不掉,那这个瓶颈就没有想象中那么黑。按照这个假设,DiffusionGemma 的 opaque serial depth 会从二十八点六倍降到一点一倍,几乎回到自回归 Gemma 的水平。2:34主持人这一步是全篇最关键的实验之一。作者对 self-conditioning 矩阵做 logit lens,把每个位置的信息限制成少数最可能的 token。直觉上,这有点像强迫模型把每一步之间传递的东西翻译成 token 草稿:如果草稿删到很薄,模型还会做题,那连续向量里真正必需的信息就没有那么多。3:00研究者他们试了两类限制:只保留 top K token,或者只保留概率超过阈值的 token。结果挺意外。保留 top 八,或者保留概率大于零点零三的 token,Natural to Code、LiveCodeBench、数学题、GPQA 这些能力评测基本没有下降。也就是说,大量连续向量信息被删掉以后,模型还能正常做题。3:28主持人能力不掉,只说明这些信息不是必要的;还不能说明剩下的 token 真能解释。论文又在八百个 WildChat prompt 上看中间 token 到底是什么。概率超过零点零三的 token,大多数要么就是最终 token,要么是附近位置的 token,要么跟最终 token 在 embedding 里很接近。早期去噪步骤里,能归到这些类别的比例也超过百分之八十五。3:58研究者这就是本文比较乐观的部分。DiffusionGemma 的 load-bearing intermediate states,很多时候像是在猜当前或邻近位置最终会写什么,而不是在用一套完全看不见的 neuralese 语言做推理。不过 top 八这个筛法会带来不少噪声,尤其在后期模型已经很确定第一个 token 以后,后面七个低概率 token 会显得乱。作者没有把这点抹掉,而是把它留下来当作 monitorability 的风险。4:32主持人接下来是 monitorability。这里的目标不是判断模型有没有思考,而是看另一个监控模型能不能从输出里推断出任务相关信息。比如输入里动了某个提示,模型行为跟着变,监控器能不能在回答里看出这种变化。4:52研究者作者把 Guan 等人的 monitorability eval 改到 DiffusionGemma 上,拿它和 Gemma 四比较。主结果是:DiffusionGemma 的 monitorability 跟 Gemma 四差不多。这个结论有点安慰人,但要小心读。DiffusionGemma 在这些评测里常常跨多个 canvas 生成;一旦跨 canvas,它又部分回到了类似自回归的模式。5:19主持人还有一个反向 confound。论文里有一张图显示,DiffusionGemma 的 chain of thought 字符数比 Gemma 少。通常 CoT 越长,监控越容易。它在更短 CoT 下还能跟 Gemma 差不多,确实是一个正面信号。但这不等于单 canvas 的潜在推理也同样好监控。5:39研究者真正有意思的是第五节。作者不再只做指标,而是用可视化看 DiffusionGemma 到底怎么生成答案。它会做一些自回归模型做不了的事。第一个例子是早期长度预测。给它一个两句话解释光合作用的 prompt,第一步去噪以后,后面大约五十五个位置之后就已经高置信度预测 padding token。内容还没写稳,长度先差不多定了。6:11主持人第二个例子更像推理。题目要求先说答案,再解释:四百到八百之间有多少个平方数?DiffusionGemma 一开始把答案猜成九。后面几步,它把平方根边界算出来,才把前面的答案改成八。对自回归模型来说,答案 token 一旦写出去就没法回头;扩散模型可以先在后面算,再回头改前面。6:40研究者代码生成也有类似现象。它常常先写结构,比如函数名、代码块边界、循环骨架,再回填变量初始化、注释和 docstring。这不是线性写稿,而是在一整块 canvas 上搭脚手架。对于 interpretability 来说,这很新鲜,也有点麻烦。我们不能再默认 token 出现顺序就是思考顺序。7:08主持人论文还观察到 token smearing 和 sequence smearing。前者是模型知道某个 token 会出现,但还没决定具体放哪,于是概率质量摊在相邻位置上。后者更强,模型在一段时间里像是同时保留两种候选序列,最后再塌缩到其中一个。作者说得很谨慎:目前看到的 sequence smearing 更多是位置和长度问题,还不是明确的两套语义计划。7:38研究者最值得盯的是 intermediate-context reasoning。论文有个 Fibonacci-like 任务,要求如果个位数出现三,就把它替换成 Gold。DiffusionGemma 有时会先在中间步骤里生成数字三,用它继续算后面的序列,等后续项稳定了,再把三替换成 Gold。最终输出里看不到三,但三曾经是因果链条的一部分。8:06主持人所以这篇论文不是说 DiffusionGemma 已经不透明了。更准确地说,它给了我们一个审计模板。先算 opaque serial depth,再检查中间瓶颈能不能被 token 化,再跑 monitorability,最后看模型实际的生成算法。这个流程以后可以拿去测更强的 latent reasoning 模型。8:30研究者它的边界也清楚。第一,结果很依赖 DiffusionGemma 当前的训练方式和架构。它的 self-conditioning 本来就被投向 embedding 方向,所以 logit lens 才可能好用。第二,monitorability 主要是多 canvas 情境,单 canvas 的复杂推理可能更难。第三,把中间向量映射成 token,不等于它们天然可信;就像自然语言 CoT 也会不忠实,映射出来的 token 也可能漏掉关键东西。9:03主持人我觉得它最尖锐的地方,是把 CoT 透明度从一个语言问题变成了架构问题。只要模型的串行计算必须穿过可读 token,我们还有监控抓手;如果未来模型把更多计算搬进连续空间,透明度就不能靠信念维持,必须持续测。9:24研究者对,而且这篇论文给出的短期判断是:DiffusionGemma 还没有明显失去透明度,但它已经展示了另一种思考顺序。长度先出现,答案能回改,候选序列能摊开,中间 token 可以被用完再擦掉。今天的结论算是温和的;真正的问题是,下一代文本扩散模型被更强优化压力推着走的时候,这些中间步骤还会不会这么老实。9:56主持人本期就到这里。今天精读的是 arXiv:2606.20560,How Transparent is DiffusionGemma? 如果你关心 latent reasoning、CoT 监控和 mechanistic interpretability,这篇很值得放进最近的必读列表。我们下期继续看 LLM interpretability 的新论文。
Añade más opiniones o contexto en torno a este contenido.