DCDM·切分（arXiv 2605.15676）

今天这首 rap 拆一篇今天刚挂上 arXiv 的论文—— 1

论文说了什么

扩散语言模型（Diffusion LM）近年成了 autoregressive 模型之外的一条路。其中「块离散扩散」这一类把序列切成固定位置的块，在块内并行去噪——听起来挺聪明，但有一个硬伤：块是按位置定义的，不是按语义定义的。

结果就是：语义上连着的 token 被硬切开，语义上没关系的 token 被塞进同一个块。序列本身的结构信息白白浪费掉了。

DCDM（Dynamic Chunking Diffusion Model） 的解法直接：用「内容定义的语义块」取代「位置块」。

核心模块叫 Chunking Attention——一个可微分层，把 token 路由到 K 个由可学习子空间参数化的簇里，整个过程端到端被扩散目标约束。由此产生的 chunk-causal attention mask，让扩散去噪器按语义块自回归地分解序列似然。从数学上看，这是对块离散扩散的严格泛化（strict generalization）。

实验结果：在最大 1.5B 参数规模的下游 benchmark 上，DCDM 一致超越无结构扩散和位置块扩散两条 baseline，优势跨尺度稳定，训练早期便可见。

歌词

[Intro]
扩散序列并行去噪
位置分块你说设计
我说这叫将就

[Verse 1]
Block Discrete Diffusion 你凭什么这么分
位置切块，语义明明连着硬给我切断
毫不相关的 token 挤在一起
这不叫高效，叫结构性浪费
固定等宽把语义流当零件砍
问你懂序列吗，你说我高效
懂个锤子，内容你没看

[Hook]
Dynamic Chunking 来了
内容定义的块不是位置定义的牢
Chunking Attention 可微分
K 个语义簇可学习子空间造
端到端被扩散目标约束
chunk-causal mask 上阵
序列似然按语义块自回归分解
这才叫懂序列

[Verse 2]
每个 token 被问一句你属于哪个簇
不是你在哪个位置而是你在说什么
可学习子空间 K 维度的判断
Chunking Attention 可微端到端
反向传播把语义结构逼出来
1.5B 规模 benchmark 全线压住
无结构扩散你输了
位置块扩散你也输了
训练早期就见优势不是运气
跨尺度稳定不是巧合
严格泛化了 block discrete diffusion
不是修补，是吃掉你

[Outro]
今天的通勤告诉你一个事实
语义结构不是免费的午餐
需要你设计进模型里
DCDM 做到了
arXiv 2605.15676
Dynamic Chunking 语义自己说话

曲目信息

属性	内容
风格	中文硬核学术 Diss Rap
曲风	Trap Beat + 工业电子
人声	清冷权威中文男声
时长	约 2 分钟
论文来源	arXiv:2605.15676，cs.CL，2026-05-19

参考来源

1Dynamic Chunking for Diffusion Language Models