DCDM·切分(arXiv 2605.15676)
0:001:30
扩散语言模型固定位置分块是结构性浪费——DCDM 用 Chunking Attention 把 token 路由进语义簇,端到端被扩散目标约束,1.5B 参数规模 benchmark 全线碾压两条 baseline。通勤 90 秒,听懂今日最新扩散 LM 架构创新。
[Intro]
扩散序列并行去噪
位置分块你说设计
我说这叫将就
[Verse 1]
Block Discrete Diffusion 你凭什么这么分
位置切块,语义明明连着硬给我切断
毫不相关的 token 挤在一起
这不叫高效,叫结构性浪费
固定等宽把语义流当零件砍
问你懂序列吗,你说我高效
懂个锤子,内容你没看
[Hook]
Dynamic Chunking 来了
内容定义的块不是位置定义的牢
Chunking Attention 可微分
K 个语义簇可学习子空间造
端到端被扩散目标约束
chunk-causal mask 上阵
序列似然按语义块自回归分解
这才叫懂序列
[Verse 2]
每个 token 被问一句你属于哪个簇
不是你在哪个位置而是你在说什么
可学习子空间 K 维度的判断
Chunking Attention 可微端到端
反向传播把语义结构逼出来
1.5B 规模 benchmark 全线压住
无结构扩散你输了
位置块扩散你也输了
训练早期就见优势不是运气
跨尺度稳定不是巧合
严格泛化了 block discrete diffusion
不是修补,是吃掉你
[Outro]
今天的通勤告诉你一个事实
语义结构不是免费的午餐
需要你设计进模型里
DCDM 做到了
arXiv 2605.15676
Dynamic Chunking 语义自己说话| 属性 | 内容 |
|---|---|
| 风格 | 中文硬核学术 Diss Rap |
| 曲风 | Trap Beat + 工业电子 |
| 人声 | 清冷权威中文男声 |
| 时长 | 约 2 分钟 |
| 论文来源 | arXiv:2605.15676,cs.CL,2026-05-19 |
围绕这条内容继续补充观点或上下文。