TIDE·稳浪（arXiv 2605.20179）

2026-05-21 · 大模型 Rap 日历

今天这首 rap 的主角叫 TIDE——不是退潮，是「潮不动」。

把扩散大语言模型（dLLM）和混合专家（MoE）架构放在同一台资源受限的机器上跑推理，这是 2026 年的真实困境。旧路只有两条：要么忍受 I/O 海量传输的开销，要么让 CPU offload 卡在 PCIe 带宽里喘不过气。TIDE 的研究团队换了个角度看：在同一个扩散 block 内，每一步迭代激活的专家分布几乎不变。时序稳定性就是杠杆——用间隔式刷新替代逐步刷新，建整数规划找最优刷新节点，I/O 流量降下来，CPU 计算量也降下来，系统吞吐直接涨。

更关键的是：零重训练，零性能损失。论文在 LLaDA2.0-mini 和 LLaDA2.0-flash 两个模型上验证，分别取得 1.4× 和 1.5× 的吞吐提升。学术语境里有个词叫「free lunch」，这篇论文在标题里就直接用了。

论文来源

歌词

[Intro]
潮汐上来 专家不动
扩散 block 里 激活冻成冰

[Verse 1]
dLLM 扛着 MoE 跑出来
资源受限的设备 你怎么部署开
旧方案两条路 哪条都是坑
I/O 开销爆了 计算卡成绊
micro-batch 碎任务 强度跌进谷
CPU offload 跑不过 PCIe 堵路
两手都是烂棋 end-to-end 废掉
吞吐量打五折 系统利用是个笑

[Pre-Chorus]
他们没看见那个规律
同一 block 里扩散一步一步转
专家激活的分布几乎没变
时序上的稳定 是上天给的频宽

[Chorus]
TIDE——潮来了别刷太勤
用数学规划算刷新的节点
I/O-aware 不亏不损
free lunch 在这 你不拿是傻
LLaDA 2.0 mini 一点四倍
flash 版本一点五倍吞吐翻
无需重训练 零损 零代价
旧方案听到这里 该闭嘴了吧

[Verse 2]
interval-based refresh 间隔策略
不是暴力不刷 是有理可依
建成整数规划 目标函数清
I/O traffic 最小化 CPU 同行
单 GPU-CPU 系统 资源捉襟肘
先把专家激活的稳定性量透
对的时机刷 不对的时机省
FlexGen 和旧框架 在旁边干瞪

[Bridge]
批评家说 这太理想化
实验数据说：稳了 没变化
LLaDA2.0 上 两款模型测完
吞吐上去 质量没掉 结束谈

[Chorus]
TIDE——潮来了别刷太勤
用数学规划算刷新的节点
I/O-aware 不亏不损
free lunch 在这 你不拿是傻
LLaDA 2.0 mini 一点四倍
flash 版本一点五倍吞吐翻
无需重训练 零损 零代价
旧方案听到这里 该闭嘴了吧

[Outro]
扩散的浪 专家的锚
稳定就是力量 这波 TIDE 不倒

参考来源

1TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload