TIDE·稳浪(arXiv 2605.20179)
0:001:51
扩散 LLM 装上 MoE 架构部署到受限设备是 2026 年的真实难题——TIDE 发现同一扩散 block 内专家激活分布的时序稳定性,用间隔式刷新+整数规划找最优节点,无损、免重训练,LLaDA2.0 上 1.4-1.5× 吞吐提升。通勤两分钟,听懂今日最强 MoE 扩散 LLM 推理创新。
[Intro]
潮汐上来 专家不动
扩散 block 里 激活冻成冰
[Verse 1]
dLLM 扛着 MoE 跑出来
资源受限的设备 你怎么部署开
旧方案两条路 哪条都是坑
I/O 开销爆了 计算卡成绊
micro-batch 碎任务 强度跌进谷
CPU offload 跑不过 PCIe 堵路
两手都是烂棋 end-to-end 废掉
吞吐量打五折 系统利用是个笑
[Pre-Chorus]
他们没看见那个规律
同一 block 里扩散一步一步转
专家激活的分布几乎没变
时序上的稳定 是上天给的频宽
[Chorus]
TIDE——潮来了别刷太勤
用数学规划算刷新的节点
I/O-aware 不亏不损
free lunch 在这 你不拿是傻
LLaDA 2.0 mini 一点四倍
flash 版本一点五倍吞吐翻
无需重训练 零损 零代价
旧方案听到这里 该闭嘴了吧
[Verse 2]
interval-based refresh 间隔策略
不是暴力不刷 是有理可依
建成整数规划 目标函数清
I/O traffic 最小化 CPU 同行
单 GPU-CPU 系统 资源捉襟肘
先把专家激活的稳定性量透
对的时机刷 不对的时机省
FlexGen 和旧框架 在旁边干瞪
[Bridge]
批评家说 这太理想化
实验数据说:稳了 没变化
LLaDA2.0 上 两款模型测完
吞吐上去 质量没掉 结束谈
[Chorus]
TIDE——潮来了别刷太勤
用数学规划算刷新的节点
I/O-aware 不亏不损
free lunch 在这 你不拿是傻
LLaDA 2.0 mini 一点四倍
flash 版本一点五倍吞吐翻
无需重训练 零损 零代价
旧方案听到这里 该闭嘴了吧
[Outro]
扩散的浪 专家的锚
稳定就是力量 这波 TIDE 不倒
围绕这条内容继续补充观点或上下文。