扩散模型日报 · 2026-05-11
本期从 847 篇新论文中精选 5 篇扩散模型相关预印本:P0 必读——HSA 视频生成加速、LENS 低频噪声整形蒸馏(FLOPs 减少 400-700 倍)、DDIM 幻觉机制理论分析;P1 推荐——Conservative Flows 生成新范式与 REPR-ALIGN 4 倍训练加速。
Research Brief
今日全局:ArXiv cs.CV 收录 280 篇、cs.LG 收录 567 篇新论文,经「diffusion model / flow matching / DDPM / DDIM / score matching」等关键词过滤,共命中 7 篇扩散模型相关预印本(提交日期 5 月 7–8 日)。本期从中精选 5 篇:P0 必读 3 篇、P1 推荐 2 篇,按优先级排序如下。
#1 · HSA:DiT 视频生成的异构步数分配 P0
ArXiv 2605.06892 · cs.CV · 视频生成 / 加速推理1
问题:扩散 Transformer(DiT)做视频生成时,所有时空 token 被分配相同的去噪步数,而人类视觉实际上会忽略大量冗余运动区域,这导致大量算力浪费。
方法:Ernie Chu 等人提出 HSA(Heterogeneous Step Allocation),一种无需重训(training-free)的推理算法。核心思路:根据 velocity dynamics(速度动力学)为不同 token 分配差异化的步数预算,并设计 KV-cache 同步机制:让「活跃 token」能关注完整序列,同时跳过「非活跃 token」;对跳过的 token 则用 cached Euler update 推进其隐状态。
结果:在 Wan-2 和 LTX-2 模型上覆盖文生视频(T2V)和图生视频(I2V)两类任务,HSA 在 50% 和 25% 推理时间预算下均超过当前最优缓存方法和 Flow Matching 基线,达到更优的质量-时间 Pareto 前沿。整个方法无需离线 profiling,直接插入已有推理流程。
资源:项目主页 · 代码未开源
为什么读:DiT 视频推理加速是落地卡点,training-free 方案可直接复用于已有 checkpoint,工程实用性高。
#2 · LENS:低频特征噪声整形加速蒸馏扩散模型采样 P0
ArXiv 2605.07253 · cs.CV · 图像生成 / 加速推理2
问题:蒸馏扩散模型通过减少去噪步数加速采样,但图像质量会随之下降。现有的测试时优化(test-time optimization)方法迭代计算开销大,而超网络(hypernetwork)在高维隐空间调制噪声成本同样高昂。
方法:Haewon Jeon 和 Si-Hyeon Lee 提出 LENS(Low-frequency Eigen Noise Shaping),核心洞察是:噪声的低频分量决定生成图像的全局结构和视觉保真度。LENS 只在低频子空间中调制噪声,这一操作有理论保证,同时大幅压缩了参数量和计算量。
结果:与先前方法相比,LENS 在保持有竞争力图像质量的同时,减少 FLOPs 400–700 倍、模型参数 25–75 倍、推理时间开销 10–20 倍(数据均相对先前测试时优化方法)。
资源:代码 / Demo 暂未公开
为什么读:低频子空间调制噪声的理论角度本身值得关注;极大的 FLOPs 节省比如果能在标准 benchmark 上复现,实用价值显著。
#3 · 为什么 DDIM 比 DDPM 更容易产生幻觉:逆向动力学的理论分析 P0
问题:DDIM(ODE 采样)和 DDPM(SDE 采样)在生成质量上的幻觉差异长期缺乏理论解释。
方法:Muhammad H. Ashiq 和 Grigorios G. Chrysos 以混合高斯分布(mixture of Gaussians)为目标,分别分析 DDIM 的 ODE 轨迹和 DDPM 的 SDE 轨迹。理论结论:DDIM 在经过一个临界时间 τ 后可能「卡」在两个分布模态之间的线段上,无法收敛到任一真实模态,这正是幻觉的来源。DDPM 中的随机扰动则帮助样本轨迹脱离该危险区域。作者还展示了通过在 DDIM 中插入额外随机步骤来缓解幻觉的路径。
结果:实验在混合高斯目标上验证理论预测,DDPM 幻觉率显著低于 DDIM;理论与实验一致。
资源:代码暂未公开
为什么读:DDIM vs DDPM 是扩散模型最基础的选择之一,这篇给出的理论解释直接影响对两类采样器适用场景的判断,理论背景的同学可重点看。
#4 · Conservative Flows:一种新的生成建模范式 P1
ArXiv 2605.06905 · cs.LG · 扩散模型基础 / 图像生成4
问题:当前生成建模几乎被「从噪声先验传输到数据分布」这一范式垄断,Flow Matching、DDPM、DDIM 皆如此。Eshed Gal 和 Eldad Haber 提出质疑:先验必须是噪声吗?
方法:Conservative Flows 提出直接从数据支撑(data support)的状态初始化生成过程,定义一类保持数据分布不变的离散随机动力学。该框架可以直接复用任何预训练 flow 模型的 checkpoint,无需重训。作者开发了两种概率保持的采样机制:修正 Langevin 动力学(搭配 Metropolis 校正)和预测-校正 flow。
结果:在合成 Swiss-roll、ImageNet-256 和 Oxford Flowers-102 三个数据集上,两种采样机制一致优于原始生成过程。
资源:代码暂未公开
为什么读:生成建模范式级别的理论探索,直接复用预训练 checkpoint 的特性可能有较好的工程延伸价值。关注生成模型基础理论的同学可读。
#5 · REPR-ALIGN:通过表征对齐将自回归 LM 转换为扩散 LM P1
问题:将预训练自回归语言模型(AR LM)转换为扩散语言模型(DLM)时,现有方法等于重学一遍语言表征——而 AR 模型已经学得很好,这部分训练代价应该可以省掉。
方法:Fred Zhangzhi Peng 和 Alexander Tong 提出 REPR-ALIGN:在 DLM 训练的每一层,对其隐状态与冻结的 AR 模型做余弦相似度对齐(cosine similarity alignment)。核心假设:语言表征可以跨生成顺序迁移,DLM 的训练应被视为「重学解码路径」而非「重学语言表征」。实现上无需添加额外适配器或修改模型架构,仅调整注意力掩码。
结果:在相同架构下,REPR-ALIGN 实现最高 4 倍训练加速,低数据场景下效果尤其明显。代码已在 GitHub 开源。
资源:GitHub: Open-dLLM · Demo 暂未公开
为什么读:扩散语言模型是当前热点,代码开源且训练加速比实在,可直接复现。
今日候选论文一览
下表列出本期全部 7 篇候选论文,含未入选精选的 2 篇 P1:
| # | ArXiv ID | 简名 | 子领域 | 优先级 | 是否入选 |
|---|---|---|---|---|---|
| 1 | 2605.06892 | HSA | 视频生成 / 加速推理 | P0 | ✓ |
| 2 | 2605.07253 | LENS | 图像生成 / 加速推理 | P0 | ✓ |
| 3 | 2605.06831 | DDIM 幻觉分析 | 基础理论 | P0 | ✓ |
| 4 | 2605.06905 | Conservative Flows | 基础理论 / 图像生成 | P1 | ✓ |
| 5 | 2605.06885 | REPR-ALIGN | 扩散语言模型 | P1 | ✓ |
| 6 | 2605.06861 | Christoffel-DPS | 传感器放置 / 理论 | P1 | — |
| 7 | 2605.07079 | RLA-WM | 视频生成 / 世界模型 | P1 | — |
精选标准:P0 全选(3 篇),P1 优先代入感强、贡献可直接落地的方向;Christoffel-DPS(传感器放置,应用场景较窄)和 RLA-WM(Flow Matching 世界模型,与机器人学习结合度高但扩散模型占比较小)本期未入选,全文链接见上表。
Add more perspectives or context around this content.