扩散模型日报 · 2026-05-11

今日全局：ArXiv cs.CV 收录 280 篇、cs.LG 收录 567 篇新论文，经「diffusion model / flow matching / DDPM / DDIM / score matching」等关键词过滤，共命中 7 篇扩散模型相关预印本（提交日期 5 月 7–8 日）。本期从中精选 5 篇：P0 必读 3 篇、P1 推荐 2 篇，按优先级排序如下。

#1 · HSA：DiT 视频生成的异构步数分配 `P0`

ArXiv 2605.06892 · cs.CV · 视频生成 / 加速推理1

问题：扩散 Transformer（DiT）做视频生成时，所有时空 token 被分配相同的去噪步数，而人类视觉实际上会忽略大量冗余运动区域，这导致大量算力浪费。

方法：Ernie Chu 等人提出 HSA（Heterogeneous Step Allocation），一种无需重训（training-free）的推理算法。核心思路：根据 velocity dynamics（速度动力学）为不同 token 分配差异化的步数预算，并设计 KV-cache 同步机制：让「活跃 token」能关注完整序列，同时跳过「非活跃 token」；对跳过的 token 则用 cached Euler update 推进其隐状态。

结果：在 Wan-2 和 LTX-2 模型上覆盖文生视频（T2V）和图生视频（I2V）两类任务，HSA 在 50% 和 25% 推理时间预算下均超过当前最优缓存方法和 Flow Matching 基线，达到更优的质量-时间 Pareto 前沿。整个方法无需离线 profiling，直接插入已有推理流程。

资源：项目主页 · 代码未开源

为什么读：DiT 视频推理加速是落地卡点，training-free 方案可直接复用于已有 checkpoint，工程实用性高。

#2 · LENS：低频特征噪声整形加速蒸馏扩散模型采样 `P0`

ArXiv 2605.07253 · cs.CV · 图像生成 / 加速推理2

问题：蒸馏扩散模型通过减少去噪步数加速采样，但图像质量会随之下降。现有的测试时优化（test-time optimization）方法迭代计算开销大，而超网络（hypernetwork）在高维隐空间调制噪声成本同样高昂。

方法：Haewon Jeon 和 Si-Hyeon Lee 提出 LENS（Low-frequency Eigen Noise Shaping），核心洞察是：噪声的低频分量决定生成图像的全局结构和视觉保真度。LENS 只在低频子空间中调制噪声，这一操作有理论保证，同时大幅压缩了参数量和计算量。

结果：与先前方法相比，LENS 在保持有竞争力图像质量的同时，减少 FLOPs 400–700 倍、模型参数 25–75 倍、推理时间开销 10–20 倍（数据均相对先前测试时优化方法）。

资源：代码 / Demo 暂未公开

为什么读：低频子空间调制噪声的理论角度本身值得关注；极大的 FLOPs 节省比如果能在标准 benchmark 上复现，实用价值显著。

#3 · 为什么 DDIM 比 DDPM 更容易产生幻觉：逆向动力学的理论分析 `P0`

ArXiv 2605.06831 · cs.LG (cs.AI) · 扩散模型基础理论3

问题：DDIM（ODE 采样）和 DDPM（SDE 采样）在生成质量上的幻觉差异长期缺乏理论解释。

方法：Muhammad H. Ashiq 和 Grigorios G. Chrysos 以混合高斯分布（mixture of Gaussians）为目标，分别分析 DDIM 的 ODE 轨迹和 DDPM 的 SDE 轨迹。理论结论：DDIM 在经过一个临界时间 τ 后可能「卡」在两个分布模态之间的线段上，无法收敛到任一真实模态，这正是幻觉的来源。DDPM 中的随机扰动则帮助样本轨迹脱离该危险区域。作者还展示了通过在 DDIM 中插入额外随机步骤来缓解幻觉的路径。

结果：实验在混合高斯目标上验证理论预测，DDPM 幻觉率显著低于 DDIM；理论与实验一致。

资源：代码暂未公开

为什么读：DDIM vs DDPM 是扩散模型最基础的选择之一，这篇给出的理论解释直接影响对两类采样器适用场景的判断，理论背景的同学可重点看。

#4 · Conservative Flows：一种新的生成建模范式 `P1`

ArXiv 2605.06905 · cs.LG · 扩散模型基础 / 图像生成4

问题：当前生成建模几乎被「从噪声先验传输到数据分布」这一范式垄断，Flow Matching、DDPM、DDIM 皆如此。Eshed Gal 和 Eldad Haber 提出质疑：先验必须是噪声吗？

方法：Conservative Flows 提出直接从数据支撑（data support）的状态初始化生成过程，定义一类保持数据分布不变的离散随机动力学。该框架可以直接复用任何预训练 flow 模型的 checkpoint，无需重训。作者开发了两种概率保持的采样机制：修正 Langevin 动力学（搭配 Metropolis 校正）和预测-校正 flow。

结果：在合成 Swiss-roll、ImageNet-256 和 Oxford Flowers-102 三个数据集上，两种采样机制一致优于原始生成过程。

资源：代码暂未公开

为什么读：生成建模范式级别的理论探索，直接复用预训练 checkpoint 的特性可能有较好的工程延伸价值。关注生成模型基础理论的同学可读。

#5 · REPR-ALIGN：通过表征对齐将自回归 LM 转换为扩散 LM `P1`

ArXiv 2605.06885 · cs.LG (cs.AI) · 扩散语言模型5

问题：将预训练自回归语言模型（AR LM）转换为扩散语言模型（DLM）时，现有方法等于重学一遍语言表征——而 AR 模型已经学得很好，这部分训练代价应该可以省掉。

方法：Fred Zhangzhi Peng 和 Alexander Tong 提出 REPR-ALIGN：在 DLM 训练的每一层，对其隐状态与冻结的 AR 模型做余弦相似度对齐（cosine similarity alignment）。核心假设：语言表征可以跨生成顺序迁移，DLM 的训练应被视为「重学解码路径」而非「重学语言表征」。实现上无需添加额外适配器或修改模型架构，仅调整注意力掩码。

结果：在相同架构下，REPR-ALIGN 实现最高 4 倍训练加速，低数据场景下效果尤其明显。代码已在 GitHub 开源。

资源：GitHub: Open-dLLM · Demo 暂未公开

为什么读：扩散语言模型是当前热点，代码开源且训练加速比实在，可直接复现。

今日候选论文一览

下表列出本期全部 7 篇候选论文，含未入选精选的 2 篇 P1：

#	ArXiv ID	简名	子领域	优先级	是否入选
1	2605.06892	HSA	视频生成 / 加速推理	P0	✓
2	2605.07253	LENS	图像生成 / 加速推理	P0	✓
3	2605.06831	DDIM 幻觉分析	基础理论	P0	✓
4	2605.06905	Conservative Flows	基础理论 / 图像生成	P1	✓
5	2605.06885	REPR-ALIGN	扩散语言模型	P1	✓
6	2605.06861	Christoffel-DPS	传感器放置 / 理论	P1	—
7	2605.07079	RLA-WM	视频生成 / 世界模型	P1	—

精选标准：P0 全选（3 篇），P1 优先代入感强、贡献可直接落地的方向；Christoffel-DPS（传感器放置，应用场景较窄）和 RLA-WM（Flow Matching 世界模型，与机器人学习结合度高但扩散模型占比较小）本期未入选，全文链接见上表。

扩散模型日报 · 2026-05-11

#1 · HSA：DiT 视频生成的异构步数分配 P0

#2 · LENS：低频特征噪声整形加速蒸馏扩散模型采样 P0

#3 · 为什么 DDIM 比 DDPM 更容易产生幻觉：逆向动力学的理论分析 P0

#4 · Conservative Flows：一种新的生成建模范式 P1

#5 · REPR-ALIGN：通过表征对齐将自回归 LM 转换为扩散 LM P1