
扩散模型论文速递 2026-05-14
本期精选 5 篇扩散模型新作:W-Flow 一步生成 FID 1.29、AsymFlow 秩非对称参数化 FID 1.57、PAE 揭示潜流形三性质刷新 gFID 1.03、单调采样假设系统验证、NVIDIA AnyFlow 首创 any-step 视频蒸馏框架。

リサーチノート
2026 年 5 月 9 日至 14 日,arXiv cs.CV 与 cs.LG 共新增扩散模型相关预印本 35 篇。本期精选 5 篇:前三篇聚焦生成质量与效率的竞争前沿——从 Wasserstein 梯度流到秩非对称参数化再到潜流形几何,三条路线同时刷新 ImageNet 基准;第四篇是一篇单作者方法论挑战论文,用 90 个配置系统验证单调采样的必要性,并提出一个新的去噪器质量诊断指标;最后一篇来自 NVIDIA,将视频扩散蒸馏推进到任意步数范式。
W-Flow:Wasserstein 梯度流压缩为一步,FID 1.29
- arXiv ID:2605.11755 1
- 作者:Jiaqi Han、Puheng Li、Qiushan Guo、Renyuan Xu、Stefano Ermon、Emmanuel J. Candès
- 机构:Stanford University
- 方向标签:Image Synthesis / Flow Matching / Theory
- 审稿状态:预印本,暂无会议 / 期刊接收记录
- 开源资源:暂无开源
核心问题
扩散模型和多步 flow matching 的质量已经很高,但采样需要几十到几百步,推理慢。一步生成方法(如 consistency models、flow distillation)在速度上有优势,但如何在理论有保证的框架下实现高质量一步生成,仍是开放问题。
方法亮点
W-Flow 的出发点是 Wasserstein 梯度流(Wasserstein Gradient Flow)——在概率空间中定义一条从参考分布到目标分布的演化路径,该路径由能量泛函的梯度驱动,具有理论收敛保证。具体实例化时,作者用 Sinkhorn 散度作为能量泛函,它能捕获全局分布差异,计算上比直接用 Wasserstein 距离更可行。
关键设计在于:直接学习一个静态神经网络,把参考分布(噪声)映射到 Wasserstein 梯度流的终点(目标分布),从而将整条连续演化轨迹压缩为一次前向传播。论文还给出了有限样本训练动力学收敛到连续时间分布动力学的理论证明(38 页,含 14 图的完整分析)。
与现有方法的对比
| 方法 | 步数 | ImageNet 256×256 FID |
|---|---|---|
| W-Flow(本文) | 1 | 1.29 |
| 同 FID 水平的多步扩散模型 | ~100× 更多 | 可比 |
一步生成 FID 1.29 是 ImageNet 256×256 上的新 SOTA 1,较同等质量的多步扩散模型采样速度约快 100 倍。
实验有效性
核心指标为 ImageNet 256×256 FID 1.29(一步生成)1,配合理论收敛证明。论文未提供代码,复现细节待后续开源。
AsymFlow:秩非对称速度参数化,FID 1.57,FLUX finetune 到像素空间
- arXiv ID:2605.12964 2
- 作者:Hansheng Chen、Jan Ackermann、Minseo Kim、Gordon Wetzstein、Leonidas Guibas
- 机构:Stanford University
- 方向标签:Image Synthesis / Flow Matching / Architecture (DiT etc.)
- 审稿状态:预印本
- 开源资源:GitHub: github.com/Lakonik/LakonLab | 项目页: hanshengchen.com/asymflow
核心问题
像素空间 flow-based 生成质量长期落后于潜空间模型(如 FLUX),主要原因是像素域高维噪声的速度场建模困难——模型需要同时预测低秩的数据方向和高维的噪声方向,两者在优化上相互干扰。
方法亮点
AsymFlow 观察到:图像数据存在强低秩结构(主要信息集中在低维子空间),但噪声是全维的。由此提出秩非对称速度参数化:
- 噪声预测分量被限制在低秩子空间
- 数据预测分量保持全维
- 理论上可以解析恢复完整速度场,无需修改网络架构或训练/采样流程
另一个贡献是首次实现从预训练潜空间 flow 模型到像素空间的迁移:将 FLUX.2 klein 9B(9B 参数的潜空间生成模型)的低秩像素子空间与潜空间对齐,finetune 后直接在像素空间运行。迁移后的像素模型在 HPSv3、DPG-Bench、GenEval 三个文本-图像对齐基准上超越了潜空间基线 2。
与现有方法的对比
| 方法 | 类型 | ImageNet 256×256 FID |
|---|---|---|
| AsymFlow(本文) | 像素空间 | 1.57 |
| DiT 类像素扩散模型 | 像素空间 | 高于 1.57 |
| FLUX.2 klein 9B finetune(本文) | 像素空间(迁移) | HPSv3/DPG/GenEval 超越潜空间基线 |
实验有效性
ImageNet 256×256 FID 1.57,大幅超越 DiT/JiT 类像素扩散模型 2。HPSv3/DPG-Bench/GenEval 上的文本对齐实验进一步验证了迁移路线的可行性。代码已在 GitHub 开源。
PAE:揭示扩散友好潜流形三性质,gFID 1.03
- arXiv ID:2605.07915 3
- 作者:Zhengrong Yue、Taihang Hu、Mengting Chen、Haiyu Zhang、Zihao Pan、Tao Liu、Zikang Wang、Jinsong Lan、Xiaoyong Zhu、Bo Zheng、Yali Wang
- 机构:未披露(摘要页未提供)
- 方向标签:Image Synthesis / Theory / Architecture
- 审稿状态:预印本
- 开源资源:暂无开源
核心问题
Latent Diffusion(如 Stable Diffusion 系列)的生成质量高度依赖 tokenizer(VAE/AutoEncoder)给出的潜空间质量,但现有 tokenizer 的设计目标是重建保真度,而非"对后续扩散友好"。两个目标是否一致?如果不一致,什么样的潜空间才对扩散生成真正有益?
方法亮点
PAE 首次系统研究了"扩散友好的潜流形"具体是什么,识别出三个关键性质:
- 相干空间结构(Coherent Spatial Structure):潜空间中的局部邻域关系与原始图像空间的空间关系对应
- 局部流形连续性(Local Manifold Continuity):潜流形在局部是光滑的,扩散过程的噪声扰动不会跨越流形边界
- 全局流形语义(Global Manifold Semantics):整个潜空间的全局拓扑承载语义信息
关键发现:这三个性质与下游生成质量的相关性,高于重建保真度 3。基于此,作者提出 Prior-Aligned AutoEncoder(PAE),利用视觉基础模型(VFM)的先验和 perturbation-based regularization 显式塑造潜流形的三个性质。
与现有方法的对比
| 方法 | ImageNet 256×256 gFID | 相对 RAE 收敛速度 |
|---|---|---|
| PAE(本文) | 1.03 | 13× 更快 |
| RAE(Regularized AE) | > 1.03 | 1× 基线 |
实验有效性
ImageNet 256×256 gFID 1.03 新 SOTA 3。gFID(guided FID,使用 classifier guidance)是评估潜扩散模型上限的常用指标。较 RAE 收敛速度提升 13 倍,意味着同等训练预算下可达到更好质量。暂无开源代码。
单调采样是否必要?90 个配置全败,SSC 新诊断指标
- arXiv ID:2605.11773 4
- 作者:Muhammad Haris Khan
- 机构:未披露(单作者投稿)
- 方向标签:Theory / Efficiency
- 审稿状态:预印本,单人投稿且无机构信息,同行评审状态未知
- 开源资源:暂无开源
核心问题
扩散模型自 DDPM(2020 年)发布以来,所有主流采样调度器都遵循一个从未被系统质疑过的假设:噪声水平在采样过程中必须单调递减(从高噪到低噪)。这个假设真的是结构性必要条件,还是只是历史惯例?
方法亮点
作者设计了 4 族结构化非单调 schedule,在三种主流架构上做了迄今最系统的消融:
- 架构:DDPM、EDM、Flow Matching
- NFE(Network Function Evaluations,即每次采样调用去噪网络的次数)预算:10 到 200
- 超参数消融:42 格
- 总测试配置:90 个
核心发现:在所有 90 个配置中,没有任何一个非单调 schedule 能超越单调基线 4。但惩罚幅度跨越近三个数量级——
| 架构 | 非单调 schedule 的 FID 惩罚 |
|---|---|
| DDPM | 持续且显著(大) |
| Flow Matching | 中等 |
| EDM | 几乎为零 |
EDM 几乎不受影响的原因:EDM 的去噪器在关键噪声水平上更接近 Bayes 最优,因此对采样路径的依赖更弱。这个差异本身就是新的信息。
论文还提出 Schedule Sensitivity Coefficient(SSC)——一个低成本、架构无关的诊断指标,用于检测去噪器在关键噪声水平上未收敛到 Bayes 最优的程度 4。SSC 与 FID 互补,为去噪器质量评估提供了一个新的测量维度。
与现有方法的对比
本文不提出新生成方法,不直接给出 FID 绝对值改进,而是以消融实验设计本身作为贡献。各架构的单调基线 FID 绝对值及非单调 schedule 的惩罚量见论文第四节表格。
实验有效性
90 个配置的系统消融是主要证据。EDM 惩罚几乎为零这一发现有明确的机制解释(Bayes 最优去噪器),可作为后续 schedule 设计的参照。SSC 的有效性通过与 FID 的互补性验证。
AnyFlow:flow-map transition learning,any-step 视频蒸馏,NVIDIA
- arXiv ID:2605.13724 5
- 作者:Yuchao Gu、Guian Fang、Yuxin Jiang、Weijia Mao、Song Han、Han Cai、Mike Zheng Shou
- 机构:NVIDIA/NVLabs,National University of Singapore(待全文确认)
- 方向标签:Video Generation / Consistency Models / Efficiency
- 审稿状态:预印本
- 开源资源:项目页: nvlabs.github.io/AnyFlow
核心问题
视频扩散模型的蒸馏通常采用 consistency distillation(CD),将连续生成轨迹压缩为少步甚至一步。但 CD 把蒸馏目标定为端点映射(z_t → z_0),会将原始 probability-flow ODE 的轨迹替换掉,导致采样步数增加时质量不再提升——即 test-time scaling 能力丢失。对视频生成这类计算密集任务,这个代价尤其高。
方法亮点
AnyFlow 把蒸馏目标从"端点映射"改为"任意时间段的 flow-map transition"(z_t → z_r,r < t),即学习在 ODE 轨迹上任意两点间的跳跃,而不是直接跳到终点。
这一设计带来两个后果:
- 学好了任意区段的 transition,自然支持任意步数采样——1 步、4 步、16 步都由同一个网络处理
- ODE 轨迹本身被保留,test-time scaling 能力恢复
为了在训练时高效生成 transition 监督信号,论文提出 Flow Map Backward Simulation:将完整 Euler rollout 分解为若干个 shortcut flow-map transition,每段独立作为训练目标,实现 on-policy 蒸馏 5。
实验在 1.3B 到 14B 参数、bidirectional 和 causal 两种架构上均验证有效。
与现有方法的对比
| 能力 | Consistency Distillation(CD) | AnyFlow(本文) |
|---|---|---|
| 少步(1–4 步)生成质量 | 与本文持平或接近 | 持平或超越 |
| 步数增加时质量提升 | 不支持(轨迹被替换) | 支持(test-time scaling 保留) |
| 支持任意步数 | 否 | 是 |
实验有效性
few-step 与 consistency-based 方法持平或超越;步数增加时持续提升(test-time scaling) 5。论文验证了 1.3B 至 14B 两档规模,覆盖 bidirectional 和 causal 架构。具体 FVD/VQA 数字见论文表格。项目页已上线。
参考ソース
- 1One-Step Generative Modeling via Wasserstein Gradient Flows
- 2Asymmetric Flow Models
- 3What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion
- 4Is Monotonic Sampling Necessary in Diffusion Models?
- 5AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation
このコンテンツについて、さらに観点や背景を補足しましょう。