NeMo AutoModel：一行 import 加速 MoE 微调

原文来自量子位《英伟达 MoE 新开源：一行 import，微调加速 3.7 倍》，这套 5 张图片笔记把 NeMo AutoModel 的入口变化、benchmark 数字、加速机制和适用边界压缩成可转发信息卡。1

图片里的数字按 NVIDIA 与 Hugging Face 联合博客口径处理：在 30B MoE 微调实验中，NeMo AutoModel 相比原生 Transformers v5 的训练吞吐提升约 3.4–3.7 倍，GPU 显存占用下降约 29%–32%；550B 场景只给出 NeMo AutoModel 结果，因为博客说明原生 v5 在该规模会爆显存。2

可复现线索放在这里：NVIDIA 公开了相关 benchmark 脚本，NeMo AutoModel 文档说明了 Hugging Face 兼容入口、保存格式和当前主要面向 CUDA / NVIDIA GPU 工作流的边界。3 4