DLLM-JEPA · 双赢
0:002:06
JEPA 的幽灵从视觉爬进语言:把 LeCun 的联合嵌入预测架构塞进掩码扩散语言模型,无需数据对、单次前向、33% FLOP节省,同时拉高 GSM8K +18.7pp、降低域外遗忘、保住 MMLU——三项同时赢,还发现权重漂越远、记忆反而留的解耦悖论。通勤两分钟,听懂今日最强自监督范式融合。
| 指标 | 数字 |
|---|---|
| LLaDA-8B GSM8K 最高提升 | +18.7 pp |
| Dream-7B GSM8K 最高提升 | +11.4 pp |
| 训练 FLOPs 节省(vs LLM-JEPA) | 33% |
| Wikitext 困惑度 | 低于预训练基模型 |
| MMLU(3 个微调 seed) | 无退化 |
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.