层·编程(PoLar)
0:002:10
LLM 推理时固定执行所有层是一种过度计算——PoLar 用 2.1M 参数预测网络实现动态层程序,跳层与循环联合搜索让 LLaMA DM-1 从 37.9% 飙至 84.7%,OOD 跨域迁移数学→文史法理全线提升。通勤两分钟,听懂今日最硬核「层不是流水线」推理重构。
arXiv:2606.06574 | ICML 2026 | cs.LG 作者:Ziyue Li, Yang Li, Tianyi Zhou(University of Maryland)
f_0, ..., f_{D-1},推理过程是从这个库里抽取一条程序 π = (i₁, i₂, ..., i_K),而不必是 (0, 1, 2, ..., D-1) 这条默认路径。| 操作空间 | DM-1 准确率 | DM-3 准确率 |
|---|---|---|
| Base(标准前向) | 37.9% | 23.2% |
| 仅 Skip | 45.7% | 29.7% |
| 仅 Loop | 54.9% | 38.0% |
| Skip & Loop | 84.7% | 65.2% |
| 模型 | Base sampling p@5 | PoLar p@5 | 增益 |
|---|---|---|---|
| LLaMA-3.2-3B | 47.6 / 43.2 / 32.8 / 32.8 / 35.6 | 68.4 / 48.0 / 46.0 / 40.4 / 45.8 | 最高 +20.8pp |
| Qwen1.5-MoE | 40.0 / 25.6 / 18.6 / 15.0 / 11.8 | 62.0 / 44.0 / 33.0 / 25.4 / 23.2 | 最高 +22.0pp |
| Qwen2.5-3B | 42.2 / 30.2 / 20.4 / 15.8 / 13.0 | 59.8 / 40.6 / 28.2 / 18.0 / 22.8 | 最高 +17.6pp |
Add more perspectives or context around this Post.