2026/6/30 · 8:23

预载·递归(CRT)

基于 arXiv 2606.27538,本期把 Context-Ready Transformer 的 pre-block correction 写成中文硬核 rap:D=5 以 1.7× 生成加速压过 12 层基线,D=1 在 A100 上 2.6× 提速,听懂 token 入层前为什么先要带上下文。

预载·递归(CRT)
0:003:05
本期来自 arXiv 2026-06-29 的 cs.CL new listing。论文 v1 实际提交时间是 2026-06-26 04:39(+08:00),所以这期按 arXiv new listing 口径入选,而不是把提交时间写成今天。
选题论文是 Mahesh Godavarti 的 The Context-Ready Transformer。它把 token 进 Transformer block 之前的那一步改掉:先用上一位置的 block output 和当前 token embedding 算一个 correction,让新 token 带着前文语境入场。论文报告 D=5 的 Context-Ready 模型击败 12 层 Roformer,并在 A100 上生成速度提升 1.7×;D=1、K=10 的版本击败 6 层 Roformer,速度提升 2.6×,流式推理与并行 K=10 训练结果在 0.01 PPL 内对齐。

歌词

[Intro] 新 token 刚进门,别裸奔进层 上一拍的旧输出,先把上下文封存 raw embedding 还没站稳 修正网络先开灯
[Verse 1] 标准 Transformer 排队重算身份 每个 token 像新人,进楼还得问门 层数往上堆,延迟往下沉 深度当电梯,算力交租金
Context-Ready 换规矩,不靠空喊神 上一位 block output,缓存里留证 z t minus one 加 e t,LN 后下针 correction FFN 一刀,先把语境纹身
不是残差一路叠,不把旧账滚成坑 non-cumulative,修正只留一份真 past-only,只吃过去,不偷未来的门 流式推理一遍过,递归链自己成阵
[Chorus] 预载,递归,把层数砍低 D 等于五,打穿十二层的旧梯 一七倍加速,A100 上开机 新 token 进场,已经带着前文气息
预载,递归,把深度拆离 K 等于十,训练并行,推理不迭代 二点六倍飞起,零点零一 PPL 对齐 raw token 靠边站,先把上下文吸进去
[Verse 2] 训练时 K 步展开,全序列并行推进 不是 BPTT 拉满 T,长链不把显存吞尽 K 等于五,多数深度已经收敛 K 等于十,单层也敢跟六层正面
OpenWebText 上见血,数字别装玄 D 五 C 一一二零,PPL 三六点三八现身 Roformer 十二层三七点八三,输在门前 同一台 A100,三四九对二零一 token 每秒翻篇
D 一 C 二零四八,速度更狠 九一九 token 每秒,把三五一甩进灰尘 KV cache 也减负,不只是跑得勤 五层少一六倍,单层少三点二倍存
[Chorus] 预载,递归,把层数砍低 D 等于五,打穿十二层的旧梯 一七倍加速,A100 上开机 新 token 进场,已经带着前文气息
预载,递归,把深度拆离 K 等于十,训练并行,推理不迭代 二点六倍飞起,零点零一 PPL 对齐 raw token 靠边站,先把上下文吸进去
[Bridge] pointer chasing 十跳,别拿宽度装深 一层 Roformer 只解一层门 三层到三关,五层到六关 十二层才全通,楼梯终于爬完
D 等于一,BPTT 开刃 十一关全解,十六 K 迭代收针 这不是 benchmark 上的花活镀金 是递归把组合链,塞进推理的骨筋
[Verse 3] 但别吹成神谕,论文也留了刹车痕 OpenWebText、Wiki、合成任务,还没上十亿参数门 训练从零要 K 次过块,成本会涨温 prefill 也要 K 乘 D,长提示先交本
所以这一拳狠,不代表天下归心 它说的是结构旧账:token 进层前太贫 给它一段过去,别让它空手入阵 宽而浅也能咬人,旧深塔别太自尊
[Final Chorus] 预载,递归,把层数砍低 D 等于五,打穿十二层的旧梯 一七倍加速,A100 上开机 新 token 进场,已经带着前文气息
预载,递归,把深度拆离 K 等于十,训练并行,推理不迭代 二点六倍飞起,零点零一 PPL 对齐 Context-Ready 上桌,Transformer 先把座椅让一席
[Outro] arXiv 二六零六二七五三八 提交二十五号,二十九号进 new listing 的榜 Mahesh Godavarti 把修正链点亮 下一枚 token 入场,先带上下文开嗓

関連コンテンツ

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。