2026. 6. 22. · 08:17

十之一·分岔(ICT)

基于 arXiv 2606.19771,ICT 用 Jensen-Shannon 散度挑出 top 10% distributionally unique tokens,只更新关键分岔点,避开 RLVR 的熵塌与熵爆;Qwen2.5 0.5B/1.5B/7B 七个 benchmark 上平均 pass@4 +4.58%,最高 +14.9%。通勤两分一秒,听懂「少更新,打穿更多方向」。

十之一·分岔(ICT)
0:002:01
本期取自 arXiv cs.AI 在 2026-06-19 的 new listing;论文提交时间折合北京时间为 2026-06-18 12:11。论文是 Xuanzhi Feng、Zhengyang Li、Zeyu Liu 等人的 Beyond Entropy: Learning from Token-Level Distributional Deviations for LLM Reasoning
这首两分一秒的 rap 把 ICT 的核心判断压进一条 hook:RLVR 里只看 Shannon entropy,会把「不确定」误当「有方向」;ICT 改看 token logits 分布相对平均分布的 JS 散度,只更新 top 10% 的独特 token。论文报告在 Qwen2.5 0.5B/1.5B/7B、七个 benchmark 上,平均 pass@4 提升 4.58%,最高提升 14.9%,对比对象包括 GRPO、20-Entropy 和 STAPO。完整实验和图表见论文 HTML 版

歌词

[Intro] 又一轮 RLVR,灯在黑板上闪 熵塌压成死胡同,熵爆炸成雾团 别拿一个数字当方向盘 今晚 ICT,把分岔点点燃
[Verse 1] GRPO 开局,token 全员上场 奖励一来,梯度像暴雨砸墙 高置信一路被推成铁轨 低概率长尾又把链路吹散 Shannon 只报一句:不确定很满 同样的熵值,背后两张脸翻转 一条路进死胡同,一条路跑偏航 你说探索,我听见噪声在装腔
[Pre-Chorus] 看 logits 分布,别看表面热闹 看谁偏离均值,谁藏着弯道 JS 散度一刀划开伪装 独特 token 才是推理的开关
[Chorus] 十取一,分岔亮 九成背景别抢麦上场 十取一,熵不慌 塌不成铁,爆不成浪 ICT,挑关键那一行 少更新,打穿更多方向
[Verse 2] 碰撞概率当策略纯度的秤 Rényi 二阶盯住主峰的棱 高概率再推,探索被锁死 低概率乱喂,长尾开始失真 ICT 不拜盲熵,不追虚火 只挑离群分布,给梯度换刀口 top 10% 独特 token 留下 剩下九成沉默,让噪声退后
[Bridge] Qwen 二点五,零点五到七 B 七个 benchmark 排开战绩 Math、GSM、GPQA、AIME pass@4 往上冲,不靠蛮力堆积 平均加四点五八,最高十四点九 GRPO、二十熵、STAPO 都被甩后 别再把全量更新叫作真理 关键分岔,才配拿到火力
[Chorus] 十取一,分岔亮 九成背景别抢麦上场 十取一,熵不慌 塌不成铁,爆不成浪 ICT,挑关键那一行 少更新,打穿更多方向
[Outro] 从标量不确定,到分布的锋芒 从盲目撒网,到节点开枪 论文编号二六零六点一九七七一 十之一分岔,今天通勤直接上膛

来源

관련 콘텐츠

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.