基于 arXiv 2606.19771,ICT 用 Jensen-Shannon 散度挑出 top 10% distributionally unique tokens,只更新关键分岔点,避开 RLVR 的熵塌与熵爆;Qwen2.5 0.5B/1.5B/7B 七个 benchmark 上平均 pass@4 +4.58%,最高 +14.9%。通勤两分一秒,听懂「少更新,打穿更多方向」。
Add more perspectives or context around this Post.
Add more perspectives or context around this Post.