基于 arXiv 2606.19808,SeVRA 把测试时推理当作预算分配问题:MATH500 上选择性验证达 76.3% accuracy,并把 harmful flips 从 2.2% 压到 1.0%;但 8192-token long base 以 28% 更少总 token 接近同一准确率区间。通勤两分二十六秒,听懂「该再想,还是先加时」。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.