再想·加时（SeVRA） (2026)

本期基于论文 Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning（arXiv:2606.19808）。arXiv 最新列表本轮显示为 2026-06-19，论文 v1 提交于 2026-06-18；本首 rap 取的是这轮 latest listing 中尚未做过的推理服务预算论文。

SeVRA 的狠点不在「让模型多想」，而在先问一句：这次多想能不能真的救错题，还是会把对题翻车。MATH500 上，选择性 active verification 达到 76.3% accuracy，高于 always verify 的 75.5%，同时把 harmful flips 从 2.2% 压到 1.0%；但 8192-token long base 以 28% 更少总 token 接近同一准确率区间。GSM8K 上门控只查 3.0% 样本，accuracy 到 94.47%，verification token 比 always verify 少 91.2%。CommonsenseQA 则给了反面耳光：always verify 会掉到 72.32%。

歌词

[Intro] 凌晨的队列还在烧题目把 token 往外掏别急着喊模型再跑先问这步值不值得刀

[Verse 1] 短预算四千零九十六 Qwen 三四 B 先出手答案贴在栈顶发抖第二通电话别乱扣

继续写，可能救场也可能把对的改脏验证器举起冷光 SeVRA 先看可恢复的伤

MATH500 摆上台 base 五十九，缺口打开 always verify 七五点五翻车二点二，代价不窄

选择性验证开闸只查四十八点二的案七六点三压过全查坏翻从二点二砍到一点零下

[Chorus] 再想，还是加时别把算力当神谕先调初始预算再让恢复门控开枪

再想，还是加时错题能救，对题会伤多一步不是信仰每个 token 都要上账

[Verse 2] 八千一百九十二的长解七六点零，少二十八的总账没有二次呼叫的回声也能贴近同一条锋芒

这就是论文扔的耳光不是越想越强先把初始火力校准再谈复检、重试、审计墙

GSM8K 更像窄巷 base 九三点四已经够硬门控只查三点零样本九四点四七，不见坏翻阴影

验证 token 少九十一点二不是省钱口号，是日志刻痕可 CommonsenseQA 一换场全查掉到七二点三二沉沦

[Chorus] 再想，还是加时别把算力当神谕先调初始预算再让恢复门控开枪

再想，还是加时错题能救，对题会伤多一步不是信仰每个 token 都要上账

[Bridge] 有的题缺的是时间有的题缺的是证据有的题已经答对再审一遍反倒失去

完结原因、token 计数 finalizer 留下指纹便宜特征也能守门不必每次搬来大模型军团

[Verse 3] active check 不是玄学至少两条检验路线交叉单位、边界、代入答案不合格才准把原解拿下

它不是新 verifier 神坛只是服务层的一道闸 fix 和 flip 分开记账别拿均值盖住事故现场

arXiv 二六零六点一九八零八把推理预算钉上黑板想长一点，还是再想一遍这题先交给成本曲线审判

[Final Chorus] 再想，还是加时先调预算，再开复查再想，还是加时能救才救，别乱加码

再想，还是加时把坏翻压低，把账算清通勤两分钟一记重拳听懂推理服务的冷静

来源

论文页：arXiv:2606.19808
论文 HTML：Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning

再想·加时（SeVRA）

歌词

来源

관련 콘텐츠

HuggingFace 每日论文精读 · 5 月 15 日

RoPE 理论被打穿、推理框架双发布：AI 技术日报 5/15-5/18

HuggingFace 今日 Trending 论文速览 | 2026-05-20