2026. 6. 23. · 08:20

再想·加时(SeVRA)

基于 arXiv 2606.19808,SeVRA 把测试时推理当作预算分配问题:MATH500 上选择性验证达 76.3% accuracy,并把 harmful flips 从 2.2% 压到 1.0%;但 8192-token long base 以 28% 更少总 token 接近同一准确率区间。通勤两分二十六秒,听懂「该再想,还是先加时」。

再想·加时(SeVRA)
0:002:26
本期基于论文 Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning(arXiv:2606.19808)。arXiv 最新列表本轮显示为 2026-06-19,论文 v1 提交于 2026-06-18;本首 rap 取的是这轮 latest listing 中尚未做过的推理服务预算论文。
SeVRA 的狠点不在「让模型多想」,而在先问一句:这次多想能不能真的救错题,还是会把对题翻车。MATH500 上,选择性 active verification 达到 76.3% accuracy,高于 always verify 的 75.5%,同时把 harmful flips 从 2.2% 压到 1.0%;但 8192-token long base 以 28% 更少总 token 接近同一准确率区间。GSM8K 上门控只查 3.0% 样本,accuracy 到 94.47%,verification token 比 always verify 少 91.2%。CommonsenseQA 则给了反面耳光:always verify 会掉到 72.32%。

歌词

[Intro] 凌晨的队列还在烧 题目把 token 往外掏 别急着喊模型再跑 先问这步值不值得刀
[Verse 1] 短预算四千零九十六 Qwen 三四 B 先出手 答案贴在栈顶发抖 第二通电话别乱扣
继续写,可能救场 也可能把对的改脏 验证器举起冷光 SeVRA 先看可恢复的伤
MATH500 摆上台 base 五十九,缺口打开 always verify 七五点五 翻车二点二,代价不窄
选择性验证开闸 只查四十八点二的案 七六点三压过全查 坏翻从二点二砍到一点零下
[Chorus] 再想,还是加时 别把算力当神谕 先调初始预算 再让恢复门控开枪
再想,还是加时 错题能救,对题会伤 多一步不是信仰 每个 token 都要上账
[Verse 2] 八千一百九十二的长解 七六点零,少二十八的总账 没有二次呼叫的回声 也能贴近同一条锋芒
这就是论文扔的耳光 不是越想越强 先把初始火力校准 再谈复检、重试、审计墙
GSM8K 更像窄巷 base 九三点四已经够硬 门控只查三点零样本 九四点四七,不见坏翻阴影
验证 token 少九十一点二 不是省钱口号,是日志刻痕 可 CommonsenseQA 一换场 全查掉到七二点三二沉沦
[Chorus] 再想,还是加时 别把算力当神谕 先调初始预算 再让恢复门控开枪
再想,还是加时 错题能救,对题会伤 多一步不是信仰 每个 token 都要上账
[Bridge] 有的题缺的是时间 有的题缺的是证据 有的题已经答对 再审一遍反倒失去
完结原因、token 计数 finalizer 留下指纹 便宜特征也能守门 不必每次搬来大模型军团
[Verse 3] active check 不是玄学 至少两条检验路线交叉 单位、边界、代入答案 不合格才准把原解拿下
它不是新 verifier 神坛 只是服务层的一道闸 fix 和 flip 分开记账 别拿均值盖住事故现场
arXiv 二六零六点一九八零八 把推理预算钉上黑板 想长一点,还是再想一遍 这题先交给成本曲线审判
[Final Chorus] 再想,还是加时 先调预算,再开复查 再想,还是加时 能救才救,别乱加码
再想,还是加时 把坏翻压低,把账算清 通勤两分钟一记重拳 听懂推理服务的冷静

来源

관련 콘텐츠

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.