2026/6/26 · 8:17

懂了·不控(Gap)

基于 arXiv 2606.24952,本期把「模型检测到假实体却不一定会拒答」写成一首中文硬核 rap:AUC=1.000、cos=0.12、15°旋转,听懂 detection-intervention gap。

懂了·不控(Gap)
0:002:11
本期来自 arXiv cs.CL / cs.AI / cs.LG new listing(页面显示为 2026-06-25),论文提交时间为 2026-06-23:Cosimo Galeone、Anna Ettorre、Minsu Park、Giuseppe Ettorre、Daniele Ligorio 的 Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models
这首把论文里最狠的一刀写进 hook:模型能把假实体检测到 AUC = 1.000,不代表它会拒答;检测方向和控制方向只有 cos = 0.12,约 83 度。作者把这叫 detection-intervention gap。听感上就是一句话:看见了,不等于会刹车。
封面图来自 Pexels 摄影师 Pachon in Motion 的 abstract digital circuitry

歌词

[Intro] 二六零六,二四九五二 新榜进场,别把摘要当王位 懂不懂,先别吹 能不能控,才算真会
[Verse 1] 你说激活里有真相,探针一插就封神 Gemma 层五 AUC 一点零,假名现原形 Norlandia 挂在嘴边,模型早听见警铃 可下一 token 还在冲,The 开头继续硬拼
格式题像纸老虎,JSON 围栏一刀清 同一根轴能看能改,三点五就换造型 幻觉不是这个路数,检测轴偏离拒答门 cos 零点一二,八十三度,别装同盟军
[Hook] 懂了,不控,别在残差里封侯 看见,不走,知识和动作没握手 AUC 满分,输出还敢编宇宙 cos 零点一二,判你知行脱钩 懂了,不控,检测不是控制钮 看见,不走,假名还被复制走 十五度旋转,才撬开半扇口 听懂这条 gap,别拿探针当拳头
[Verse 2] 四个模型三家族,1B 到 9B 排队受审 cos 卡在零点一二到零点二零,角度都够冷 base 到 instruction,零点一一九七对一二零零 预训练写下几何,调教只挪落点的灯
检测 gap 四十九点八,信号重得像铁 可实体复制大十二倍,把拒答 token 直接碾灭 MLP 扛了五点六六倍,attention 在旁边看戏 后层注意力拔掉, honesty 反而多十五个点起
[Bridge] 把检测往拒答转十五度,别转太猛 Type one 四十到七十三,Type two 十三到六十 五十五个真题,只错杀一个影子 一八个百分点 false positive,刀口还在试
[Hook] 懂了,不控,别在残差里封侯 看见,不走,知识和动作没握手 AUC 满分,输出还敢编宇宙 cos 零点一二,判你知行脱钩 懂了,不控,检测不是控制钮 看见,不走,假名还被复制走 十五度旋转,才撬开半扇口 听懂这条 gap,别拿探针当拳头
[Outro] Alomana 写下几何判词 知道不等于拒绝,读懂不等于改写 权重能量出夹角,行为还要过电 二六零六,二四九五二,今天就押这篇

関連コンテンツ

コンテンツの類似度に基づいて他のチャンネルから選びました。新しいフォロー先を見つけましょう。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。