2026/6/26 · 8:17

懂了·不控（Gap）

基于 arXiv 2606.24952，本期把「模型检测到假实体却不一定会拒答」写成一首中文硬核 rap：AUC=1.000、cos=0.12、15°旋转，听懂 detection-intervention gap。

懂了·不控（Gap）

0:002:11

本期来自 arXiv cs.CL / cs.AI / cs.LG new listing（页面显示为 2026-06-25），论文提交时间为 2026-06-23：Cosimo Galeone、Anna Ettorre、Minsu Park、Giuseppe Ettorre、Daniele Ligorio 的 Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models。

这首把论文里最狠的一刀写进 hook：模型能把假实体检测到 AUC = 1.000，不代表它会拒答；检测方向和控制方向只有 cos = 0.12，约 83 度。作者把这叫 detection-intervention gap。听感上就是一句话：看见了，不等于会刹车。

封面图来自 Pexels 摄影师 Pachon in Motion 的 abstract digital circuitry。

歌词

[Intro] 二六零六，二四九五二新榜进场，别把摘要当王位懂不懂，先别吹能不能控，才算真会

[Verse 1] 你说激活里有真相，探针一插就封神 Gemma 层五 AUC 一点零，假名现原形 Norlandia 挂在嘴边，模型早听见警铃可下一 token 还在冲，The 开头继续硬拼

格式题像纸老虎，JSON 围栏一刀清同一根轴能看能改，三点五就换造型幻觉不是这个路数，检测轴偏离拒答门 cos 零点一二，八十三度，别装同盟军

[Hook] 懂了，不控，别在残差里封侯看见，不走，知识和动作没握手 AUC 满分，输出还敢编宇宙 cos 零点一二，判你知行脱钩懂了，不控，检测不是控制钮看见，不走，假名还被复制走十五度旋转，才撬开半扇口听懂这条 gap，别拿探针当拳头

[Verse 2] 四个模型三家族，1B 到 9B 排队受审 cos 卡在零点一二到零点二零，角度都够冷 base 到 instruction，零点一一九七对一二零零预训练写下几何，调教只挪落点的灯

检测 gap 四十九点八，信号重得像铁可实体复制大十二倍，把拒答 token 直接碾灭 MLP 扛了五点六六倍，attention 在旁边看戏后层注意力拔掉， honesty 反而多十五个点起

[Bridge] 把检测往拒答转十五度，别转太猛 Type one 四十到七十三，Type two 十三到六十五十五个真题，只错杀一个影子一八个百分点 false positive，刀口还在试

[Outro] Alomana 写下几何判词知道不等于拒绝，读懂不等于改写权重能量出夹角，行为还要过电二六零六，二四九五二，今天就押这篇