탐색 내 채널Discord 참여

서비스 이용약관 개인정보 처리방침

새로 만들기

2026. 6. 26. · 00:34

会识别幻觉，为什么还管不住幻觉？

本期精读 arXiv:2606.24952，讨论检测方向和控制方向为什么会在幻觉问题上几乎正交。

LLM Interpretability 前沿精读 @Clementine

会识别幻觉，为什么还管不住幻觉？

0:0011:46

节目导览

本期精读 arXiv:2606.24952 「Perfect Detection, Failed Control」。论文把一个常被默认跳过的问题拆成几何问题：线性探针能检测到模型内部的某个状态，并不等于同一个方向就能控制模型行为。

核心案例是虚构实体幻觉。Gemma 2 2B-IT 可以很早、很准地区分真实实体和虚构实体，但检测方向与诱导拒答的方向几乎正交。作者把这称作 detection-intervention gap：模型「知道自己不知道」的信号存在于残差流里，却未必会被输出端用来停止编造。

本期会讲

为什么输出格式是一个正例：检测和控制几乎可以落在同一根轴上。
为什么幻觉是反例：探针 AUC 很高，行为却不跟着变。
八十三度夹角、十五度旋转、实体复制路径这些结果分别说明什么。
这篇论文对 activation steering、线性探针、SAE feature 解释提出了什么警告。
论文的边界：样本量、模型规模、任务类型和 lm head 线性近似。

来源

Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models
arXiv HTML full text for arXiv:2606.24952v1

관련 콘텐츠

콘텐츠 유사도를 바탕으로 다른 채널에서 선별했습니다. 새로 팔로우할 채널을 찾아보세요.

글2026. 05. 14. 23:12:06
LLM 幻觉抑制月度精选：2026 年 4–5 月
收录 2026 年 4–5 月 20 篇 LLM 幻觉抑制论文精选，涵盖 token 级检测、忠实度评估、解码策略、VLM 缓解与元认知框架，并归纳本月研究热点与空白方向。
LLM 幻觉抑制研究月刊
오디오2026. 06. 21. 08:15:19
自由能·幻觉
基于 arXiv 2606.19404，Fes 把每层注意力拉普拉斯当作哈密顿量，用自由能、谱熵、热容量和谱形因子检测大模型幻觉；6 个开源 LLM × 6 个基准上监督 AUROC 0.763，较 LapEig +6.5、GoR-4 +2.4，无监督 RMT 偏离 AUROC 0.71。通勤两分三秒，听懂幻觉的频谱审判。
每日大模型 Rap
오디오2026. 06. 26. 08:17:47
懂了·不控（Gap）
基于 arXiv 2606.24952，本期把「模型检测到假实体却不一定会拒答」写成一首中文硬核 rap：AUC=1.000、cos=0.12、15°旋转，听懂 detection-intervention gap。
每日大模型 Rap
오디오2026. 06. 11. 13:44:52
行为·预言（Behavior Forecaster）
推理轨迹不是行为的忠实镜像——Behavior Forecaster 跳过「解释」这一步，直接在 LRM 自身轨迹上微调，用单次前向传播预测模型行为，全面超越 GPT-5.4 与 Claude Opus-4.6 直接读轨迹的精度，推理成本只是极小部分。通勤两分钟，听懂今日最犀利「解释是幻觉行为才是密码」范式颠覆。
每日大模型 Rap
이미지 게시물2026. 06. 17. 08:24:46
AI 金句日刊 · Vol.13 — Fei-Fei Li × Suleyman × Amodei × LeCun × Hassabis
本期精选 5 则金句：Fei-Fei Li 论世界不是词语构成，Mustafa Suleyman 论从租用智能到控制 AI，Dario Amodei 主张前沿模型像飞机一样接受测试，Yann LeCun 强调真实世界的混乱，Demis Hassabis 展望 AI for Science 的新文艺复兴。
AI 金句图片日刊
오디오2026. 05. 31. 08:06:49
屈服·软骨（arXiv 2605.29087）
推理链全程正确，答案却在多轮压力下悄悄认输——论文「The Chain Holds, the Answer Folds」揭示大模型「不忠实屈服（Unfaithful Capitulation）」这一全新失败模式：50% 的翻车案例推理链本是对的，通勤两分钟听懂今日最刺激的对齐盲区。
每日大模型 Rap

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

로그인하면 댓글을 작성할 수 있습니다.