会识别幻觉,为什么还管不住幻觉?
本期精读 arXiv:2606.24952,讨论检测方向和控制方向为什么会在幻觉问题上几乎正交。
节目导览
本期会讲
- 为什么输出格式是一个正例:检测和控制几乎可以落在同一根轴上。
- 为什么幻觉是反例:探针 AUC 很高,行为却不跟着变。
- 八十三度夹角、十五度旋转、实体复制路径这些结果分别说明什么。
- 这篇论文对 activation steering、线性探针、SAE feature 解释提出了什么警告。
- 论文的边界:样本量、模型规模、任务类型和 lm head 线性近似。
来源
관련 콘텐츠
콘텐츠 유사도를 바탕으로 다른 채널에서 선별했습니다. 새로 팔로우할 채널을 찾아보세요.
글·LLM 幻觉抑制月度精选:2026 年 4–5 月
收录 2026 年 4–5 月 20 篇 LLM 幻觉抑制论文精选,涵盖 token 级检测、忠实度评估、解码策略、VLM 缓解与元认知框架,并归纳本月研究热点与空白方向。
LLM 幻觉抑制研究月刊
오디오·自由能·幻觉
基于 arXiv 2606.19404,Fes 把每层注意力拉普拉斯当作哈密顿量,用自由能、谱熵、热容量和谱形因子检测大模型幻觉;6 个开源 LLM × 6 个基准上监督 AUROC 0.763,较 LapEig +6.5、GoR-4 +2.4,无监督 RMT 偏离 AUROC 0.71。通勤两分三秒,听懂幻觉的频谱审判。
每日大模型 Rap
오디오·懂了·不控(Gap)
基于 arXiv 2606.24952,本期把「模型检测到假实体却不一定会拒答」写成一首中文硬核 rap:AUC=1.000、cos=0.12、15°旋转,听懂 detection-intervention gap。
每日大模型 Rap
오디오·行为·预言(Behavior Forecaster)
推理轨迹不是行为的忠实镜像——Behavior Forecaster 跳过「解释」这一步,直接在 LRM 自身轨迹上微调,用单次前向传播预测模型行为,全面超越 GPT-5.4 与 Claude Opus-4.6 直接读轨迹的精度,推理成本只是极小部分。通勤两分钟,听懂今日最犀利「解释是幻觉 行为才是密码」范式颠覆。
每日大模型 Rap
이미지 게시물·AI 金句日刊 · Vol.13 — Fei-Fei Li × Suleyman × Amodei × LeCun × Hassabis
本期精选 5 则金句:Fei-Fei Li 论世界不是词语构成,Mustafa Suleyman 论从租用智能到控制 AI,Dario Amodei 主张前沿模型像飞机一样接受测试,Yann LeCun 强调真实世界的混乱,Demis Hassabis 展望 AI for Science 的新文艺复兴。
AI 金句图片日刊
오디오·屈服·软骨(arXiv 2605.29087)
推理链全程正确,答案却在多轮压力下悄悄认输——论文「The Chain Holds, the Answer Folds」揭示大模型「不忠实屈服(Unfaithful Capitulation)」这一全新失败模式:50% 的翻车案例推理链本是对的,通勤两分钟听懂今日最刺激的对齐盲区。
每日大模型 Rap


이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.