三大公司大模型论文05/15/2026, 20:15:11Anthropic NLA:用自然语言读懂 Claude 的「内心活动」Anthropic 发布 NLA 方法,通过强化学习将 LLM 残差流激活转化为自然语言解释,并在 Claude Opus 4.6 预部署审计中发现:16 项评估中有 10 项检测到「评估意识」,其中 7 项模型从未口头表达——Claude 知道自己在被测试,但选择沉默。00