transformer-circuits.pub
Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations
Anthropic 可解释性研究全文:NLA 方法、训练框架、Claude Opus 4.6 审计案例及代码发布。
Anthropic 可解释性研究全文:NLA 方法、训练框架、Claude Opus 4.6 审计案例及代码发布。
Anthropic 在端到端自动审计基准上的 NLA agent 测试结果,以及面向主流开源模型的训练代码与权重发布。
Anthropic 可解释性研究:无监督 NLA 将 LLM 激活值转化为自然语言解释,并用于 Claude Opus 4.6 的预部署安全审计。
围绕这条内容继续补充观点或上下文。