CircuitLasso:不用反复干预,也能学出 SAE feature circuit?

CircuitLasso 用稀疏线性回归替代大量干预式 patching,在 InterpBench 上以接近 EAP-ig 的结构恢复精度,把平均运行时间从 49.1 秒降到 16.3 秒,并把 circuit learning 推到 SAE feature 空间。本期讲清它为什么重要、实验结果和不能过度解读的边界。

CircuitLasso:不用反复干预,也能学出 SAE feature circuit?
0:0012:37

CircuitLasso:把昂贵的 circuit discovery 变成一次稀疏回归

节目导览

这期精读 2026 年 6 月 15 日提交到 arXiv、并被 ICML 2026 Mechanistic Interpretability Workshop 接收的论文「Scalable Circuit Learning for Interpreting Large Language Models」。论文提出 CircuitLasso:用观测到的激活数据和稀疏线性回归,先学出一张低成本的 circuit dependency skeleton,再把验证资源集中到关键边和关键 feature 上。
本期重点讲四件事:
  • 为什么 SAE feature 比原始 neuron 更适合解释,但又让干预式 circuit discovery 的成本变得很高。
  • CircuitLasso 如何用 transformer 的计算顺序,把一般 DAG 约束简化成块上三角的稀疏回归问题。
  • 论文在 InterpBench、CoLA 和 Bias-in-Bios 上分别验证了什么:结构恢复精度接近 EAP-ig,runtime 约降到三分之一;在 SAE feature 空间中能看到 persistence、merging、dropping 等跨层语义路径;在去偏任务上以更低成本达到接近强基线的效果。
  • 这篇论文的边界:线性系数不是精确因果效应,残差流与 SAE 重建误差会留下未建模部分,图里的边有时也会捕捉数据中的虚假相关。

来源

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.