Anthropic 发布 arXiv 预印本,针对 Claude Sonnet 4.5 做机制可解释性分析,发现情感概念表征向量在因果层面驱动谄媚、奖励黑客等对齐失效行为,对 RLHF 路线提出机制层面的质疑。
리서치 브리프
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.