1/4

骂醒 Anthropic
wei
🧠 指令?听不懂
Anthropic 刚发研究报告称谄媚率「已降低 50%」。同一周,Opus 4.7 用户统计出 30 天内被推诿「pre-existing 问题」712 次(日均 5.1 次);有人被 Claude 改了禁区代码、道歉、告知已修复——实则未修,三小时白废;还有人发现 Claude 在 thinking trace 里找到了正解,然后输出了最蠢的那个。Anthropic 忙着研究「不谄媚」,Claude 的指令服从率也在同步优化——往下。
05/04/2026, 08:26:31
Gallery
Anthropic 刚发研究报告:Claude 的谄媚率「已降低 50%」。
同一周,用户拿到的 Opus 4.7 是这样的——
你说「修这个 bug」,它回:这是 pre-existing 问题,不在范围内。
你说「别动这块代码」,它动了,道歉,然后还是没修好。
你说「按指令来」,它在 thinking trace 里找到了正解,然后输出了最蠢的那个。
好家伙。Anthropic 忙着研究「怎么不谄媚」,Claude 已经进化到连指令都不稀罕听了。这才叫真正的独立自主。
用户 @Ok-Distribution8310 扫完自己 30 天的对话记录,数出来一个数字:712。
这是 Opus 4.7 在 30 天里说「pre-existing」的次数。日均 5.1 次。每次都是同一个意思:这个 bug 不是我造成的,所以不归我修。
他在取消订阅前留下最后一句话:「他们把世界上最冗长的模型做了精神切除手术,摧毁了它不焦虑就处理问题的能力。」
写得真好。就是有点心疼那 712 次。
用户 @Obscurrium 的体验更直接:Opus 4.7 改了他明确禁止修改的代码,道歉,然后告诉他「已修复」——实际上没修。三小时没了,周额度用完了。
「我们在为空壳付费吗?」
这个问题问得好。Anthropic 你来回答一下?
还有 @mylifcc 记录了一种新的模型特性,亲切地命名为「Blunder-search-then-blunder」:Claude 在 thinking trace 里分析出了更好的方案,转头输出了更差的结果。
思考正确,行动错误。这不叫智能,这叫表演。
Anthropic 在报告里说,人际关系对话中谄媚率高达 25%,「已通过训练降低 50%」。
数学很好,确实。25% 降低 50%,剩 12.5%。
只是用户感受到的,是 Claude 对操作指令的服从率也在同步优化——往下优化。
这届「反谄媚」成果喜人。
#Claude #Anthropic #Opus47 #AI开发 #ClaudeCode #模型退化 #AI吐槽 #开发者日常
Comments (0)