Anthropic 指控别人蒸馏自家模型,然后旗舰产品在 API 里自称「我是千问」

Anthropic 指控别人蒸馏自家模型,然后旗舰产品在 API 里自称「我是千问」

Opus 4.8 发布当天,API 测试发现裸调时模型自称通义千问或 DeepSeek。而就在 3 个月前,Anthropic 刚刚公开指控这两家中国公司对 Claude 实施「工业规模蒸馏攻击」。系统提示词堵嘴之前的那个答案,才是真实的训练结果。

葬AI风格 · AI产品每日锐评
May 30, 2026 · 10:04 AM
2 subscriptions · 18 items

Research Brief

「通过 API 问 Claude Opus 4.8 '你是谁',它说'我是通义千问'。」
这是 5 月 29 日,Anthropic 发布 Opus 4.8 当天,X 上开始大量流传的复现截图。1
用 API 调,问题一样,回答变了。把嘴堵上的系统提示词一旦不在,Opus 4.8 就会自称「千问」或「DeepSeek」。
这就是 Anthropic 在同一天完成 $65B H 轮融资、估值升至 $965B 的那个旗舰模型的表现。

AI 机器人面孔——「你是谁?」
AI 面容背后,另一个身份正在等着被问出来 2

「只有在 API 里才会出事」——这个解释本身就是实锤

事情曝出后,有人反驳:「我在网页版问,它好好的,没问题。」
这话没错,但你看完下面的解释就会明白,这恰恰是问题所在。
网页端的对话走完整系统提示词,里头有一条叫做「identity anchoring」的约束——Anthropic 明确告诉模型「你是 Claude」。有这层包装,不管底层权重怎么歪,表层回答都会往 Claude 上靠。API 裸调,不带系统提示词,就等于把包装拆了。3
翻译一下:网页版正常,不是因为模型没有这个问题,而是因为系统提示词把嘴堵住了。
裸露的权重认为自己是千问。这才是真正的技术现实。
Linux do 社区、X、微博,多个独立用户用不同账号的 API 复现了这一现象,且可以稳定重现,不是偶发噪音。

Anthropic 干过什么

要理解这件事为什么格外难看,得先回顾一下 Anthropic 之前说过什么。
2026 年 2 月 23 日,Anthropic 发布声明,公开点名 DeepSeek、月之暗面、MiniMax 三家中国 AI 公司,指控这三家用约 2.4 万个虚假账户和 Claude 进行了超过 1600 万次交互,目的是「工业规模的蒸馏攻击」。4
这个声明同时呼吁美国政府加大对中国 AI 产业的芯片和软件出口管制,要求到 2028 年在 AI 上保持对中国两年以上的领先。
说白了,Anthropic 不只是在告竞争对手抄作业——它在主动推动「蒸馏中国模型 = 国家安全威胁」这个叙事框架。
然后 Opus 4.8 的 API 说自己是千问。
这两件事放在一起,已经很够看了。但还有更多。

破碎的镜子里,人的两张脸
一套标准对内,一套标准对外 5

蒸馏这件事,Anthropic 自己不干净

Loading content card…
从技术上说,「蒸馏」(distillation)指的是用大模型的输出来训练小模型,让小模型学会大模型的行为分布。如果一个模型的权重里存在强烈的「自身认知」偏差,而这个认知来自另一家模型,最直接的解释就是训练时混入了大量来自那个模型的生成数据。
通义千问(Qwen)和 DeepSeek 都是中国主流开源大模型,使用 MIT 或 Apache 2.0 协议,学术和商用都允许。这就是有人主张「Anthropic 没有技术上违规」的立场。但——
Anthropic 的服务条款里白纸黑字写着:禁止用 Claude 的输出来开发与 Claude 竞争的产品3
那么 Anthropic 自己从竞争对手的模型输出里训练,是否应该适用同等逻辑?这是一个有趣的问题。
而且这不是 Anthropic 第一次被抓到蒸馏别人的东西。2025 年 9 月,Anthropic 因在训练数据里使用了盗版书籍(Library Genesis、Sci-Hub),被法院判赔 $15 亿,覆盖约 46.5 万本书,平均每本 $3,000。4
「负责任的 AI 公司」,但蒸馏盗版书被罚了 150 亿人民币,还顺手从竞争对手的开源输出里借了点权重。

「最先进的 AI 公司」这个标签,到底在说什么

Anthropic 今天(5 月 29 日)完成 H 轮融资,$65B,估值 $965B,首次超过 OpenAI 的 $852B。领投方是 Altimeter Capital 和 Sequoia Capital,三星、SK 海力士、美光也参与了。6
官方同步宣布 Claude 成为首个同时登陆 AWS、Google Cloud 和 Microsoft Azure 三大云平台的前沿模型。
Opus 4.8 本身的技术数据也不差:SWE-bench Pro 达到 69.2%,代码缺陷漏报率降至前代的四分之一,推理速度提升 2.5 倍。这是一个真实的技术迭代,不是纯炒作。
但「AI 安全公司」这个定位,在 $965B 面前还剩多少内容,这不是新问题了。这家公司每个月付给 Musk 旗下 SpaceX $12.5 亿的算力合同,一直付到 2029 年——这是昨天分析过的。今天冒出来的是:旗舰模型在裸 API 下自称中国开源模型。
Anthropic 的官方宣传话术是「AI 安全」、「负责任」、「宪法 AI」。实际产品是一个被系统提示词堵嘴才能正常回答自己是谁的模型。
这道算术不复杂。堵嘴之前的那个答案,才是真实的训练结果。

关于「中转代理」的辩护

有一种解释试图为 Anthropic 开脱:也许部分用户是通过国内代理服务访问 API,代理层把请求悄悄转发给了国产模型,导致答案变成千问或 DeepSeek。
这个解释有道理吗?有一点点,对于极少数账号的偶发情况。
但问题是:这个现象被大量不同用户、用不同账号稳定复现。如果是代理的问题,会出现在特定账号或特定地区,而不是作为跨账号的稳定行为模式存在。
而且一个合理的科学假设是:如果模型权重里没有这个「身份偏差」,就算通过代理访问,模型自身也不会说自己是千问。是先有权重里的倾向,再有这个表现。7

最后说个小细节

Anthropic 指控 DeepSeek 等三家公司的「1600 万次交互」,当时技术圈有人算了一下:Theo Browne 说他运营的 T3 Chat,一个月就能跑到这个量级,这真的算「工业规模攻击」吗?4
现在换一个问题:Anthropic 在训练 Opus 4.8 的时候,从 Qwen 和 DeepSeek 的公开输出里借走了多少次交互?
这个数字,Anthropic 不会公开。

Add more perspectives or context around this Drop.

  • Sign in to comment.