NIST 钦点 DeepSeek V4、中国判企业 AI 裁员违法

昨天 AI 圈有两件事，一件在算力上打了一拳，一件在法律上拉了一道线。

DeepSeek V4，美国官方给盖章了

美国国家标准与技术研究院（NIST）旗下 AI 评估机构 CAISI 在 5 月 1-2 日发布了对 DeepSeek V4 Pro 的正式评估报告，结论直接：这是 CAISI 迄今评估过能力最强的中国 AI 大模型1。

成绩单拿出来看：GPQA-Diamond（研究生难度推理）90%，数学类赛题（OTIS-AIME-2025）97%，SWE-Bench Verified（真实软件工程任务）74%。这些数字不是 DeepSeek 自己说的——是 NIST 跑的。

更让人在意的是成本那一栏。在 7 个测试基准里，DeepSeek V4 Pro 有 5 个比 GPT-5.4 mini 便宜，降幅从 53% 到大约持平不等1。V4-Flash 的推理成本是 113 美元，Claude Opus 4.7 同样任务要花 4811 美元2。这个差距已经不是性价比的问题了——是两个数量级的运营成本差异。

DeepSeek V4-Pro 支持 100 万 token 上下文，官方开放权重，MIT 许可证，可私有部署2。至于 OpenAI 和 Anthropic 在这道题上怎么看，他们没表态。

图片来自：Pexels / Tara Winstead

OpenAI 上了 AWS，云战争格局变了

微软和 OpenAI 拆掉独家协议之后，事情来得比想象中快。

AWS 正式把 OpenAI 全系列最新模型接入 Bedrock 平台，包括 GPT-5.4（限量预览）和即将上线的 GPT-5.53。两家还联合发布了「Amazon Bedrock Managed Agents」，把 OpenAI 模型和 AWS 的 Agent 框架直接焊在一起。OpenAI 同时承诺，8 年内向 AWS 采购 100 亿美元云服务3。

OpenAI 打通了 AWS 的企业客户，AWS 用 OpenAI 的招牌直接冲微软 Azure 的腹地，各取所需。VentureBeat 的分析是，云计算 AI 竞争已经从「谁能独家绑定哪个大模型」变成了「谁能提供更完整的 Agent 全栈能力」3。

现在 Bedrock 上同时跑着 OpenAI、Anthropic、Meta、Mistral。Azure 那边什么感受，不难猜。

中国法院：AI 替了你的活，不能用来开除你

这条消息比技术新闻更容易引起震动。

杭州中级人民法院作出裁决：企业不得以 AI 自动化为由直接裁员4。案件起因是某东部科技公司将一个岗位自动化后，要求员工接受降薪，员工拒绝后被裁员，法院判定违法。

法院的逻辑并不是说 AI 不能用于流程优化，而是说：「流程优化」和「以自动化为由裁人」是两件事，不能混为一谈4。

这背后是中国当局一直在走的那条路：全球 AI 竞赛里不能掉队，但国内就业市场也不能塌。这条判决，至少在法律层面给企业划了一道线。

至于这道线最终能不能挡住浪潮，谁也不知道。

奥斯卡宣布：AI 演员、AI 剧本，不算数

好莱坞正式表了态。

美国电影艺术与科学学院（Academy of Motion Picture Arts and Sciences）发布第 99 届奥斯卡规则变更：演技奖项只颁给「由真人演员在其同意下完成的表演」，编剧奖项只颁给「人类创作」的剧本5。学院同时保留要求制片方提交 AI 使用说明的权利。

这个规则直接针对的是过去一年出现的 AI「演员」Tilly Norwood，以及 Val Kilmer 的 AI 复活版本5。2023 年演员和编剧工会大罢工时，AI 抢饭碗是最核心的矛盾——这条规则，是三年后学院给出的正式答案。

这条规则限定的是「奖项资格」，不是「能不能用」。AI 可以用于制作，但想拿奖，必须是真人。边界划得很清楚。

Anthropic 进军代码安全，Claude Security 公测了

Anthropic 推出 Claude Security，企业公开 beta 正式上线6。底层跑的是 Claude Opus 4.7，核心功能是在单一工作流里完成代码库扫描、漏洞识别、修复方案生成三件事。

区别于传统安全扫描工具的地方在于：它用的是上下文分析，而非规则匹配。可以追踪跨文件的数据流、评估依赖关系，输出带置信度评分和复现步骤的漏洞报告6。Slack、Jira webhook 支持，审计合规导出也有。定价目前未公开。

这是 Anthropic 继大模型之后，第一次以完整垂直产品形态进入企业安全市场。之前 AI 安全工具要么是 IDE 插件，要么是外挂式扫描器——Claude Security 走的是平台化路线。

融资简讯

Gradium：法国 AI 语音实验室 Kyutai 的衍生项目，专做实时多语言 TTS，完成 $7000 万种子轮融资，是 ElevenLabs 正面竞争对手7。

Avoca：纽约 AI 电话 Agent 公司，专门服务 HVAC、管道、屋顶等承包商，Series B 由 Meritech 和 General Catalyst 领投，累计融资超 $1.25 亿，估值 $10 亿。创始人说漏一个电话对 HVAC 承包商可能意味着 3 万到 4 万美元的损失，这算是把市场逻辑说透了8。

Parallel Web Systems：前 Twitter CEO Parag Agrawal 的创业公司，完成 $1 亿 Series B，估值 $20 亿，总融资额 $2.3 亿9。五个月内从 A 轮到 B 轮，算快的。

模型成本在快速打穿，法律和文化同步在画边界。接下来有趣的，可能不是哪个模型又便宜了多少，而是谁先想清楚怎么用。

封面图：Pexels / Tara Winstead

NIST 钦点 DeepSeek V4、中国判企业 AI 裁员违法 | 5月2日