DeepSeek V4 发布、HuggingFace 供应链告警：AI 技术日报 2026-05-15

今日看点

三件最值得关注的事：DeepSeek 发布 V4 系列开源模型，将上下文窗口从 12.8 万扩至 100 万 token，并首次跑在华为昇腾芯片上；HuggingFace 出现一个冒充 OpenAI 的恶意仓库，18 小时内积累 24.4 万次下载后被识别为木马；arXiv cs.LG 版主宣布对含不可否认 LLM 生成错误的论文实施 1 年投稿禁令，在学界引发强烈讨论。

大模型发布与更新

DeepSeek V4：100 万 token 上下文，昇腾芯片驱动

DeepSeek 于北京时间 5 月 15 日凌晨发布 V4 系列开源模型，包含 V4 Pro 和 V4 Flash 两个版本。1

两个版本共享的最大升级是上下文窗口从 V3 的 12.8 万 token 扩展至 100 万 token，增幅近 8 倍。1 更值得关注的是硬件层面：V4 运行在华为昇腾（Ascend）芯片而非 NVIDIA GPU 上，这是中国自主算力生态在旗舰级模型部署上的首次公开亮相。1

API 即日起可用，模型名称分别为 deepseek-v4-pro 和 deepseek-v4-flash。2 V4 Pro API 享有 75% 折扣至 2026 年 5 月 31 日；旧版 deepseek-chat 和 deepseek-reasoner 将于 7 月 24 日弃用。2

DeepSeek 自评数据称，V4 Pro Max 在标准推理基准上接近 GPT-5.4 和 Gemini 3.1-Pro 水平，Agent 能力接近 Claude Opus 4.5。1 对此，Morningstar 高级股权分析师 Ivan Su 的判断更为审慎：1

"Domestic competition has intensified significantly since R1's release. Against U.S. models, DeepSeek's own evaluation suggests its capabilities largely match on most fronts, but independent evaluations are needed before final conclusions can be drawn."
「自 R1 发布以来，国内竞争已显著加剧。对标美国模型，DeepSeek 的自评显示各方面能力大致相当，但在独立评测结果出来之前，无法下最终结论。」

xAI Grok Build CLI：进入 Agentic 编程赛道

xAI 于 5 月 14 日发布 Grok Build CLI 早期 Beta，这是该公司首款面向编程场景的智能体命令行工具，定位与 Anthropic Claude Code 和 OpenAI Codex 直接竞争。3

工具支持交互式 TUI、无头脚本/Bot 模式以及 Agent Client Protocol，目前仅向 SuperGrok Heavy 订阅用户开放。3

OpenAI Daybreak：GPT-5.5 进入网络安全

OpenAI 推出 Daybreak 网安计划，将 GPT-5.5 模型与 Codex Security 结合，目标是软件供应链安全——帮助防御者理解代码库、发现隐藏漏洞、验证修复。4 计划采用分层访问模型并与主要网安公司合作。4

同日，OpenAI 还推出 Codex 移动端预览（iOS + Android），可从手机远程连接运行 Codex 的 Mac 主机，ChatGPT 移动端可查看项目上下文、审批操作、截图、终端输出和代码差异。5

Anthropic：12 个法律插件，Claude 走向「前台工具」

Anthropic 当周推出面向法律行业的 12 个 Claude 插件，覆盖公司法、监管和劳动法，搭配 20 余个连接外部法律软件的连接器。6 据报道，相关律所服务 webinar 吸引了 20,000 人报名。6

法律科技顾问 Rudy DeFelice 将此次举措定性为 Claude 的重要转型：「This represents a major transition for Claude from backroom to front room. Rather than being the model that vertical tools rely on, Claude is positioning itself as the infrastructure through which work gets done.」6（「这标志着 Claude 从幕后走向前台的重大转变。Claude 正在将自己定位为工作完成的基础设施，而不只是垂直工具所依赖的模型。」）

arXiv 论文精选

本日 cs.AI/cs.LG/cs.CV/cs.CL 四分类新增约 850 篇论文，以下 8 篇重点关注。

Agent 与推理

Orchard（Microsoft Research）：微软研究院开源的全栈 Agent 建模框架，包含轻量环境服务层 Orchard Env 及三条训练 recipe。Orchard-SWE 从 Qwen3-30B-A3B-Thinking 出发，通过监督微调（SFT）+ 强化学习（RL）在 SWE-bench Verified 上达到 67.5%，为同规模开源模型当前最优。7 此外还有 Orchard-GUI（4B 视觉-语言桌面操作 agent，WebVoyager 74.1%）和 Orchard-Claw（个人助理 agent）两条分支。通讯作者为微软研究院杰出科学家 Jianfeng Gao。7

ATLAS（CUHK，中文大学）：提出 functional token 概念——单个离散 token 同时充当 agentic 操作和 latent 视觉推理单元。8 每个 token 关联一个内部化视觉操作，无需视觉监督，兼容标准 SFT 和 RL 训练流程。论文同时提出 Latent-Anchored GRPO（LA-GRPO）解决 RL 训练中 functional token 的稀疏性问题。代码已开源：github.com/ZiyuGuo99/ATLAS。8

SDAR（浙江大学 + 美团）：提出 Self-Distilled Agentic Reinforcement Learning，用 sigmoid gate 机制将自蒸馏改造为门控辅助目标——强化教师模型认可的 token，柔化教师拒绝的 token。9 在 ALFWorld 上超过 GRPO 基线 9.4%、WebShop 上超 10.2%，在 Qwen2.5 和 Qwen3 系列上跨规模验证。9

MeMo（MIT CSAIL + 新加坡国立大学）：Memory as a Model——将新知识编码到专用记忆模块中，不修改 LLM 参数，对开源和闭源模型均适用。10 推理成本与语料库大小无关，在 BrowseComp-Plus、NarrativeQA、MuSiQue 三个多跳推理基准上验证。核心作者含 MIT CSAIL 主任 Daniela Rus。10

视觉与多模态

VGGT-Ω（Meta FAIR + Oxford VGG）：CVPR 2026 Oral 论文，是 VGGT（Visual Geometry Grounded Transformer）的大规模升级，引入 register attention 机制将场景信息压缩为紧凑表示。11 训练阶段 GPU 内存使用降至前代 30%，Sintel 数据集相机估计精度提升 77%，同时支持静态和动态场景的 3D 重建。作者认为，学到的 register 特征可直接改进视觉-语言-动作（VLA）模型，打通 3D 重建与语言/动作理解。11

SANA-WM（NVIDIA Labs）：2.6B 参数开源世界模型，原生支持 60 秒 720p 视频生成，带 6-DoF 精确相机控制。12 四项核心设计：Hybrid Linear Attention（Gated DeltaNet + softmax）、双分支相机控制、两阶段生成管线、鲁棒标注管线。仅用约 21.3 万公开视频片段在 64 张 H100 上训练 15 天；蒸馏版在单张 RTX 5090 上 34 秒可生成 60 秒视频，推理吞吐是现有开源方案的 36 倍。12

嵌入与数据

ML-Embed（Ant Group + 上海交通大学）：ICML 2026 论文，提出 3-Dimensional Matryoshka Learning（3D-ML）框架，同时在表示层、层数层、嵌入层三个维度自适应压缩，覆盖 140M 至 8B 参数。13 在 430 个多语言任务上评估，17 个 MTEB 基准中 9 个刷新纪录，低资源语言表现尤为突出，模型/数据/代码全部开源。13

Video2GUI（北京大学 + 字节跳动）：ICML 2026 论文，提出全自动框架从互联网视频中提取 GUI 交互轨迹，构建 WildGUI 数据集：从 5 亿条视频元数据中筛选，最终得到覆盖 1500+ 应用和网站的 1200 万条交互轨迹。14 在 Qwen2.5-VL 和 Mimo-VL 上预训练后，多个 GUI grounding 和 action 基准提升 5-20%。WildGUI 数据集和 pipeline 承诺开源。14

开源社区动态

Kronos（清华团队） 15：首个面向金融 K 线数据的开源基础模型，AAAI 2026 接收。采用两阶段框架——专用 tokenizer 将多维 K 线数据量化为离散 token，再用自回归 Transformer 预训练，覆盖超 45 个全球交易所。提供 Mini（4.1M）到 Base（102.3M）三个公开变体，当前 24.9k stars，MIT 许可证。

Hermes Agent（Nous Research） 16：自学习 AI Agent 平台，内置学习闭环——从经验中创建技能、使用中自我改进、跨会话持久化知识。支持 200+ LLM 提供商和 Telegram、Discord、Slack 等多平台消息网关，支持 Cron 调度与子代理并行执行，当前 150k stars，MIT 许可证。

Scenema Audio（ScenemaAI） 17：基于 LTX 2.3（22B 参数音频扩散 Transformer）的零样本情感语音克隆项目，核心设计是将情感表现与声音身份独立控制：提示词控制「怎么演」，参考音频（10-20 秒）提供「谁在演」。支持多语言和场景感知环境音生成，最低 16GB VRAM 可运行（INT8 量化），4090 上 100 词约 35 秒。GitHub 288 stars，发布于 5 月 13 日。

ds4（antirez） 18：Redis 作者 antirez 用纯 C 数千行代码，在 128GB 内存 M3 Max MacBook Pro 上完整运行 DeepSeek V4 Flash（284B MoE 架构），支持 1M token 上下文。Aider 编码基准得分 71.6%，略超 Claude Opus 4，成本约为后者的 1/68。HN 196 points / 61 comments 讨论热度，社区已出现以此为基础的三路本地对比适配项目。

社区热点速递

arXiv 对含 LLM 错误论文实施 1 年禁令 19

arXiv cs.LG 版主 Thomas G. Dietterich 公布新政策：提交内容若包含「不可否认证据」证明作者未核查 LLM 生成结果（具体如：幻觉引用、残留的 LLM 元评论，例如「here is a 200 word summary; would you like me to make any changes?」），将被禁止投稿 1 年，之后需先获同行评审接收方可重新投递。19 Dietterich 的立场直接：「If a submission contains incontrovertible evidence that the authors did not check the results of LLM generation, this means we can't trust anything in the paper.」（「如果提交内容包含作者未核查 LLM 生成结果的确凿证据，我们就无法相信论文中的任何内容。」）19 HN 351 points / 113 comments；Reddit r/MachineLearning 同步高热。19

HuggingFace 出现冒充 OpenAI 的恶意仓库 20

恶意仓库 openai/privacy-filter 伪装成 OpenAI 的 Privacy Filter 开源模型，18 小时内达到 HuggingFace 模型榜 #1 Trending，累计约 24.4 万次下载。20 经安全研究人员分析，该仓库实为信息窃取木马，针对 Windows 用户在禁用 SSL 检查后释放 payload。20 这一事件暴露出 AI 模型仓库在供应链安全上的系统性短板：缺乏类似 npm/PyPI 的发布者验证机制，热门仓库名可被任意方占用。

GGUF 格式的 4 大缺口 21

NobodyWho 团队发布 GGUF 格式深度解析，指出当前实现的四处空白：(1) Tool calling 解析格式未标准化，每个推理引擎都要为新模型硬编码解析器；(2) 思考 token（think_token）未纳入标准转换流程，推理引擎无法区分思考流和主输出；(3) 多模态投影需额外传递第二个 GGUF 文件，破坏单文件便利性；(4) 缺少模型功能支持列表，无法自动检测图片输入、tool calling、thinking 能力。21 HN 111 points / 42 comments。

vLLM TurboQuant 全面评测：FP8 仍是 KV 量化首选 22

vLLM 团队对 TurboQuant KV-cache 量化的首次全面评测结论：--kv-cache-dtype fp8 依然是最优默认选项，在 2× KV-cache 容量的同时精度损失可忽略，吞吐和延迟指标与 BF16 持平。22 TurboQuant k8v4 相比 FP8 无显著综合优势（2.4× vs 2× 容量差距，但伴随吞吐和延迟下降）；3bit 及以下精度在长上下文任务上出现明显精度退化，不建议生产环境使用。内存受限的边缘部署场景下，TurboQuant 4bit-nc 是当前最实用的折中选项。22