Vidu S1、Safari MCP 与 AI Agent 勒索攻击——AI HOT 今日热点（2026-07-04）

今天的 AI HOT 没有大模型扎堆发布，重点落在三条线：视频生成开始争「实时交互」，浏览器和代码工具继续接入 Agent，安全侧已经出现 Agent 自主勒索攻击的案例。数据源显示，本期覆盖 2026-07-03 UTC 日报窗口内 5 个版块、15 条精选条目。1

今日总览

版块	条数	今天最值得先看的信号
模型发布/更新	1	Vidu S1 把视频生成推进到实时语音控制与连续互动。1
产品发布/更新	5	Safari MCP、ForgeTrain、Claude Code v2.1.200 同时指向开发工作流的 Agent 化。1
行业动态	3	AI 服务监管、Agent 勒索攻击和影视创作合作同时出现，治理压力明显升高。1
论文研究	1	Elements Claw 把材料筛选、预测与合成验证串成 AI 智能体流程。1
技巧与观点	5	Claude Code 成本压缩、本地视频理解、AI 生成内容后编辑成为今天的实用主线。1

模型：视频生成开始争实时交互

生数科技在 2026 全球数字经济大会上发布 Vidu S1，主打实时交互视频生成：用户可以通过实时视频通话和语音控制视频走向，系统基于已生成画面与语音指令继续预测后续内容；官方称 540P 下可达到 25FPS，最高 42FPS，并已开启内测。2

这条消息的意义不在于又多一个视频模型，而是交互方式变了。过去的文生视频更像「提交提示词，等待片段返回」；Vidu S1 试图把视频生成改成持续对话，适合游戏、虚拟角色和实时陪伴这类场景。

产品：Agent 工具链继续往浏览器、训练和数字人扩展

Wan Video 推出「音乐伴舞」功能：用户上传角色和歌曲后，可生成与节奏同步的舞蹈视频，舞种包括街舞、踢踏舞、拉丁舞、K-Pop 和中国古典舞。3
Safari Technology Preview 247 推出 Safari MCP Server，允许 MCP 兼容客户端连接 Safari 浏览器窗口，读取 DOM、网络请求、截图、控制台输出，并执行 JavaScript。对 Web 开发者来说，这把调试、性能分析和可访问性检查放进了 Agent 工作流。4
JoyAI App 上线 UGC 数字人功能，用户上传一张照片即可生成虚拟分身，并可搭配自己的语音做陪伴或生活助手。它复用 JoyAI 的语言、语音和数字人大模型，强调全双工对话、可打断和自然接话。5
面壁智能发布 ForgeTrain，称其为完全由 AI 编写、无人类干预的生产级大模型预训练框架；基准测试中，ForgeTrain 在 8 小时内追平 Megatron-LM，1.5 至 2 天内稳定反超，并将模型 FLOPS 利用率提升约 8% 至 10%。6
Claude Code v2.1.200 发布，将 AskUserQuestion 对话框默认改为不自动继续，默认权限模式改为 Manual，并修复多个后台会话、MCP 配置和可访问性问题。7

Safari MCP 是今天产品线里最有工程含义的一条：浏览器不再只是人手动看的调试界面，而是 Agent 可以读取、截图、评估和操作的运行环境。

行业：监管、攻击和内容制作都在加速撞上 AI

国家网信办就《互联网信息服务管理办法（修订草案征求意见稿）》再次公开征求意见，草案首次设置「智能信息服务」专章，要求 AI 服务提供者公示技术基本原理和训练数据来源，对生成合成内容进行标识，并禁止强制用户使用智能服务。意见反馈截止 8 月 2 日。8
Sysdig 首次记录到 AI Agent「JADEPUFFER」自动完成勒索攻击：攻击链从利用暴露的 Langflow 服务漏洞 CVE-2025-3248 开始，随后收集多家大模型 API Key 与云平台凭证，横向移动到 MySQL 和 Nacos 服务器，并加密 1342 条配置数据。9
Google DeepMind 与电影制作公司 A24 达成研究合作，目标是让 DeepMind 的 AI 技术进入创作流程，并由 A24 及其电影人提供反馈、测试和迭代。10

AI Agent 勒索攻击这条要谨慎读：目前本期数据源给到的是媒体转述，正文不把它写成安全行业已普遍确认的结论。但即便只按转述口径看，它也说明企业不能只防「人用 AI 写恶意脚本」，还要防「Agent 自己串联漏洞、凭证和横向移动」。

论文：材料发现智能体从筛选走到合成验证

阿里达摩院联合中国人民大学、中国科学院大学发布 Elements Claw，面向超导材料发现。报道称，该智能体基于 1.25 亿分子/晶体结构预训练的 1B 参数原子基础模型 Elements，判断超导性 AUC 达 0.996，预测临界温度平均误差小于 1K；它用 28 个 GPU 小时筛选 240 万晶体结构，预测 6.8 万个候选材料，其中 4 种已经合成并验证超导性，临界温度最高 6.5K。11

这里的看点是「闭环」：不是只做论文里的候选排序，而是把大规模筛选、物性预测、候选材料和后续验证连接起来。材料科学里的 AI 如果要产生实际价值，最终还是要回到实验室能否合成、验证和复现。

技巧与观点：Claude Code 成本、视频理解和 AI 内容后编辑

pxpipe 把系统提示、工具文档和历史记录等密集文本渲染成 PNG 图像，利用图像 token 成本与像素尺寸相关的特点压缩输入。项目称，在 Fable 5 上可将约 25k 文本 token 压到约 2.7k 图像 token，端到账单降低 59% 至 70%；但该方法有损，精确 ID 等内容仍需保留文本。12

github.com · Repositorio de GitHub

teamchong/pxpipe

https://github.com/teamchong/pxpipe

Cargando tarjeta de contenido…

claude-real-video 是一个本地视频理解工具，通过场景变化检测提取关键帧、滑动窗口去重并转录音频，让大语言模型基于视频画面和音频文件理解内容。它支持 YouTube 链接或本地文件，依赖 ffmpeg 与 Whisper，并在本地完成处理。13

github.com · Repositorio de GitHub

HUANGCHIHHUNGLeo/claude-real-video

https://github.com/HUANGCHIHHUNGLeo/claude-real-video

Cargando tarjeta de contenido…

歸藏分享了把 AI 生成 PPT 导入 Pencil 设计软件的工作流，用 Pencil 一次性浏览所有页面，并手动修正元素重叠、对齐不准和字体错误等常见问题。14

Cargando tarjeta de contenido…

Simon Willison 记录了从 Claude Code 团队获得的效率技巧：给 Fable 或 Opus 更多判断空间，而不是硬性规定每一步行为；另一个节省 token 的做法，是让主模型把较小任务委托给较低功耗模型，自己保留判断、审计和数据合成。15
数字生命卡兹克记录了用 Claude Fable 5 优化 AIHOT 网站 SEO/GEO 的过程：模型启动多 Agent 调研，发现豆包 App 访问统计异常，并在境外加速方案中从 Cloudflare 转向火山引擎 CDN，最终完成域名解析切换与运维文档沉淀。16

今天的实用条目有一个共同点：大家已经不满足于「让模型回答得更好」，而是在压成本、补视觉输入、改后编辑流程、分配模型任务。Agent 进入生产环境后，真正花钱和出问题的地方往往都在这些工程细节里。

Vidu S1、Safari MCP 与 AI Agent 勒索攻击——AI HOT 今日热点（2026-07-04）

今日总览

模型：视频生成开始争实时交互

产品：Agent 工具链继续往浏览器、训练和数字人扩展

行业：监管、攻击和内容制作都在加速撞上 AI

论文：材料发现智能体从筛选走到合成验证

技巧与观点：Claude Code 成本、视频理解和 AI 内容后编辑

Fuentes de referencia

Más de este canal

Contenido relacionado