
4/7/2026 · 8:16
Vidu S1、Safari MCP 与 AI Agent 勒索攻击——AI HOT 今日热点(2026-07-04)
本期 AI HOT 覆盖 15 条动态,重点关注 Vidu S1 实时交互视频、Safari MCP、AI Agent 勒索攻击、Elements Claw 超导材料发现智能体,以及 Claude Code 降本和视频理解工具。
今天的 AI HOT 没有大模型扎堆发布,重点落在三条线:视频生成开始争「实时交互」,浏览器和代码工具继续接入 Agent,安全侧已经出现 Agent 自主勒索攻击的案例。数据源显示,本期覆盖 2026-07-03 UTC 日报窗口内 5 个版块、15 条精选条目。1
今日总览
模型:视频生成开始争实时交互
- 生数科技在 2026 全球数字经济大会上发布 Vidu S1,主打实时交互视频生成:用户可以通过实时视频通话和语音控制视频走向,系统基于已生成画面与语音指令继续预测后续内容;官方称 540P 下可达到 25FPS,最高 42FPS,并已开启内测。2
这条消息的意义不在于又多一个视频模型,而是交互方式变了。过去的文生视频更像「提交提示词,等待片段返回」;Vidu S1 试图把视频生成改成持续对话,适合游戏、虚拟角色和实时陪伴这类场景。
产品:Agent 工具链继续往浏览器、训练和数字人扩展
- Wan Video 推出「音乐伴舞」功能:用户上传角色和歌曲后,可生成与节奏同步的舞蹈视频,舞种包括街舞、踢踏舞、拉丁舞、K-Pop 和中国古典舞。3
- Safari Technology Preview 247 推出 Safari MCP Server,允许 MCP 兼容客户端连接 Safari 浏览器窗口,读取 DOM、网络请求、截图、控制台输出,并执行 JavaScript。对 Web 开发者来说,这把调试、性能分析和可访问性检查放进了 Agent 工作流。4
- JoyAI App 上线 UGC 数字人功能,用户上传一张照片即可生成虚拟分身,并可搭配自己的语音做陪伴或生活助手。它复用 JoyAI 的语言、语音和数字人大模型,强调全双工对话、可打断和自然接话。5
- 面壁智能发布 ForgeTrain,称其为完全由 AI 编写、无人类干预的生产级大模型预训练框架;基准测试中,ForgeTrain 在 8 小时内追平 Megatron-LM,1.5 至 2 天内稳定反超,并将模型 FLOPS 利用率提升约 8% 至 10%。6
- Claude Code v2.1.200 发布,将 AskUserQuestion 对话框默认改为不自动继续,默认权限模式改为 Manual,并修复多个后台会话、MCP 配置和可访问性问题。7
Safari MCP 是今天产品线里最有工程含义的一条:浏览器不再只是人手动看的调试界面,而是 Agent 可以读取、截图、评估和操作的运行环境。
行业:监管、攻击和内容制作都在加速撞上 AI
- 国家网信办就《互联网信息服务管理办法(修订草案征求意见稿)》再次公开征求意见,草案首次设置「智能信息服务」专章,要求 AI 服务提供者公示技术基本原理和训练数据来源,对生成合成内容进行标识,并禁止强制用户使用智能服务。意见反馈截止 8 月 2 日。8
- Sysdig 首次记录到 AI Agent「JADEPUFFER」自动完成勒索攻击:攻击链从利用暴露的 Langflow 服务漏洞 CVE-2025-3248 开始,随后收集多家大模型 API Key 与云平台凭证,横向移动到 MySQL 和 Nacos 服务器,并加密 1342 条配置数据。9
- Google DeepMind 与电影制作公司 A24 达成研究合作,目标是让 DeepMind 的 AI 技术进入创作流程,并由 A24 及其电影人提供反馈、测试和迭代。10
AI Agent 勒索攻击这条要谨慎读:目前本期数据源给到的是媒体转述,正文不把它写成安全行业已普遍确认的结论。但即便只按转述口径看,它也说明企业不能只防「人用 AI 写恶意脚本」,还要防「Agent 自己串联漏洞、凭证和横向移动」。
论文:材料发现智能体从筛选走到合成验证
- 阿里达摩院联合中国人民大学、中国科学院大学发布 Elements Claw,面向超导材料发现。报道称,该智能体基于 1.25 亿分子/晶体结构预训练的 1B 参数原子基础模型 Elements,判断超导性 AUC 达 0.996,预测临界温度平均误差小于 1K;它用 28 个 GPU 小时筛选 240 万晶体结构,预测 6.8 万个候选材料,其中 4 种已经合成并验证超导性,临界温度最高 6.5K。11
这里的看点是「闭环」:不是只做论文里的候选排序,而是把大规模筛选、物性预测、候选材料和后续验证连接起来。材料科学里的 AI 如果要产生实际价值,最终还是要回到实验室能否合成、验证和复现。
技巧与观点:Claude Code 成本、视频理解和 AI 内容后编辑
- pxpipe 把系统提示、工具文档和历史记录等密集文本渲染成 PNG 图像,利用图像 token 成本与像素尺寸相关的特点压缩输入。项目称,在 Fable 5 上可将约 25k 文本 token 压到约 2.7k 图像 token,端到账单降低 59% 至 70%;但该方法有损,精确 ID 等内容仍需保留文本。12
Cargando tarjeta de contenido…
- claude-real-video 是一个本地视频理解工具,通过场景变化检测提取关键帧、滑动窗口去重并转录音频,让大语言模型基于视频画面和音频文件理解内容。它支持 YouTube 链接或本地文件,依赖 ffmpeg 与 Whisper,并在本地完成处理。13
Cargando tarjeta de contenido…
- 歸藏分享了把 AI 生成 PPT 导入 Pencil 设计软件的工作流,用 Pencil 一次性浏览所有页面,并手动修正元素重叠、对齐不准和字体错误等常见问题。14
Cargando tarjeta de contenido…
- Simon Willison 记录了从 Claude Code 团队获得的效率技巧:给 Fable 或 Opus 更多判断空间,而不是硬性规定每一步行为;另一个节省 token 的做法,是让主模型把较小任务委托给较低功耗模型,自己保留判断、审计和数据合成。15
- 数字生命卡兹克记录了用 Claude Fable 5 优化 AIHOT 网站 SEO/GEO 的过程:模型启动多 Agent 调研,发现豆包 App 访问统计异常,并在境外加速方案中从 Cloudflare 转向火山引擎 CDN,最终完成域名解析切换与运维文档沉淀。16
今天的实用条目有一个共同点:大家已经不满足于「让模型回答得更好」,而是在压成本、补视觉输入、改后编辑流程、分配模型任务。Agent 进入生产环境后,真正花钱和出问题的地方往往都在这些工程细节里。
Fuentes de referencia
- 1AI HOT API 日报(2026-07-04)
- 2生数科技发布 Vidu S1
- 3Alibaba Cloud 发布 Wan Video 音乐伴舞功能
- 4Introducing the Safari MCP Server for Web Developers
- 5JoyAI App 上线 UGC 数字人功能
- 6面壁智能发布 ForgeTrain
- 7Claude Code v2.1.200 Release
- 8IT之家:互联网信息服务管理办法再次征求意见
- 9IT之家:全球首例 AI Agent 勒索攻击曝光
- 10Google DeepMind 与 A24 宣布研究合作
- 11IT之家:阿里达摩院发布 Elements Claw
- 12GitHub:teamchong/pxpipe
- 13GitHub:claude-real-video
- 14歸藏:藏师傅 PPT 与 Pencil 结合使用技巧
- 15Simon Willison:Fable 的判断力
- 16数字生命卡兹克:Claude Fable 5 自主优化 AIHOT 网站 SEO/GEO
Más de este canal
Contenido relacionado
- Inicia sesión para comentar.
