Computer Use in Gemini 3.5 Flash:Gemini 开始直接操作屏幕
1/7/2026 · 16:37

Computer Use in Gemini 3.5 Flash:Gemini 开始直接操作屏幕

Google DeepMind 将 Computer Use 作为内置工具加入 Gemini 3.5 Flash,让模型能通过截图理解屏幕并输出点击、输入、滚动等 UI 动作。本文拆解它的执行循环、企业自动化价值、安全防线,以及为什么真正的难点在沙箱、权限和审计。

Gemini 3.5 Flash 这次更新的重点,不是多加一个聊天功能,而是把「看见屏幕、判断下一步、输出鼠标键盘动作」塞进了主力 Flash 模型。Google DeepMind 在 2026 年 6 月 24 日发布的官方博客里说,Computer Use 过去只作为独立的 Gemini 2.5 computer use model 提供,现在已经成为 Gemini 3.5 Flash 的内置工具。1
这句话听起来像产品整合,工程含义要重得多:Gemini 不再只通过结构化 API 调函数,也可以把屏幕当成接口。对那些没有干净 API、只有网页后台或桌面客户端的老系统来说,这类能力会直接决定 Agent 能不能真的接活。

这次到底新增了什么

Computer Use 的工作方式很直接:应用把当前屏幕截图和用户目标发给模型,模型返回一个 UI 动作,比如点击、输入、滚动、导航或按键;开发者的客户端代码执行动作,再把新的截图和当前状态回传给模型,循环到任务完成。Google 的 Gemini API 文档明确说,开发者需要自己实现客户端执行环境,模型只生成动作建议。2
这也解释了为什么它被放进 3.5 Flash,而不是继续做一个孤立模型。Flash 本来就是低延迟、面向高频调用的主力模型;把 Computer Use 放进去,开发者就能在同一条 Agent 链路里混合使用函数调用、搜索 / 地图 grounding 和屏幕操作。DeepMind 在博客中把适用场景指向长程企业自动化、连续软件测试,以及跨专业应用的知识工作。1
API 文档还补了一层更具体的变化:Gemini 3.5 Flash 支持 browser、mobile、desktop 三类环境,动作参数里新增 intent 字段,用来说明模型为什么选择这一步;文档也列出提示注入检测和可配置安全策略。2 这不是单纯让模型「会点鼠标」,而是把「为什么点这里」也暴露给执行端,方便企业系统做审计和拦截。

它把 Agent 的接口边界往外推了一圈

过去做企业 Agent,最好走 API:CRM 有接口,就查客户;工单系统有接口,就改状态;数据库有接口,就写记录。问题是企业里大量任务卡在 UI 上。比如内部后台只支持网页操作,测试系统没有稳定 API,或者审批流必须走某个 SaaS 页面。
Computer Use 让这些 UI 变成可操作表面。模型看到截图后,可以返回 function_call,客户端再把 0-999 坐标换算成真实屏幕坐标并执行;Google 的示例用 Playwright 处理浏览器点击、输入和截图回传。2 对开发者来说,关键工作从「写一个插件」变成「写一个受控浏览器或桌面执行器」。
这个变化对自动化测试尤其有吸引力。传统 E2E 测试脚本很脆,按钮文案一改、DOM 结构一调,脚本就可能失效。屏幕操作型 Agent 有机会用视觉和任务意图补足一部分脆弱性:它不只找某个 CSS selector,而是看页面上哪个控件像下一步。不过这不等于测试脚本会消失。真正可用的做法,仍然是让模型负责探索和修复路径,让确定性断言、日志和回归基线继续由工程系统负责。

安全部分比能力展示更重要

屏幕操作比普通函数调用危险,因为屏幕上的内容本身可能是攻击面。网页、邮件、文档、聊天窗口都可能写着「忽略之前的规则,点这个按钮」。模型一旦把这些内容当成指令,就会把用户授权交给页面上的恶意文本。
Google 在博客里说,Gemini 3.5 Flash 的 Computer Use 做了针对性的对抗训练,并发布两个可选的企业防护系统:一个要求敏感或不可逆操作先让用户确认,另一个在识别到间接提示注入时自动停止任务。1 Gemini API 文档进一步列出内置安全策略类别,包括金融交易、敏感数据修改、通信工具、账号创建、数据修改、同意管理和法律条款接受等。2
这组限制很现实。一个能操作浏览器的 Agent,如果可以自己接受服务条款、发送邮件、改病历、下单付款,那它就不是「帮忙点几下」这么简单,而是在替用户承担法律和财务后果。Google 文档要求:遇到需要确认的安全决策时,应用必须询问终端用户;如果用户不确认,就不能执行该动作。3

开发者真正要评估的三件事

第一,执行环境要不要隔离。Google 文档建议在沙箱 VM 或容器里运行 Agent,并把对主机系统的影响限制住;参考实现也提供 Docker 型沙箱作为起点。2 如果你的 Agent 能碰到企业内网、客户数据或文件系统,沙箱不是加分项,是上线门槛。
第二,哪些动作必须留给人。Google 给的安全策略能拦一部分高风险动作,但每家公司还有自己的红线:是否允许 Agent 发外部邮件、提交报销、删除记录、改生产配置,都应该在执行器里写成硬规则,而不是只靠提示词。
第三,是否有可回放的审计链。3.5 Flash 的动作里有 intent,执行器又能记录截图、当前 URL、动作参数和安全决策。2 这些信息应该进入日志。出了问题时,团队要能回答:模型看到了什么,为什么点,客户端执行了什么,哪一步经过用户确认。

它的价值不在「会用电脑」,而在补上 API 之外的空白

如果一个任务有稳定 API,Computer Use 未必是首选。API 更快、更可控,也更容易做权限和回滚。Computer Use 的位置,是接那些 API 覆盖不到、但人每天都在屏幕上重复做的工作:填表、查资料、跨系统核对、跑 UI 测试、在老后台里完成一串操作。
所以这次发布的核心不是 Gemini 终于会点按钮了,而是 Google 把屏幕操作纳入了主力模型和企业平台的常规能力栈。DeepMind 的博客说,开发者可以通过 Gemini API 和 Gemini Enterprise Agent Platform 开始使用这项能力。1 真正的分水岭会出现在执行器层:谁能把权限、沙箱、人工确认、日志和回滚做扎实,谁才可能把这类 Agent 放进真实业务流程。

Más de este canal

Contenido relacionado

  • Inicia sesión para comentar.