这是什么
当网页应用调用 window.print() 弹出系统打印对话框时,Playwright 没有任何 DOM(文档对象模型,即网页的结构化内容)可以交互——这是 Agent 自动化的硬边界,AWS 这周动了它。
过去 AI Agent(能自主执行任务的程序)自动化网页操作,只能在浏览器网页层工作,也就是 DOM 和 CDP(Chrome 开发者调试协议,浏览器提供的自动化接口)能触及的范围。填表、点击、提取内容没问题,但遇到操作系统渲染的东西——打印对话框、macOS 隐私提示、Windows 安全弹窗、右键菜单——Agent 就瞎了:看不见,够不着。
更尴尬的是视觉 Agent:截屏能拍到系统弹窗,模型能判断该点什么,但手上没有操作系统的钥匙。看得见,动不了。
OS Level Actions 通过 InvokeBrowser API 直接操控鼠标键盘,与屏幕上任何可见内容交互。工作方式是「操作-截屏-判断」循环:Agent 执行一个动作,截图看结果,再决定下一步。
行业怎么看
我们注意到这个更新解决的问题很小,但很真实。Agent 项目从 demo 到生产,最大的杀手往往不是模型能力不够,而是这些边缘场景——测试环境一切正常,生产环境弹个安全框就全停了。AWS 在做的是基础设施的「接缝」工作,不性感,但缺了它整条链路断掉。
但值得警惕的是安全面。给 Agent 操作系统级权限,意味着它能点「允许」也能忽略安全提示。企业部署时权限边界的设定会变得关键。也有声音认为这是治标——理想方案应该是系统本身为 Agent 提供标准化接口,而非让 Agent 模拟人类点击。模拟操作天然脆弱,系统一更新界面就可能失效。
对普通人的影响
对企业 IT:Agent 项目落地成功率有望提升,那些「差点就能跑」的自动化流程可能终于跑通,但 OS 级权限的管控复杂度也在同步上升。
对个人职场:RPA(机器人流程自动化)从业者的技能边界在扩展——Agent 不再只是「网页操作员」,正在获得桌面级操控能力。
对消费市场:短期影响有限,但更可靠的自动化意味着更多「帮你在电脑上办事」的服务可以真正交付,而非停留在演示阶段。