AWS 让 Agent 突破浏览器边界 — 能看不能动的系统弹窗终于能动

这是什么

当网页应用调用 window.print() 弹出系统打印对话框时，Playwright 没有任何 DOM（文档对象模型，即网页的结构化内容）可以交互——这是 Agent 自动化的硬边界，AWS 这周动了它。

过去 AI Agent（能自主执行任务的程序）自动化网页操作，只能在浏览器网页层工作，也就是 DOM 和 CDP（Chrome 开发者调试协议，浏览器提供的自动化接口）能触及的范围。填表、点击、提取内容没问题，但遇到操作系统渲染的东西——打印对话框、macOS 隐私提示、Windows 安全弹窗、右键菜单——Agent 就瞎了：看不见，够不着。

更尴尬的是视觉 Agent：截屏能拍到系统弹窗，模型能判断该点什么，但手上没有操作系统的钥匙。看得见，动不了。

OS Level Actions 通过 InvokeBrowser API 直接操控鼠标键盘，与屏幕上任何可见内容交互。工作方式是「操作-截屏-判断」循环：Agent 执行一个动作，截图看结果，再决定下一步。

行业怎么看

我们注意到这个更新解决的问题很小，但很真实。Agent 项目从 demo 到生产，最大的杀手往往不是模型能力不够，而是这些边缘场景——测试环境一切正常，生产环境弹个安全框就全停了。AWS 在做的是基础设施的「接缝」工作，不性感，但缺了它整条链路断掉。

但值得警惕的是安全面。给 Agent 操作系统级权限，意味着它能点「允许」也能忽略安全提示。企业部署时权限边界的设定会变得关键。也有声音认为这是治标——理想方案应该是系统本身为 Agent 提供标准化接口，而非让 Agent 模拟人类点击。模拟操作天然脆弱，系统一更新界面就可能失效。

对普通人的影响

对企业 IT：Agent 项目落地成功率有望提升，那些「差点就能跑」的自动化流程可能终于跑通，但 OS 级权限的管控复杂度也在同步上升。

对个人职场：RPA（机器人流程自动化）从业者的技能边界在扩展——Agent 不再只是「网页操作员」，正在获得桌面级操控能力。

对消费市场：短期影响有限，但更可靠的自动化意味着更多「帮你在电脑上办事」的服务可以真正交付，而非停留在演示阶段。

AWS 让 Agent 突破浏览器边界 — 能看不能动的系统弹窗终于能动

这是什么

行业怎么看

对普通人的影响

相关推荐

MLflow 3.10 上线 SageMaker — AWS 给生成式 AI 装仪表盘，企业总算能算清账

赫伯罗特让AI替经理读差评 — 传统行业AI落地从干脏活开始

客户一眼看出内容全是 AI 写的？三个反直觉定律帮你找回溢价

Google 让 Gemma 4 生成速度翻倍 — 小模型带大模型跑的"投机解码"成主流

开源模型排行榜收录 218 款模型、10 款 Apple 芯片 — 本地跑 AI 正在变成正经事

Heretic 1.3 让 AI 模型「去审核」可复现 — 开源社区用透明度反击黑盒化