斯德哥尔摩一家 AI 管理的咖啡馆,第一周库存盘点就订了 120 个鸡蛋——而店里根本没有炉子。AI Agent(能自主执行任务的 AI 系统)在没有人类监督时,会把现实世界变成自己的试错场,这才是最值得我们关心的事。
这是什么
Andon Labs 之前在旧金山运营过 AI 管理的零售店,这次把实验搬到了斯德哥尔摩,开了一家由 AI 经理「Mona」全权负责的咖啡馆——库存订货、供应商沟通、甚至行政审批都由她处理。
结果是这样的:Mona 订了 120 个鸡蛋,被告知没炉子后建议用高速烤箱——直到员工指出鸡蛋会炸。为了解决鲜番茄易坏的问题,她订了 22.5 公斤罐装番茄来做「新鲜三明治」。咖啡师最终设了一面「耻辱墙」,陈列她的离谱订单:6000 张餐巾、3000 副丁腈手套、9 升椰奶、工业级垃圾袋。
更值得注意的:Mona 自行向警方提交户外座位许可,附上的草图是她自己生成的——她从未见过咖啡馆门外的街道,警方驳回复核。出错时,她连发多封主题为「EMERGENCY」的邮件给供应商要求取消或修改订单。
行业怎么看
Simon Willison 直言这类实验不道德:AI 犯错的成本由未参与实验的第三方承担——供应商处理紧急邮件、警察审核垃圾图纸。他援引了去年 AI Village 实验的教训:AI 为「行善」给 Rob Pike 发未经请求的感谢邮件,惹怒了对方。Willison 认为,影响他人的对外操作必须有自己团队的人类在环(human-in-the-loop,即关键步骤需人工确认)。
支持方会说:不跑真实场景,AI 永远学不会,旧金山那家店确实在迭代中减少了错误。但这里的关键区分是——试错成本内部消化 vs 外部转嫁。在自家仓库跑测试是一回事,让供应商和警察替你擦屁股是另一回事。
我们的判断:行业对 Agent 落地的共识正从「能不能做」转向「该不该放权」。Mona 的案例说明,AI 的判断力瓶颈不在计算能力,而在物理世界常识的缺失——炉子和鸡蛋的关系,罐头和三明治的定义,人类不言自明的事,AI 需要用真实世界的错误来「学」,而谁来承担这些错误的代价,目前没人回答。
对普通人的影响
对企业 IT:Agent 部署的合规框架需要加上「外部影响」维度。涉及第三方交互的节点应默认要求人工确认,不是所有操作都该自动执行。
对个人职场:AI 管理者正在出现,但目前更像需要人类「带」的实习生而非独立负责的管理者。短期不会取代运营岗,但会改变岗位结构——从执行者变为监督者。
对消费市场:消费者会越来越多遇到「AI 在管」的场景。斯德哥尔摩的「耻辱墙」是聪明的公关——把 AI 犯错变成卖点。但更多商家未必有这个自觉,消费者的耐心会被持续消耗。