90%的AI聊天系统一加上工具调用就会体验崩溃,agui 这个开源项目指出核心病灶:纯文本流式渲染(像打字机一样逐字输出)根本不是可用的产品协议。
这是什么
我们注意到,大多数团队做 AI 聊天,第一步都是把大模型输出逐字打印到页面上。但只要往前走一步,给 AI 加上工具调用(AI在回答前执行搜索、发邮件等动作),纯文本流就不够用了:用户不知道 AI 是在思考还是在联网,搜索失败只能混在文字里报错,原本结构化的数据也被揉成了一团文本。
agui 项目给出的解法是建立“统一事件流”:把文本、工具输入、工具输出、错误和用户中断,都变成同一条 UI 消息协议里的平等成员。前端不再渲染一整段文本,而是根据不同的事件类型分别渲染。这就像把单车道公路升级为分车道高速,让 AI 的思考和执行过程对用户可见且可控。
行业怎么看
这代表了 AI 前端工程的一个正确走向:协议先行,能力后补。先把消息链路跑通,再慢慢接入各种工具,前端保持很薄,后端也更容易演进成真正的 Agent(能自主调用工具完成任务的AI)系统。
但值得我们关心的是,这种自定义协议也存在隐忧。目前行业缺乏统一的 UI 消息标准,每个团队都在定义自己的数据块,这会导致前端组件无法跨项目复用,生态高度碎片化。同时,把状态管理压力转移到前端事件流上,如果协议设计不够解耦,复杂工具场景下前端反而容易成为新的性能瓶颈。
对普通人的影响
对企业 IT 而言,自建 AI 助手不能再只看后端大模型能力,前端交互协议的健壮性将直接决定系统能否通过生产环境验收。
对个人职场而言,产品经理和设计师需要新增一项技能:为“AI调用工具的过程”设计交互,而不再只是画一个聊天框。
对消费市场而言,用户会逐渐习惯 AI 不再只是黑盒文字生成器,而是能看到其“搜索、计算、试错”过程的透明系统,这将显著降低人机信任门槛。