## 01 触发事件 8 月,The Verge 援引 Bloomberg 的 Mark Gurman 报道称,Apple 的带 camera AirPods 已接近 early mass production test;原型机处于 design validation test 阶段,距离 production validation test 只差一步。 更具体地说,这个 camera 不是拿来拍照或录像,而是采集 low-resolution visual information,供用户向 Siri 发问,例如看着台面上的食材问“能做什么菜”,或者辅助 turn-by-turn 导航。 这条消息表面上像是“Apple 又在做一个 AI 硬件周边”。 我认为不是。 如果原文判断准确,这实际上是在验证一种新的 AI interaction layer:耳朵负责持续接收,camera 负责环境 grounding,Siri 负责把 query 从“我输入什么”变成“系统已经知道我在看什么”。我没在 Apple 内部跑过这套原型,所以对体验完成度要打折,但从产品路径看,这不是零碎 feature,而是入口迁移。 AirPods’ cameras “aren’t designed” to snap photos or video but instead can take in “visual information in low resolution” that users can query Siri about 问题不在 camera 分辨率,而在 Apple 是否找到一个比手机唤起成本更低的 AI 分发面。 ## 02 这事的真正含义 这事真正重要的,不是 Apple 发布了一个“会看”的耳机。 这才是 Apple 在说的事:如果 AI 最终要常驻,最佳入口未必是 app,也未必是 chat box,而是一个持续佩戴、始终在线、默认贴近用户身体的 hardware surface。 今天大多数 AI 产品的问题,不是模型不够强,而是 invocation cost 太高。 用户要打开 app、组织 prompt、上传图片、等结果。 这套路径对高意图任务成立,对日常微需求不成立。 AirPods 如果能把这个链路压缩成“看一眼 + 说一句”,它改变的是 AI 的 usage frequency。usage frequency 一旦上去,token 消耗、assistant habit、默认服务选择都会跟着变。作为 API 消费者,这比某个 benchmark 高 3 分更值得看。 Apple 的强项一直不是 first model mover,而是 distribution orchestrator。 它不需要先赢 frontier model。 它只需要把 AI 变成 OS 级、device 级、body-adjacent 的默认能力,再把第三方挡在 invocation layer 之外。App Store 对 mobile 的控制,Safari 对 web access 的中介,都是这个逻辑。AirPods camera + Siri 如果做成,本质上是在把 multimodal query 的第一触点内建到硬件里。 我没法确认 Apple 会不会向第三方开放这类 visual context API;如果它不开放,那么 moat 主要来自 closed distribution。 如果它开放有限接口,那么争夺点会转向谁能进入 Siri / system intent / accessory stack,而不只是“谁的模型更聪明”。 对模型平台来说,这意味着一个不舒服的现实:模型能力越来越 commodity 化时,真正被定价的是谁拥有 query origination。 不是谁回答得最好。 而是谁最先接住用户没来得及显式表达的问题。 ## 03 历史类比 / 结构对照 更像的历史类比不是 Humane AI Pin,也不是 Rabbit R1。 我认为更像 2007 年 iPhone 对 mobile internet 的意义,只不过这次不是“把互联网装进口袋”,而是“把 AI invocation 缩到身体边界”。 iPhone 改变的不是浏览器引擎本身,而是 interaction architecture:multi-touch、always-connected、sensor-rich,最终重写了 distribution。 同样,AirPods with cameras 如果成立,改变的也不是 foundation model 本身,而是 multimodal AI 的输入结构。过去 AI 主要吃 typed text,后来吃 image upload,现在 Apple 试的是 ambient visual stream + voice query。 这背后有一个重要结构对照。 OpenAI、Anthropic、Google 这些公司擅长把模型能力往前推,做更长 context、更多 tool use、更强 reasoning。 Apple 的打法则是把模型能力嵌进现有 consumer hardware graph:iPhone、Watch、AirPods、Vision Pro。 前者的优势是 intelligence frontier。 后者的优势是 invocation frequency 和 default placement。 这有点像 2014 年 AWS 之后的 SaaS 变化:基础能力一旦标准化,上层分发和 workflow ownership 比底层计算本身更值钱。AI 现在也在进入这个阶段。模型还是关键,但独立模型层的利润池,可能会被拥有入口的 platform 抽走一部分。 我可能高估了用户对“被设备持续看见”的容忍度。Apple 若处理不好 privacy framing,这个类比会失效。因为 iPhone 当年是显性使用设备,camera AirPods 则带有 ambient sensing 的社会摩擦,这不是同一难度级别。 ## 04 对 AI builder 意味着什么 对 AI builder 来说,这周和这个月要调整的,不是“马上做耳机 app”。 而是重新评估你的产品是否过度依赖 screen-first interaction。 第一,所有依赖用户手动上传图片、复制上下文、写长 prompt 的工作流,都该开始想如何变成 ambient capture + short query。 如果你的产品价值必须建立在用户先整理信息给模型,那它的 invocation tax 太高,未来容易被系统级入口吃掉。 第二,关注 Apple、Google、Meta 三家的 wearable multimodal API 走向。 builder 现在常把 MCP、Agent SDK、tool calling 当主战场,但如果 query 的第一入口迁到耳机、眼镜、系统 assistant,协议层的重要性会低于 distribution 层。协议决定能不能接,distribution 决定有没有流量。 第三,面向 consumer 的 AI 创业者要更谨慎看待“独立 assistant app”的长期 moat。 如果用户最终在耳机里问 Siri,在眼镜里看 Meta,在 Android 上调 Gemini,那么你卖的可能不是 assistant,而是某个垂直场景的 high-value tool execution。也就是说,产品要从“通用聊天”退到“明确任务完成”。 第四,做 API 网关、model routing、agent infra 的团队则反而有新机会。 因为系统级入口一旦普及,上游 query 会更碎、更频繁、更多模态,对延迟、routing、cost control 的要求会更高。低价值 query 不配用最贵模型,视觉 grounding 也不一定要走同一个 stack。这里会催生新的 token economics:更细粒度的 model routing、prompt caching、模态拆分计费、edge pre-processing。 我没看到 Apple 这次消息里有任何明确 pricing、开放接口或模型供应商信息,所以现在谈生态规模还早。 但方向已经足够清楚:builder 该假设“未来的 AI 请求不会都从 chat UI 发起”。 ## 05 反方观点 / 风险 我上面的判断,最可能错在三点。 第一,Apple 可能根本做不出用户愿意长期佩戴且愿意长期信任的体验。 耳机不是眼镜,camera 朝向、取景稳定性、遮挡、功耗、热管理都不天然适合视觉理解。low-resolution visual information 听起来克制,但也可能意味着它根本不够用。若准确率不够,用户不会形成习惯,入口就不成立。 第二,Siri 的历史包袱非常重。 硬件入口再好,如果 assistant reliability 不够,Apple 只是把一个弱 AI 放到更近的地方。那不是优势放大,而是缺陷放大。我没在内部测试过新版 Siri,所以不敢把这件事直接等同于 Apple Intelligence 的成熟落地。 第三,社会接受度可能比技术难度更致命。 耳机带 camera 的公共信号非常复杂。即便 Apple 强调不拍照、不录像,只做 low-resolution sensing,外部世界未必会买账。Google Glass 当年的失败,不只是技术问题,也是社会规范问题。AirPods 的形态更隐蔽,这甚至可能让阻力更大。 所以,最保守的结论不是“Apple 赢了 wearable AI”。 而是 Apple 正在测试一个非常值得所有 AI builder 警惕的命题:未来 AI 的主入口,可能从 app icon 迁移到身体附近的默认硬件。 如果这件事成立,真正被压缩的不是某个耳机品类。 而是大量依赖用户主动打开应用、主动组织上下文、主动发起 prompt 的 AI 产品。