Anthropic有一个叫Mythos的模型架构,从未对外公布技术细节。Kye Gomez——22岁,智能体框架Swarms的创始人——收集了现有公开论文和行业猜测,拼出了一套他认为接近Mythos的架构,并命名为OpenMythos开源发布。
这套架构的核心思路叫循环深度Transformer(Recurrent-Depth Transformer,RDT,即让同一组模型参数反复运算多轮,每轮激活不同的「专家模块」,而不是像主流做法那样堆砌几百层不同参数)。具体来说:同一组权重最多跑16遍,每遍走不同的专家路径,整个推理过程在内部向量空间完成,不输出任何中间步骤,直到最后才给出答案。
参数效率上,UCSD和Together AI的论文显示,770M参数的RDT模型追平了1.3B参数的标准Transformer——参数量少了将近一半,效果持平。更关键的是泛化能力:在「训练时没见过的知识组合」测试中,循环架构照样能答对,标准模型直接失败。
行业怎么看
支持这个方向的声音认为,当前大模型的瓶颈已经不是「记了多少事实」,而是「能不能把已知事实串联起来回答新问题」。循环架构在推理时多跑几遍,似乎免费获得了这种组合能力,而不需要再扩大训练规模。如果这个判断成立,AI行业下一阶段的竞争重心会从「训练更大的模型」转向「让现有模型在推理时想得更深」。
但反对意见同样值得认真对待。首先,OpenMythos本质上是一套基于推测的复现,Anthropic从未确认Mythos用了这套架构,Gom ez本人也承认这只是「主流猜测的整合」。其次,770M对标1 .3B的实验规模较小,能否在更大参数量上复现结论尚无证据。第三,循环推理的稳定性问题(每轮计算不发散)目前依赖特定注入机制,工程上的可靠性还没有大规模验证。学术界对这个方向感兴趣是一回事,能否进入产品级部署是另一回事。
对普通人的影响
对企业IT:如果「少参数、多推理轮次」的路线被主流验证,意味着企业部署AI的硬件门槛可能下降——同等效果用更小的模型实现,私有化部署的成本逻辑会重新算一遍。
对个人职场:这类技术进展短期内不会改变个人使用AI工具的方式,但它预示着AI在「复杂推理」和「知识组合」上的能力边界正在被推远,知识型工作中「判断力」被AI 替代的速度可能比预期快。
对消费市场:循环推理架构天然适合「慢慢想、最后给答案」的场景,而非实时对话。消费端产品短期内感知不到变化,但中期可能出现「深度推理模式」和「快速响应模式」更明确分层的产品形态。