一位开发者花了几个月,把一个逆波兰计算器“编译”进 Transformer(当前主流 AI 架构)的权重里,模型体积 1.1GB,只能做加减乘除。但这个实验的价值不在实用——在于它提供了一种绕过训练、直接理解 AI 内部机制的新视角。
这是什么
通常我们得到一个 AI 模型,靠的是喂数据训练。这位开发者走了另一条路:像写编译器一样,把程序的逻辑直接“翻译”成 Transformer 的权重。
他实现的是一个 RPN 解释器(逆波兰表示法,一种后缀表达式计算方式,如 2 3 + 2 * 得 10)。具体做法是:把 Transformer 的残差流定义为“寄存器”,注意力权重完全由编译器计算生成,非线性逻辑则通过蒸馏训练写入 MLP(前馈神经网络层,Transformer 中负责复杂计算的部分)。结果是:一个 1.1GB 的模型,能正确执行栈式计算,但仅此而已。
行业怎么看
支持者认为这是理解 Transformer 机制的有力工具。当我们能像读程序一样读权重,AI 的“黑盒”问题就有了新的解法。编译器视角让注意力机制不再是玄学,而是一套可设计、可验证的指令系统。
但质疑声同样明确。首先,1.1GB 的 RPN 解释器在工程上毫无意义——任何计算器 App 都比它轻量、快速、可靠。其次,当前 MLP 权重仍依赖训练而非纯编译,说明“程序→权重”的映射并未真正闭合。更根本的问题是:简单解释器能编译,不代表复杂逻辑程序也能。从栈计算器到通用程序,跨度可能比从训练到编译更难。
对普通人的影响
对企业 IT:短期零影响。这是机制可解释性(Mechanistic Interpretability,研究 AI 内部如何一步步完成计算)领域的基础实验,离工程化还有很长的路。
对个人职场:如果你在做 AI 应用开发,这个实验提醒我们:Transformer 不只是“训练出来的统计机器”,它也可以是“可编程的计算架构”。这种认知转变,可能影响未来工具链的设计思路。
对消费市场:暂无直接影响。但长期看,如果“编译 AI”这条路能走通,意味着定制化 AI 的成本可能从“海量数据训练”降到“写程序编译”,这是一个值得留意的变量。