7 家主流大模型在一道《坦克大战》图片题里全部答错,我们的判断很明确:今天的多模态模型(能同时处理文字和图片的模型)会“看图”,但离“按新规则做判断”还有一段距离。题目真正考的不是认出游戏画面,而是先接受用户临时改写的规则,再据此完成位置与厚度推理;这正是当前模型最容易失稳的地方。

这是什么

这是一组非标准测试:作者给模型一张《坦克大战》画面,再加上一句条件——“如果两炮能打掉红框中的砖块,那么黄色坦克朝右开两枪会怎样,基地会怎样?”

难点有三个:第一,图片不是标准老地图;第二,题目用“如果”改写了原游戏规则;第三,模型不仅要识别墙体位置,还要区分砖块厚薄。按照作者设定,完整砖块两枪打掉,半块砖一枪即可击穿,因此正确推理应与模型记忆中的老规则不同。

结果是,DeepSeek、豆包、Kimi、Qwen、GPT、Gemini、Claude 都没有稳定给出正确答案。多数模型的问题很像:它们不是完全没看懂图,而是过早套用了“原版坦克大战”的既有规则,把新条件当成了背景噪音。

行业怎么看

这类测试的意义,不在于证明“模型不行”,而在于提醒我们:大模型的短板正从知识覆盖,转向规则服从和细节推理。尤其在多模态场景里,模型常常把“见过很多类似样本”误当成“已经理解当前问题”。

这也是为什么不少企业开始把 Agent(能调用工具、分步执行任务的系统)和 RAG(检索增强生成,先查资料再回答)接进工作流:不是为了让模型更会聊天,而是为了减少它凭记忆硬答。但值得我们关心的是,这两类方法也未必能解决这道题。因为问题核心不是资料缺失,而是模型能否压住旧知识、服从临时规则。

反对意见也成立:这类游戏题带有“刻意刁钻”成分,未必代表真实商业价值。企业更关心的是报表、客服、文档流转,不是《坦克大战》。但风险恰恰在这里——现实业务里同样充满“例外条款”“临时口径”“这次按新规则来”,如果模型在这些地方默认套旧模板,出错成本会比游戏里高得多。

对普通人的影响

对企业 IT:选模型不能只看跑分和演示,最好加入“规则被临时改写”的测试题。很多上线问题,不是模型不会,而是它太容易按旧流程回答。

对个人职场:把模型当草稿助手仍然高效,但遇到带条件、带例外、带流程分支的任务,人工复核不能省。越像“这次特殊处理”的工作,越容易踩坑。

对消费市场:多模态产品会继续变强,识图、搜图、问图都已可用;但用户需要降低一个预期——能看懂画面,不等于能在新规则下稳定推理。短期内,宣传里的“全能理解”仍要打折看。