Article Not Found

7 家主流大模型在一道《坦克大战》图片题里全部答错，我们的判断很明确：今天的多模态模型（能同时处理文字和图片的模型）会“看图”，但离“按新规则做判断”还有一段距离。题目真正考的不是认出游戏画面，而是先接受用户临时改写的规则，再据此完成位置与厚度推理；这正是当前模型最容易失稳的地方。

这是什么

这是一组非标准测试：作者给模型一张《坦克大战》画面，再加上一句条件——“如果两炮能打掉红框中的砖块，那么黄色坦克朝右开两枪会怎样，基地会怎样？”

难点有三个：第一，图片不是标准老地图；第二，题目用“如果”改写了原游戏规则；第三，模型不仅要识别墙体位置，还要区分砖块厚薄。按照作者设定，完整砖块两枪打掉，半块砖一枪即可击穿，因此正确推理应与模型记忆中的老规则不同。

结果是，DeepSeek、豆包、Kimi、Qwen、GPT、Gemini、Claude 都没有稳定给出正确答案。多数模型的问题很像：它们不是完全没看懂图，而是过早套用了“原版坦克大战”的既有规则，把新条件当成了背景噪音。

这类测试的意义，不在于证明“模型不行”，而在于提醒我们：大模型的短板正从知识覆盖，转向规则服从和细节推理。尤其在多模态场景里，模型常常把“见过很多类似样本”误当成“已经理解当前问题”。

这也是为什么不少企业开始把 Agent（能调用工具、分步执行任务的系统）和 RAG（检索增强生成，先查资料再回答）接进工作流：不是为了让模型更会聊天，而是为了减少它凭记忆硬答。但值得我们关心的是，这两类方法也未必能解决这道题。因为问题核心不是资料缺失，而是模型能否压住旧知识、服从临时规则。

反对意见也成立：这类游戏题带有“刻意刁钻”成分，未必代表真实商业价值。企业更关心的是报表、客服、文档流转，不是《坦克大战》。但风险恰恰在这里——现实业务里同样充满“例外条款”“临时口径”“这次按新规则来”，如果模型在这些地方默认套旧模板，出错成本会比游戏里高得多。

对企业 IT：选模型不能只看跑分和演示，最好加入“规则被临时改写”的测试题。很多上线问题，不是模型不会，而是它太容易按旧流程回答。

对个人职场：把模型当草稿助手仍然高效，但遇到带条件、带例外、带流程分支的任务，人工复核不能省。越像“这次特殊处理”的工作，越容易踩坑。

对消费市场：多模态产品会继续变强，识图、搜图、问图都已可用；但用户需要降低一个预期——能看懂画面，不等于能在新规则下稳定推理。短期内，宣传里的“全能理解”仍要打折看。