20 小时实测、两块 RTX PRO 6000 满负载运行,结论只有两个字:看场景。Qwen3.6-27B(通义千问最新一代稠密模型,支持链式思考)与 Coder-Next(MoE 架构,约 35B 总参数但每次仅激活 3B)在 40 项任务中分别完成 30 次和 25 次——统计上不分胜负,但赢的方式完全不同。
这是什么
测试者因为怀疑传统基准测试被「刷分」(针对公开跑分数据集做定向优化),决定用自建的高强度任务来对比两个模型。核心发现有三:
第一,两者擅长的东西截然不同。开放性市场调研任务上,27B 拿下 8/10,Coder-Next 是 0/10,差距悬殊;但换成有明确边界的商业备忘录和文档整合,Coder-Next 10/10 全过,且单次运行成本只有 27B 的 1/60 到 1/100。
第二,最反直觉的结果:27B 关掉「思考模式」(即不输出推理过程、直接给结论)后,反而是所有配置里最稳定的——12 组测试中完成率 95.8%。思考过程没改变最终决策,只是让输出更冗长。但在文档整合这类容易触发重复循环的任务上,关掉思考确实能减少一半的失败。
第三,同系列的 3.6-35B-A3B(也是 MoE 架构)表现糟糕到不值得继续测试。同为 MoE,Coder-Next 能打,A3B 不行——架构不是万能标签。
行业怎么看
我们注意到这个测试的价值不在结论,在方法。当越来越多模型在 MMLU、HumanEval 等公开榜单上卷到 90 分以上,区分度的来源只能是这种「脏活累活」式的场景实测。测试者明确说,他的动机就是不信任跑分。
MoE 的成本优势在这类实测中得到了硬数字支撑——60 到 100 倍的成本差距不是小数目。对于需要高频调用、任务边界清晰的场景(比如批量生成标准报告),这个差距直接决定方案能不能上生产。
但也要看到局限:这是单人的非标准化测试,样本和方法论未经同行评审。Coder-Next 在市场调研任务上的 0/10 崩溃是否可复现、是否与提示词风格有关,目前只有一个数据点。另外,「关掉思考更稳定」这个发现虽然有趣,但测试者自己承认,这可能与具体任务的类型分布有关,不能简单推广为「思考模式没用」。
对普通人的影响
对企业 IT:模型选型正在从「买最强模型」变成「按场景搭模型组合」——开放探索用稠密模型,流水线任务用 MoE,成本差一到两个数量级。
对个人职场:理解「什么时候该关思考模式」这类实操判断,正在比「谁家跑分高」更有决策价值。
对消费市场:跑分与实际表现的脱节会持续扩大,厂商的榜单营销将越来越不可信,第三方场景实测的公信力会上升。