发生了什么

AI 安全组织 Lyptus Research 发布了一项扩展分析,评估了从 GPT-2(2019 年)到 GLM-5 和 Opus 4.6(2026 年)的前沿模型在 AI 网络攻击方面的能力。该研究使用了 CyBench、CVEBench 和 NYUCTF 等七个既定基准,以及一个由 10 名专业进攻安全专家校准的包含 291 个任务的新专有数据集。

关键发现:自 2019 年以来,所有模型的网络攻击能力翻倍时间为 9.8 个月。而仅针对 2024 年发布的模型,这一时间缩短至 5.7 个月。测试中能力最强的模型——GPT-5.3 Codex 和 Opus 4.6——在人类专家需耗时约 3.1 至 3.2 小时完成的任务中,达到了 50% 的成功率。

  • 开源权重模型 GLM-5 落后于闭源前沿模型 5.7 个月
  • 评估的模型涵盖 2019 年至 2026 年:从 GPT-2 到 o3、DeepSeek V3.1、Gemini 2.5 Pro 等
  • 预计能力向开源权重模型的扩散将在短时间内发生

为何重要

对于独立开发者和中小企业而言,这项研究标志着自动化漏洞利用已不再是理论假设。如果最佳模型能够以 50% 的成功率自主完成相当于专家半天工作量的安全任务,那么针对防御不足的 SaaS 产品和 API 的定向攻击成本将显著降低。2024 年之前制定的安全预算和威胁模型很可能已过时。

亚太视角

由中国智谱 AI 开发的 GLM-5 在研究中被特别指出为能力最强的开源权重模型,仅落后闭源前沿模型 5.7 个月。对于向全球交付产品的中国和东南亚开发者而言,这意味着两点:首先,国内可用的开源权重模型正逼近前沿攻击能力,引发了合规与责任问题;其次,区域云提供商和 SaaS 团队应立即审计 API 端点和认证流程,因为基于开源权重模型构建的自动化利用工具将在短期内在该区域变得更加普及。

本周行动项

使用 OWASP ZAP 或 Nuclei 等自动化漏洞扫描工具,针对 CVEBench 涵盖的 CVE 类别(特别是认证绕过和注入漏洞)扫描您的主要 API 或 Web 应用程序,并在下一次部署周期前修复所有严重发现。