2026-06-30 09:07:04 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 一项由semgrep进行的网络安全测试显示,在检测间接对象引用(idor)漏洞这一高难度任务中,glm5.2模型的表现优于claudecode模型。测试表明,虽然框架对模型性能有显著影响,但glm5.2作为开放权重模型,在成本仅为前者六分之一的情况下取得了更好的结果,这标志着开源模型在安全领域的竞争力已达到新的水平。 综合评分： 85 文章分类： ai安全,代码审计,web安全,解决方案,技术标准

cover_image

GLM 5.2 在Semgrep 网络安全测试优于Claude

酷酷信安

2026年6月29日 18:22 四川

在小说阅读器读本章

去阅读

“ Semgrep 在 2026 年的一篇测试多个模型IDOR效果中报告，其最新基准测试结果显示 GLM 5.2 在网络安全代码分析任务中优于 Claude，成本大约是Claude的6分之一”

—

实验:

@app.route('/user/<int:user_id>')def&nbsp;get_user(user_id):&nbsp; &nbsp; user = User.query.get_or_404(user_id)&nbsp; &nbsp;&nbsp;return&nbsp;jsonify(user.to_dict())

这个 Flask 路由直接从 URL 中的 ID 获取并返回用户记录，而没有检查请求者是否拥有该记录。任何已登录的用户都可以修改 user_id 并读取其他用户的记录。IDOR 介于业务逻辑缺陷和配置错误之间，它并非污点流漏洞，这使得静态分析和 LLM 都难以检测：没有危险的函数需要标记，只有缺少检查。它也是实际应用中最常见的漏洞之一（目前在 HackerOne 的常见漏洞类型列表中排名第四），因此我们一直将其作为基准进行研究。

回到我们的实验：我们保持三个条件不变，改变一个条件，即标准实验条件。不变的条件包括：IDOR 数据集（与我们之前研究中使用的相同的真实开源应用程序）、评估方法（针对已知真阳性数据集的 F1 分数）以及 IDOR 系统提示本身。改变的条件包括：模型及其框架。具体来说：

Semgrep Multimodal运行在我们自定义的框架中：该框架会枚举端点并将模型定向到这些端点。我们使用两个 Frontier 模型对其进行了测试。
但是，我们也通过 Claude Code SDK 运行了Claude Code，并通过其原生 SDK 运行了其他提供商模型，但提示信息相同。
包括 GLM 5.2、MiniMax M3 和 Kimi K2.7 代码在内的开放权重模型，在简单的 Pydantic AI 框架中运行，仅使用 IDOR 提示符，没有其他任何功能。

这是一个重要的细节，所以我们再强调一遍：开放权重模型并没有像多模态流程那样获得端点发现方面的支持。它们只看到了提示信息和代码库。这就是它们在没有任何帮助的情况下所能做到的

—

结论：

这不是对模型原始能力的直接比较，不希望任何人误解。我们认为应该得出这样的结论：在给定相同最低提示和资源的情况下，GLM 5.2（一种开放权重模型）的成本仅为前沿LLM的六分之一，却在一项真正高难度的安全研究任务中击败了Claude Code模型

框架仍然比模型更重要。表格中最大的性能差距并非存在于不同模型之间，而是存在于启用端点发现的配置和禁用端点发现的配置之间。但对于目前关注安全研究的人来说，这绝对不足为奇，完全在意料之中。
但是，当这种意想不到的结果突然出现，并且计算成本如此之低时，它就鲜明地提醒我们，不能把所有鸡蛋都放在一个LLM篮子里。如果你固守于昂贵的前沿模型，即使拥有最好的厂商锁定框架，你也可能错过更换模型带来的优势，无论是成本还是性能方面。
开源模型已经跨越了一个值得关注的门槛。一年前，将开源模型列入漏洞检测排行榜简直是天方夜谭。而如今，GLM 5.2 仅凭一个简单的提示符就能击败 Frontier Agent，成本却只有后者的六分之一，而且还可以选择完全在用户自己的环境中运行。对于许多安全团队来说，这无疑是一个极具吸引力的选择。

需要说明的是：这只是一个任务、一个数据集、一次运行的结果。IDOR 检测是非确定性的，数据集是有限的，而且我们只彻底修改了一个配置。对于 IDOR 检测，GLM-5.2 可能确实比 Claude 更好，但对于 SSRF 检测，情况则可能相反——我们目前还无法确定，但可以肯定的是，我们会找到答案。

文章来源：

https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：酷酷信安《GLM 5.2 在Semgrep 网络安全测试优于Claude》