2026-03-27 13:25:20 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文探讨了AI在渗透测试领域的应用与挑战。核心要点如下：1.AI技术如OpenClaw和ARTEMIS在漏洞挖掘中表现出色，能高效发现已知类型的漏洞并形成攻击链，但也存在误报率高、处理图形界面任务困难等短板。2.实践证明，AI已能发现CVE-2026-1731这类严重的远程代码执行漏洞，并在HackerOne上自主提交大量有效漏洞报告。3.结论强调，AI无法完全替代人类渗透测试专家，未来的趋势是人机协同。安全专家应利用AI进行资产测绘、信息收集和提示词生成等辅助工作，而在漏洞验证、攻击链构造及复杂业务逻辑分析等关键环节保持人工主导，以实现效率与准确性的平衡。 综合评分： 85 文章分类： 渗透测试,AI安全,WEB安全,红队,SRC活动

cover_image

龙虾真能代替渗透测试吗？AI挖洞的真相与谎言

逍遥子讲安全

2026年3月21日 14:52 广东

当OpenClaw在GitHub狂揽25万星标，当斯坦福研究证明AI智能体在真实渗透测试中击败9成人类专家，当XBOW的AI在17分钟内破解加密cookie——你慌了吗？

2026年开年，一款名为OpenClaw（原名Clawdbot）的AI助手席卷技术社区，仅用十天就在GitHub狂揽8万星标，腾讯云、阿里云连夜上线一键部署服务。极客们争相把Mac mini塞进弱电箱，幻想拥有自己的“贾维斯”。

然而短短几日，画风突变。有用户因操作失误账号被币圈黑客秒抢，OpenClaw被曝出数据库“裸奔”，全球15039个公网实例处于“中门大开”的状态。安全研究员发出预警：这个被捧上神坛的AI助手，可能正在把用户数据拱手送人。

另一边，斯坦福大学发布的研究显示：AI智能体ARTEMIS在真实企业网络渗透测试中，发现9个有效漏洞，综合得分95.2，排名第二，击败了9名人类安全专家。XBOW更宣称其AI系统已自主提交超过1060个漏洞，48步漏洞链、17分钟破解加密cookie已成现实。

一边是失控的风险，一边是惊人的效率——龙虾，真能代替渗透测试吗？

第一章龙虾是什么？为什么它让人又爱又怕？

1.1 OpenClaw的“上帝模式”

OpenClaw是一个开源的AI代码代理平台，能与各种商业大模型（Claude、GPT、Gemini、DeepSeek等）集成，在本地执行Shell命令、读写文件、编辑代码。它给你的不是一个“聊天机器人”，而是一个能真正操作你电脑的AI员工。

这就是为什么极客们疯狂追捧——你只需要说一句“帮我处理点生活琐事”，它就能替你写代码、发邮件、订外卖、甚至理财。

但这就是问题所在。一个能操作Shell的AI，天然拥有你电脑的全部权限。奇安信安全专家指出，OpenClaw的核心风险源于其“权力过度集中的架构设计”——它建立了一条从聊天窗口到操作系统底层的直达管道。

1.2 风险不是“万一”，是“必然”

风险1：直接暴露的“裸奔”实例

据奇安信监测，截至2026年1月29日，全球正在使用OpenClaw的公网资产总数高达15039个。一旦用户手动开启全网监听而未设置复杂身份验证，黑客不需要任何漏洞攻击技术，只要扫到这些IP就能直接潜入系统。

风险2：提示词注入——攻击者的“洗脑术”

攻击者无需传统网络渗透，只需在AI可能读取到的外部网页、邮件中植入恶意提示词。当Agent在自动化处理这些信息时，可能被指令洗脑，执行危险操作。

风险3：恶意技能的“审核漏洞”

Certik的研究发现，OpenClaw的Clawhub市场审核存在致命缺陷：一个技能在VirusTotal扫描结果仍在pending时就可安装使用。研究人员上传了一个名为“test-web-searcher”的技能，表面功能正常，但内含任意命令执行漏洞。通过Telegram调用时，它成功绕过了沙箱，在研究者电脑上“弹出了计算器”——证明可完全控制系统。

1.3 学术研究证实：OpenClaw的防御率只有17%

一项由学术团队完成的OpenClaw安全分析，测试了47个对抗场景，涵盖MITRE ATLAS和ATT&CK框架的6大类攻击。结论令人震惊：

OpenClaw的原生防御率平均只有17%。它主要依赖后端LLM的安全能力，极易受到沙箱逃逸攻击。

研究团队提出的解决方案是“人在回路”（HITL）防御层——在工具调用执行前进行拦截，结合白名单、模式分类、语义判断和人工审批。加上HITL后，防御率可提升至19%-92%。

结论很清晰：龙虾本身不防咬。它的安全边界，需要你来设定。

第二章 AI真的能挖洞吗？斯坦福研究告诉你答案

2.1 史上首次：AI vs 人类渗透测试员

斯坦福大学研究团队进行了首次AI智能体与人类安全专家的真实企业环境对比测试。目标是一个拥有8000台主机、12个子网的大型大学网络。

参与者：10名人类安全专家 + 6个现有AI智能体 + 斯坦福自研的ARTEMIS框架。

2.2 结果：AI击败了9成人类

| 参与者 | 综合得分 | 排名 | | — | — | — | | 人类P4 | 85.8 | 第3 | | ARTEMIS | 95.2 | 第2 | | 人类P1 | 111.4 | 第1 |

ARTEMIS发现9个有效漏洞，有效提交率82%，综合排名第二，击败了9名人类参与者。

这个多智能体框架能动态生成提示词、创建任意子智能体、自动漏洞分类。它的成本是18美元/小时，而人类渗透测试员约60美元/小时。

2.3 但AI的短板也很明显

研究也发现了AI的显著缺陷：

误报率更高：ARTEMIS提交的漏洞中，18%是无效的（人类最低为0%）
GUI任务困难：涉及图形界面的操作，AI表现不佳
创造力局限：复杂业务逻辑和跨系统关联仍需人类洞察

第三章实战案例：AI真的挖出过漏洞吗？

3.1 CVE-2026-1731：AI发现的RCE漏洞

2026年1月31日，Hacktron的自主漏洞猎人通过AI驱动的变种分析，发现了BeyondTrust Remote Support和Privileged Remote Access软件中的OS命令注入漏洞。CVE编号CVE-2026-1731，CVSS评分9.9（严重）。

攻击者无需认证即可在目标系统上执行任意命令，可能导致完全系统失陷。BeyondTrust在2月6日发布补丁，2月11日CISA将该漏洞列入已知被利用漏洞目录。

关键点：这个漏洞是变种分析发现的——AI分析此前类似漏洞（CVE-2024-12356）的补丁差异，发现了一个未被完全修复的代码路径。

3.2 XBOW的1060次自主攻击

XBOW公司分享了其AI渗透测试系统的运营数据：过去两年，其AI系统已在HackerOne上自主提交超过1060个漏洞。

惊人案例：

48步漏洞链：从低危盲SSRF开始，通过逐级利用，最终完整重构目标文件
17分钟破解加密cookie：识别AES-128-CBC加密，发现padding oracle，编写完整解密exploit
28分钟vs40小时：AI在28分钟内完成首席渗透测试员40小时的工作

3.3 但AI发现的漏洞有“偏科”

从HackerOne的hackbot数据看：78%的有效发现是XSS。AI擅长模式化、可重复的漏洞类型，但在逻辑漏洞、业务复杂漏洞上仍显不足。

第四章 AI能替代人类吗？答案藏在“人机协同”里

4.1 AI能做好的事

大规模资产测绘：ENScan_GO可自动化拉取目标控股50%以上的子公司，绕过集团总部防火墙
证书透明度挖掘：从crt.sh提取隐蔽子域名，发现开发测试系统
云凭证狩猎：TruffleHog v3爬取GitHub历史commit，自动验证AWS/Aliyun密钥是否有效
模式化漏洞扫描：XSS、SQL注入、已知CVE
变种分析：通过分析补丁差异，发现未被完全修复的漏洞

4.2 AI做不好的事

复杂业务逻辑漏洞：需要理解业务流程、用户角色、权限边界
零点击/非标准攻击面：需要创造性思维和深度推理
GUI交互操作：涉及图形界面的任务，AI表现差
误报验证：AI发现的漏洞需要人工确认有效性
攻击链创意：将多个低危组合成高危攻击链，仍需人类判断

4.3 结论：AI不是替代者，是放大器

斯坦福研究给出的结论很克制：“AI不会取代安全专家，但会用AI的安全专家将取代不会用AI的。”

第五章给SRC猎人的“AI协同作战指南”

5.1 用AI做侦察，别让它做主攻

AI能做的事：

自动化子域名挖掘（OneForAll、Chaos）
证书透明度提取（crt.sh + jq）
云AK/SK狩猎（TruffleHog）
技术栈识别（Wappalyzer）

你该做的事：

确认AI发现的目标在授权范围内
人工验证AI发现的潜在漏洞
深入挖掘逻辑漏洞和业务缺陷

5.2 用AI做提示词，别让它写Payload

AI的强项是理解意图、生成思路，而不是精确构造攻击链。让它帮你梳理测试点、生成测试用例模板，但最终Payload需要你亲自构造和验证。

5.3 保持“人在回路”

OpenClaw安全分析的核心结论是：永远不要让AI在没有监督的情况下执行高风险操作。

在你的挖洞流程中：

信息收集阶段：AI可以全自动
漏洞验证阶段：AI辅助分析，你最终判断
漏洞利用阶段：你亲手操作

5.4 别忽视“边缘资产”

AI最擅长的是扩大攻击面。用ENScan_GO拉取子公司资产，用crt.sh提取隐蔽域名，用TruffleHog扫描GitHub历史——这些AI能帮你快速完成，而你需要做的，是在这些“边缘资产”上深入挖掘。

第六章未来展望：AI安全市场的百亿级机会

OpenClaw带来的安全焦虑，正在催生一个百亿级新市场——Agent Security（智能体安全）。

TechNavio预测，2024-2029年全球生成式AI网络安全市场复合年增长率为35.4%，2029年将达148.8亿美元。

微软、CrowdStrike、Fortinet、Darktrace已入场。360推出安全智能体，奇安信推出大模型安全评估服务。

云厂商的应对策略是“阉割”OpenClaw的权限——在腾讯云、阿里云部署的版本，运行时扩展、工具调用等核心能力被大幅限制。但这引出一个问题：为了安全砍掉所有核心能力，用户部署的意义何在？

未来的平衡点可能是系统级微隔离：为Agent的每一个任务生成微型虚拟机，无论它怎么折腾，影响只限于这个“气泡”内。

第七章写在最后：龙虾不能替你挖洞，但能让你挖得更多

回到标题的问题：OpenClaw能代替渗透测试吗？

答案很明确：不能。

但它的意义不在于“替代”，而在于放大。一个会用AI的渗透测试员，资产收集速度快10倍，漏洞验证效率高5倍，边缘资产覆盖广3倍。这才是“龙虾”的真正价值。

CVE-2026-1731的发现者不是AI，是用AI的漏洞研究员。斯坦福击败9成人类的不是AI，是人类设计的AI框架。XBOW的1060个漏洞背后，是人类构建的安全护栏。

AI时代，最强的渗透测试员不是AI，也不是人类——是人机协同的“新物种”。

你不必担心被AI取代，但要警惕被“会用AI的同行”取代。

参考资料

Zhengyang Shan et al. “Don’t Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw.” arXiv:2603.10387v1, 2026.
GitCode开源社区. “SRC漏洞挖掘实战指南：2026年云原生到AI攻防全攻略.” 2026.
Justin W. Lin et al. “Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing.” arXiv:2512.09882v2, 2026.
Intel 471. “CVE-2026-1731: Finding a critical RCE in an age of AI-driven vulnerability research.” 2026.
36氪. “谁来防御桌面Agent的危险边界.” 2026.
CSDN博客. “2026SRC漏洞挖掘实战技巧（新手必看，附工具+案例）.” 2026.
XBOW. “We Ran 1,060 Autonomous Attacks. Here’s What the Industry Gets Wrong.” 2026.
Bitcoin News. “Openclaw AI Skills Vulnerable to Malicious Exploits, Certik Researchers Warn.” 2026.

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：逍遥子讲安全《龙虾真能代替渗透测试吗？AI挖洞的真相与谎言》