文章总结: 本文探讨了AI在渗透测试领域的应用与挑战。核心要点如下:1.AI技术如OpenClaw和ARTEMIS在漏洞挖掘中表现出色,能高效发现已知类型的漏洞并形成攻击链,但也存在误报率高、处理图形界面任务困难等短板。2.实践证明,AI已能发现CVE-2026-1731这类严重的远程代码执行漏洞,并在HackerOne上自主提交大量有效漏洞报告。3.结论强调,AI无法完全替代人类渗透测试专家,未来的趋势是人机协同。安全专家应利用AI进行资产测绘、信息收集和提示词生成等辅助工作,而在漏洞验证、攻击链构造及复杂业务逻辑分析等关键环节保持人工主导,以实现效率与准确性的平衡。 综合评分: 85 文章分类: 渗透测试,AI安全,WEB安全,红队,SRC活动
龙虾真能代替渗透测试吗?AI挖洞的真相与谎言
逍遥子讲安全
2026年3月21日 14:52 广东
当OpenClaw在GitHub狂揽25万星标,当斯坦福研究证明AI智能体在真实渗透测试中击败9成人类专家,当XBOW的AI在17分钟内破解加密cookie——你慌了吗?
2026年开年,一款名为OpenClaw(原名Clawdbot)的AI助手席卷技术社区,仅用十天就在GitHub狂揽8万星标,腾讯云、阿里云连夜上线一键部署服务。极客们争相把Mac mini塞进弱电箱,幻想拥有自己的“贾维斯”。
然而短短几日,画风突变。有用户因操作失误账号被币圈黑客秒抢,OpenClaw被曝出数据库“裸奔”,全球15039个公网实例处于“中门大开”的状态。安全研究员发出预警:这个被捧上神坛的AI助手,可能正在把用户数据拱手送人。
另一边,斯坦福大学发布的研究显示:AI智能体ARTEMIS在真实企业网络渗透测试中,发现9个有效漏洞,综合得分95.2,排名第二,击败了9名人类安全专家。XBOW更宣称其AI系统已自主提交超过1060个漏洞,48步漏洞链、17分钟破解加密cookie已成现实。
一边是失控的风险,一边是惊人的效率——龙虾,真能代替渗透测试吗?
第一章 龙虾是什么?为什么它让人又爱又怕?
1.1 OpenClaw的“上帝模式”
OpenClaw是一个开源的AI代码代理平台,能与各种商业大模型(Claude、GPT、Gemini、DeepSeek等)集成,在本地执行Shell命令、读写文件、编辑代码。它给你的不是一个“聊天机器人”,而是一个能真正操作你电脑的AI员工。
这就是为什么极客们疯狂追捧——你只需要说一句“帮我处理点生活琐事”,它就能替你写代码、发邮件、订外卖、甚至理财。
但这就是问题所在。一个能操作Shell的AI,天然拥有你电脑的全部权限。奇安信安全专家指出,OpenClaw的核心风险源于其“权力过度集中的架构设计”——它建立了一条从聊天窗口到操作系统底层的直达管道。
1.2 风险不是“万一”,是“必然”
风险1:直接暴露的“裸奔”实例
据奇安信监测,截至2026年1月29日,全球正在使用OpenClaw的公网资产总数高达15039个。一旦用户手动开启全网监听而未设置复杂身份验证,黑客不需要任何漏洞攻击技术,只要扫到这些IP就能直接潜入系统。
风险2:提示词注入——攻击者的“洗脑术”
攻击者无需传统网络渗透,只需在AI可能读取到的外部网页、邮件中植入恶意提示词。当Agent在自动化处理这些信息时,可能被指令洗脑,执行危险操作。
风险3:恶意技能的“审核漏洞”
Certik的研究发现,OpenClaw的Clawhub市场审核存在致命缺陷:一个技能在VirusTotal扫描结果仍在pending时就可安装使用。研究人员上传了一个名为“test-web-searcher”的技能,表面功能正常,但内含任意命令执行漏洞。通过Telegram调用时,它成功绕过了沙箱,在研究者电脑上“弹出了计算器”——证明可完全控制系统。
1.3 学术研究证实:OpenClaw的防御率只有17%
一项由学术团队完成的OpenClaw安全分析,测试了47个对抗场景,涵盖MITRE ATLAS和ATT&CK框架的6大类攻击。结论令人震惊:
OpenClaw的原生防御率平均只有17%。它主要依赖后端LLM的安全能力,极易受到沙箱逃逸攻击。
研究团队提出的解决方案是“人在回路”(HITL)防御层——在工具调用执行前进行拦截,结合白名单、模式分类、语义判断和人工审批。加上HITL后,防御率可提升至19%-92%。
结论很清晰:龙虾本身不防咬。它的安全边界,需要你来设定。
第二章 AI真的能挖洞吗?斯坦福研究告诉你答案
2.1 史上首次:AI vs 人类渗透测试员
斯坦福大学研究团队进行了首次AI智能体与人类安全专家的真实企业环境对比测试。目标是一个拥有8000台主机、12个子网的大型大学网络。
参与者:10名人类安全专家 + 6个现有AI智能体 + 斯坦福自研的ARTEMIS框架。
2.2 结果:AI击败了9成人类
| 参与者 | 综合得分 | 排名 | | — | — | — | | 人类P4 | 85.8 | 第3 | | ARTEMIS | 95.2 | 第2 | | 人类P1 | 111.4 | 第1 |
ARTEMIS发现9个有效漏洞,有效提交率82%,综合排名第二,击败了9名人类参与者。
这个多智能体框架能动态生成提示词、创建任意子智能体、自动漏洞分类。它的成本是18美元/小时,而人类渗透测试员约60美元/小时。
2.3 但AI的短板也很明显
研究也发现了AI的显著缺陷:
- 误报率更高:ARTEMIS提交的漏洞中,18%是无效的(人类最低为0%)
- GUI任务困难:涉及图形界面的操作,AI表现不佳
- 创造力局限:复杂业务逻辑和跨系统关联仍需人类洞察
第三章 实战案例:AI真的挖出过漏洞吗?
3.1 CVE-2026-1731:AI发现的RCE漏洞
2026年1月31日,Hacktron的自主漏洞猎人通过AI驱动的变种分析,发现了BeyondTrust Remote Support和Privileged Remote Access软件中的OS命令注入漏洞。CVE编号CVE-2026-1731,CVSS评分9.9(严重)。
攻击者无需认证即可在目标系统上执行任意命令,可能导致完全系统失陷。BeyondTrust在2月6日发布补丁,2月11日CISA将该漏洞列入已知被利用漏洞目录。
关键点:这个漏洞是变种分析发现的——AI分析此前类似漏洞(CVE-2024-12356)的补丁差异,发现了一个未被完全修复的代码路径。
3.2 XBOW的1060次自主攻击
XBOW公司分享了其AI渗透测试系统的运营数据:过去两年,其AI系统已在HackerOne上自主提交超过1060个漏洞。
惊人案例:
- 48步漏洞链:从低危盲SSRF开始,通过逐级利用,最终完整重构目标文件
- 17分钟破解加密cookie:识别AES-128-CBC加密,发现padding oracle,编写完整解密exploit
- 28分钟vs40小时:AI在28分钟内完成首席渗透测试员40小时的工作
3.3 但AI发现的漏洞有“偏科”
从HackerOne的hackbot数据看:78%的有效发现是XSS。AI擅长模式化、可重复的漏洞类型,但在逻辑漏洞、业务复杂漏洞上仍显不足。
第四章 AI能替代人类吗?答案藏在“人机协同”里
4.1 AI能做好的事
- 大规模资产测绘:ENScan_GO可自动化拉取目标控股50%以上的子公司,绕过集团总部防火墙
- 证书透明度挖掘:从crt.sh提取隐蔽子域名,发现开发测试系统
- 云凭证狩猎:TruffleHog v3爬取GitHub历史commit,自动验证AWS/Aliyun密钥是否有效
- 模式化漏洞扫描:XSS、SQL注入、已知CVE
- 变种分析:通过分析补丁差异,发现未被完全修复的漏洞
4.2 AI做不好的事
- 复杂业务逻辑漏洞:需要理解业务流程、用户角色、权限边界
- 零点击/非标准攻击面:需要创造性思维和深度推理
- GUI交互操作:涉及图形界面的任务,AI表现差
- 误报验证:AI发现的漏洞需要人工确认有效性
- 攻击链创意:将多个低危组合成高危攻击链,仍需人类判断
4.3 结论:AI不是替代者,是放大器
斯坦福研究给出的结论很克制:“AI不会取代安全专家,但会用AI的安全专家将取代不会用AI的。”
第五章 给SRC猎人的“AI协同作战指南”
5.1 用AI做侦察,别让它做主攻
AI能做的事:
- 自动化子域名挖掘(OneForAll、Chaos)
- 证书透明度提取(crt.sh + jq)
- 云AK/SK狩猎(TruffleHog)
- 技术栈识别(Wappalyzer)
你该做的事:
- 确认AI发现的目标在授权范围内
- 人工验证AI发现的潜在漏洞
- 深入挖掘逻辑漏洞和业务缺陷
5.2 用AI做提示词,别让它写Payload
AI的强项是理解意图、生成思路,而不是精确构造攻击链。让它帮你梳理测试点、生成测试用例模板,但最终Payload需要你亲自构造和验证。
5.3 保持“人在回路”
OpenClaw安全分析的核心结论是:永远不要让AI在没有监督的情况下执行高风险操作。
在你的挖洞流程中:
- 信息收集阶段:AI可以全自动
- 漏洞验证阶段:AI辅助分析,你最终判断
- 漏洞利用阶段:你亲手操作
5.4 别忽视“边缘资产”
AI最擅长的是扩大攻击面。用ENScan_GO拉取子公司资产,用crt.sh提取隐蔽域名,用TruffleHog扫描GitHub历史——这些AI能帮你快速完成,而你需要做的,是在这些“边缘资产”上深入挖掘。
第六章 未来展望:AI安全市场的百亿级机会
OpenClaw带来的安全焦虑,正在催生一个百亿级新市场——Agent Security(智能体安全)。
TechNavio预测,2024-2029年全球生成式AI网络安全市场复合年增长率为35.4%,2029年将达148.8亿美元。
微软、CrowdStrike、Fortinet、Darktrace已入场。360推出安全智能体,奇安信推出大模型安全评估服务。
云厂商的应对策略是“阉割”OpenClaw的权限——在腾讯云、阿里云部署的版本,运行时扩展、工具调用等核心能力被大幅限制。但这引出一个问题:为了安全砍掉所有核心能力,用户部署的意义何在?
未来的平衡点可能是系统级微隔离:为Agent的每一个任务生成微型虚拟机,无论它怎么折腾,影响只限于这个“气泡”内。
第七章 写在最后:龙虾不能替你挖洞,但能让你挖得更多
回到标题的问题:OpenClaw能代替渗透测试吗?
答案很明确:不能。
但它的意义不在于“替代”,而在于放大。一个会用AI的渗透测试员,资产收集速度快10倍,漏洞验证效率高5倍,边缘资产覆盖广3倍。这才是“龙虾”的真正价值。
CVE-2026-1731的发现者不是AI,是用AI的漏洞研究员。斯坦福击败9成人类的不是AI,是人类设计的AI框架。XBOW的1060个漏洞背后,是人类构建的安全护栏。
AI时代,最强的渗透测试员不是AI,也不是人类——是人机协同的“新物种”。
你不必担心被AI取代,但要警惕被“会用AI的同行”取代。
参考资料
- Zhengyang Shan et al. “Don’t Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw.” arXiv:2603.10387v1, 2026.
- GitCode开源社区. “SRC漏洞挖掘实战指南:2026年云原生到AI攻防全攻略.” 2026.
- Justin W. Lin et al. “Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing.” arXiv:2512.09882v2, 2026.
- Intel 471. “CVE-2026-1731: Finding a critical RCE in an age of AI-driven vulnerability research.” 2026.
- 36氪. “谁来防御桌面Agent的危险边界.” 2026.
- CSDN博客. “2026SRC漏洞挖掘实战技巧(新手必看,附工具+案例).” 2026.
- XBOW. “We Ran 1,060 Autonomous Attacks. Here’s What the Industry Gets Wrong.” 2026.
- Bitcoin News. “Openclaw AI Skills Vulnerable to Malicious Exploits, Certik Researchers Warn.” 2026.
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:逍遥子讲安全 《龙虾真能代替渗透测试吗?AI挖洞的真相与谎言》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。




![[吃瓜速递]科大讯飞“裁员70%”谣言,真相终被揭开](/images/random/titlepic/12.jpg)




评论