文章总结: 本文深度解析了俄罗斯网安巨头开源的PentAGI项目,这是一个基于大语言模型的多智能体自主渗透测试框架。核心观点是实现了从自动化脚本到自主化专家集群的范式转移,通过13个垂直领域的专项Agent协同工作,解决了LLM上下文瓶颈,将红队专家的直觉转化为可编程的思维链,覆盖从资产发现到后渗透的逻辑闭环。项目体现了分而治之、状态机驱动和解耦设计等工程思想,旨在解决专家资源稀缺、关联分析难和实现24/7持续性测试等痛点,但也指出其在0-day发现、稳定绕过高级防御及效率方面存在局限。其分层Agent架构和基于RAG的工具参数映射等设计思路可迁移至自动化代码审计、智能运维等领域。 综合评分: 85 文章分类: 渗透测试,AI安全,红队,安全工具,安全建设
渗透测试:俄罗斯网安巨头开源项目PentAGI 项目深度解析报告
原创
夸父 夸父
穹苍经略
2026年2月25日 08:00 北京
核心观点:
1.范式转移:Pentagi 标志着红队工具从“自动化脚本集”向“自主化专家集群”的飞跃,利用 LLM 实现了从资产发现到后渗透的逻辑闭环。
2.多智能体协同:通过 13 个垂直领域的专项 Agent 解决 LLM 上下文瓶颈,实现了渗透测试在复杂环境下的高内聚、低耦合。
3.工程价值:该项目成功地将红队专家的直觉转化为可编程的思维链(CoT),为 AIOps 和自动化安全审计提供了成熟的架构模板。
一、项目背景与定位
随着攻击面的不断扩大,传统扫描器由于缺乏逻辑推理能力,在面对组合漏洞和复杂内网环境时显得捉襟见肘。Pentagi 作为一个基于大语言模型(LLM)的多智能体自主渗透测试框架,旨在构建一个“红队自动驾驶仪”。
其核心在于将渗透测试的全生命周期:从信息搜集(Recon)到清理撤离(Cleanup)- 交由一个具备自主思考、工具调用与结果自愈能力的专家系统。实现了渗透测试全生命周期的无人值守或低人工干预运行,将安全专家的经验转化为了可扩展、可并发的数字劳动力。
二、整体架构与技术全景
Pentagi 采用了典型的 Agentic Workflow(智能体工作流) 架构,从逻辑上分为四个层级:
●推理引擎层:兼容 GPT-4, Claude 3.5, Llama 3 等主流模型,负责指令理解与逻辑推理。
●规划协调层:核心组件为Orchestrator,负责任务拆解与状态转移。
●工具抽象层:将物理安全工具(Nmap, Metasploit, Sqlmap 等) API 化,供 Agent 调用。
●沙箱执行层:基于容器技术,确保攻击行为在隔离环境中执行,防止对宿主机造成污染。
三、核心引擎:13个专项 Agent 职能分类
Pentagi 的先进性在于其精细化的分工。系统根据渗透测试的职能逻辑,设计了五大类13个智能体,每个 Agent 都有独立的 System Prompt 和思维链(CoT)逻辑:
1. 指挥与情报集群
●Orchestrator (编排者):全局指挥官,负责任务拓扑拆解、冲突解决与失败回溯。
●Search/Research (研究者):外部情报窗口,实时爬取 CVE/PoC,将非结构化情报转化为执行参数。
2. 资产侦察集群
●Recon (侦察者):侧重于“面”,处理子域名、OSINT 等信息,绘制资产关联图。
●Scan (扫描者):侧重于“点”,精通端口指纹识别,动态调整扫描深度。
3. 专项利用集群
●Web Agent (Web 专家):专注 OWASP Top 10,具备逻辑漏洞的链式探测能力。
●Network Agent (网络专家):处理内网协议攻击(SMB/AD/Kerberos等)。
●Cloud Agent (云专家):针对 IAM 配置错误与云原生组件漏洞。
●DB Agent (数据库专家):负责数据提取、UDF 提权及特定数据库命令。
●OS Agent (系统专家):处理二进制文件、内核漏洞及系统调用分析。
4. 权限深挖集群
●Privesc Agent (提权专家):枚举系统配置,寻找低风险本地提权路径。
●Post-Exploit (后渗透专家):负责横向移动、凭据窃取与敏感数据搜索。
5. 任务收尾集群
●Cleanup Agent (清理专家):足迹抹除,恢复目标系统初始状态。
●Reporting Agent (报告专家):自动生成攻击链图谱与合规修复报告。
四、业务流程解析:从应用到实现
【业务流:用户视角】
1.定义边界:用户在Web UI或配置文件中定义目标IP/域名、时间窗口、黑白名单。
2.启动任务:输入“检查该IP段是否存在严重的数据库泄露风险”。
3.思维监视:用户实时查看Orchestrator的思维导图,了解当前哪个专家Agent正在工作(例如:正在调度DB Agent尝试延时注入)。
4.确认高危操作 (Human-in-the-loop):对于可能导致服务宕机的 Exploit,系统弹出“请求授权”按钮,用户确认后方可执行。
5.交互微调:用户可以随时打断 Agent,输入“优先看 8080 端口”,Agent 会即时调整任务队列优先级。
6.成果交付:任务结束后下载 PDF 报告,包含完整的攻击路径图和 PoC 证明。
【技术流:底层实现】
1.任务生成:LLM 将模糊指令解析为结构化的任务树(JSON 格式)。
2.上下文注入:系统将“全局资产指纹 + 历史操作记录 + 当前 Agent 专家提示词”拼接到 Prompt 中。
3.工具适配:Agent 输出特殊的伪代码块,通过解析层映射到 Docker 容器内的 nmap -sV … 命令。
4.回显摘要:由于安全工具日志冗长,系统先用一个轻量级 LLM 进行特征提取(如:仅保留 Server Banner 和报错核心行),以节省主模型的 Token。
5.反思反馈:如果操作失败,Agent 需输出Fail Reason并由 Orchestrator决定是否请求Research Agent获取新的Payload。
6.状态持久化:使用关系型数据库记录任务状态,向量数据库存储长短期记忆。
五、价值评估
它体现了哪些工程思想?
●分而治之:将复杂的渗透逻辑原子化为 13 个 Agent,解决了单 Prompt 性能下降的问题。
●状态机驱动:通过Orchestrator维护全局状态,确保了攻击行为的连续性与逻辑性。
●解耦设计:工具执行(Docker)与决策逻辑(LLM)解耦,使得底层工具可以随时无感替换。
它解决了哪些真实痛点?
●专家资源稀缺:自动化了红队基础侦察和初级利用,让高级安全专家专注于复杂逻辑和 0-day 挖掘。
●关联分析难:AI 能在海量端口和 Web 参数中发现人类容易忽视的弱关联。
●24/7 持续性:不像人工测试受限于精力,Agent 可以不间断地寻找攻击面。
哪些只是“AI 热点包装”?
●0-day 发现能力:LLM 本质是基于已知知识的预测,对于完全未知的原生漏洞,其发现能力远弱于专用 Fuzzer。
●绕过防御的稳定性:面对高级 EDR 或 WAF 的动态防御,AI Agent 往往因为 Payload 构造的微小语法偏差而轻易暴露。
●效率假象:由于 LLM 推理延迟和多轮对话开销,其速度在特定场景下可能慢于经过优化的传统脚本。
哪些设计可以迁移到别的项目?
●Hierarchical Agent 架构:这种“主管-专家-工人”的模式可完美迁移到自动化代码审计、智能运维(AIOps)等领域。
●基于 RAG 的工具参数映射:利用 LLM 将非结构化文档转化为结构化工具调用参数的设计思路。
●自动化清理:在任何自动化变更系统中,这种“痕迹恢复”思想都是确保环境稳定性的最佳实践。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:穹苍经略 夸父 夸父《渗透测试:俄罗斯网安巨头开源项目PentAGI 项目深度解析报告》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论