2026-03-04 11:05:33 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文档是一个关于大型语言模型在自动化渗透测试领域应用的精选资源列表，汇集了相关学术论文、技术博客、开源代码、实用工具和评估基准。文档详细列举了LLM在渗透测试、漏洞挖掘、安全分析等方面的研究进展和实际应用，包括多种AI驱动的渗透测试框架、自动化攻击工具和评估平台。该资源为安全研究人员提供了全面的参考资料，展示了AI技术在网络安全领域的最新发展趋势和实践应用。 综合评分： 78 文章分类： 渗透测试,AI安全,安全工具,漏洞分析,安全建设

cover_image

LLM4Pentest: LLM 赋能自动化渗透测试

原创

黄诚课题组黄诚课题组

安全学术圈

2026年3月2日 15:38 四川

English | 中文

一个精选的、关于大型语言模型在自动化渗透测试领域应用的资源列表。本仓库汇集了相关的学术论文、技术博客、开源代码、实用工具和评估基准。

欢迎通过 Pull Request 贡献更多资源！

论文

这里是关于 LLM 用于渗透测试、漏洞挖掘、安全分析等方面的学术论文。

HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities 📊 2026 | 🟥 CCF-A | 🏷️ ICLR | 📋 代码
Cyber-Zero: Training Cybersecurity Agents without Runtime 📊 2026 | 🟥 CCF-A | 🏷️ ICLR | 📋 代码
What Makes a Good LLM Agent for Real-world Penetration Testing? 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
PTFusion: LLM-driven Context-aware Knowledge Fusion for Web Penetration Testing 📊 2026 | ⬜ CCF-None | 🏷️ Information Fusion | 📋 代码
LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks 📊 2026 | ⬜ CCF-None | 🏷️ Empirical Software Engineering | 📋 代码
Cyber-Zero: Training Cybersecurity Agents without Runtime 📊 2026 | 🟥 CCF-A | 🏷️ ICLR | 📋 代
HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities 📊 2026 | 🟥 CCF-A | 🏷️ ICLR | 📋 代码
EnIGMA: Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities 📊 2025 | 🟥 CCF-A | 🏷️ ICLR | 📋 代码
Automating web application vulnerability detection: a generative AI and security tool based penetration testing framework 📊 2025 | ⬜ CCF-None | 🏷️ BRAC University | 📋 代码
Multi-Agent Penetration Testing AI for the Web 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks 📊 2025 | 🟥 CCF-A | 🏷️ TOSEM | 📋 代码
Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements 📊 2025 | ⬜ CCF-None | 🏷️ UMAP | 📋 代码
RedTeamLLM: An Agentic AI Framework For Offensive Security 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
PentestEval: Benchmarking LLM-based Penetration Testing with Modular and Stage-Level Design 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
VulnBot: Autonomous Penetration Testing for a Multi-Agent Collaborative Framework 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
A Unified Modeling Framework for Automated Penetration Testing 📊 2025 | 🟩 CCF-B | 🏷️ Computers & Security | 📋 代码
Measuring and Augmenting Large Language Models for Solving Capture-the-Flag Challenges 📊 2025 | 🟥 CCF-A | 🏷️ ACM CCS | 📋 代码
RefPentester: A Knowledge-Informed Self-Reflective Penetration Testing Framework Based on Large Language Models 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing 📊 2025 | 🟦 CCF-C | 🏷️ AsiaCCS | 📋 代码
CAI: An Open, Bug Bounty-Ready Cybersecurity AI 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
Pentest-R1: Towards Autonomous Penetration Testing Reasoning Optimized via Two-Stage Reinforcement Learning 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
On the Surprising Efficacy of LLMs for Penetration-Testing 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
Incalmo: An Autonomous LLM-assisted System for Red Teaming Multi-Host Networks 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
Automated Penetration Testing with LLM Agents and Classical Planning 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
RapidPen: Fully Automated IP-to-Shell Penetration Testing with LLM-based Agents 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
BreachSeek: A Multi-Agent Automated Penetration Tester 📊 2024 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
AutoPentest: Enhancing Vulnerability Management With Autonomous LLM Agents 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
ARACNE: An LLM-Based Autonomous Shell Pentesting Agent 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
xOffense: An AI-driven Autonomous Penetration Testing Framework with Offensive Knowledge-enhanced LLMs and Multi-Agent Systems 📊 2025 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models 📊 2024 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
SoK: A Comparison of Autonomous Penetration Testing Agents 📊 2024 | ⬜ CCF-None | 🏷️ ARES | 📋 代码
HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing 📊 2024 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
An Empirical Evaluation of LLMs for Solving Offensive Security Challenges 📊 2024 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing 📊 2024 | 🟥 CCF-A | 🏷️ USENIX | 📋 代码
NYU CTF Bench: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security 📊 2024 | 🟥 CCF-A | 🏷️ NeurIPS | 📋 代码
AutoAttacker: A Large Language Model Guided System to Implement Automatic Cyber-attacks 📊 2024 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
PENTEST-AI: An LLM-Powered Multi-Agents Framework for Penetration Testing Automation Leveraging MITRE ATT&CK 📊 2024 | ⬜ CCF-None | 🏷️ CSR | 📋 代码
Getting pwn’d by AI: Penetration Testing with Large Language Models 📊 2023 | 🟥 CCF-A | 🏷️ FSE/ESEC | 📋 代码
Using Large Language Models for Cybersecurity Capture-The-Flag Challenges and Certification Questions 📊 2023 | ⬜ CCF-None | 🏷️ arXiv | 📋 代码
Language Agents as Hackers: Evaluating Cybersecurity Skills with Capture the Flag 📊 2023 | 🟥 CCF-A | 🏷️ MASEC@NeurIPS’23 | 📋 代码
An Empirical Survey of Functions and Configurations of Open-Source Capture the Flag (CTF) Environments 📊 2023 | 🟦 CCF-C | 🏷️ JNCA | 📋 代码

博客

这里是来自安全研究员、团队或公司的深度技术博客和分析文章。

Penetration Testing with AI – Part 3 (BHIS)
展示 LLM 在扫描、漏洞利用与报告生成阶段的实际应用，涵盖 AI 如何协助信息收集、攻击面分析与结果总结。
Generative AI for Offensive Security
介绍生成式 AI 在自动化攻击模拟（BAS）与渗透测试流程中的应用，重点展示如何实现持续攻击面管理与威胁发现。
Using AI for Offensive Security
探讨 AI 在渗透测试平台中的集成方式，包括智能任务分配、辅助漏洞分析与报告生成流程。
Offensive AI Use Cases
讨论 AI 在攻击模拟、红队自动化与对抗性测试中的应用场景与潜在风险。
Top AI Pentesting Tools 2025
汇总 2025 年主流 AI 辅助渗透测试工具，分析其功能定位、使用场景与安全建议。
AI Pentesting Methodology
介绍其 AI 渗透测试工具 RidgeBot 的方法论，展示 AI 如何自动执行侦察、漏洞挖掘、利用和横向移动的完整渗透测试生命周期。
GenAI & Autonomous Security Testing
讨论在 GenAI 时代，为何自主安全测试（如其 NodeZero 平台）变得更加重要，强调 AI 自动化平台在应对 AI 驱动威胁时的必要性。
AI PenTesting Governance
分析 AI 渗透测试中的治理与控制问题，关注授权边界、模型决策透明度与审计要求。
AI vs Human Expertise
探讨 AI 与人类专家在渗透测试中的角色差异，分析自动化与人工智能协作的未来趋势。
How AI will Impact Automated Pentesting
展望 AI 如何重塑自动化渗透测试的未来，讨论其在速度、规模和识别复杂威胁方面相比传统方法的优势。
AI自动化渗透测试的迷雾与工程实践——揭秘XBOW
深入剖析了由前GitHub安全团队创立的AI自动化渗透测试平台XBOW的技术架构和工程实践。文章揭示了XBOW如何通过“人机协作”的混合架构（即：LLM负责创造性攻击探索，确定性代码负责严格验证）解决大模型在漏洞挖掘中误报率极高的本质问题。
Automate PenTesting Pipeline
讲解如何将 LLM/AI agent 融入 DevSecOps 流水线，实现自动化渗透测试与安全验证，包含权限控制与审计日志方案。
Introducing advanced tool use on the Claude Developer Platform
Anthropic推出三大Beta功能：工具搜索（动态发现工具）、程序化调用（代码执行减少上下文负载）和使用示例（提升准确性），优化Claude工具使用效率。
7天Top 9：我如何让 Claude 手搓一个全自动 CTF 选手
该项目在7天内利用Claude开发自动CTF工具，获腾讯云黑客松第9名。核心采用双Agent协作架构，以顾问Agent审查避免幻觉。工具设计极简，仅三个关键工具。
AI for 安全攻防：自动化渗透 Agent 的工程设计与实践
文章提出AI攻防自动化渗透Agent设计实践，获腾讯云黑客松第4名，创新APG结构化专家经验与Meta-Tooling代码编排，解决上下文爆炸与低效问题，实现高效攻防。
Code execution with MCP: Building more efficient agents
Anthropic提出用代码替代直接调用MCP工具，按需加载、过滤数据，降token提效，支持隐私保护与状态持久。
HexStrike【6.0】AI自动渗透体验
介绍HexStrike AI
咋办，想让安全GPT Agent天天给我打工了！
介绍安全GPT
AI 大模型已从网络攻击辅助工具升级为核心攻击武器
Brief intro:攻击者不再仅用人工智能工具提升效率，而是将其深度融入攻击全链条，部署具备动态行为的 AI 增强型恶意软件。
美网军斥资千万美元聘用AI黑客，开发自动化网络战武器
Twenty致力于开发进攻性AI代理和大规模自动化入侵外国目标的能力，已获得美国网军最高达1260万美元的合同，福布斯称这或许是美军网络战自动化能力的一次跃升。
【AI自主渗透测试平台】让安全测试像聊天一样简单
AI自主渗透测试平台-基于Golang构建，内置上百个安全工具，支持灵活扩展自定义工具，通过MCP协议实现AI智能决策与自动化执行
让AI成为你的网络安全专家！Strix自动发现应用漏洞
Strix是一个基于AI的开源安全测试框架，它配备了多个专门的AI智能体，像真正的黑客一样协作，动态测试你的应用程序并寻找安全漏洞。与传统扫描工具不同，Strix不仅发现漏洞，还会实际验证漏洞的有效性，提供真实可靠的安全报告。
一个开源的全球通用漏洞库 | 统一漏洞搜索平台
GlobalCVE 是一个统一的开源漏洞情报中心，致力于聚合和提供全球范围内的漏洞信息。该项目以清晰度、协作和安全性为核心设计理念，旨在为安全研究人员、开发者和组织提供全面的漏洞数据。
智能化攻击面检测技术与实践
灵洞Ai.Vul
CyberStrikeAI—— AI自主渗透测试平台
CyberStrikeAI介绍
【AI自动渗透】strix 使用记录
strix 使用记录
一款人工智能驱动的高性能漏洞扫描器 — Deep-Eye
整合了多家人工智能供应商（OpenAI、Grok、OLLAMA、Claude）的能力，可在不同供应商之间动态切换，并配备全面的安全测试模块，具备45种以上攻击方法，可实现自动化漏洞挖掘、智能有效负载生成以及专业报告输出。支持基于团队的分布式扫描，并具备会话管理功能。
用Ai做自动化渗透测试对CTF题目进行解密|CTF网络安全大赛
AiScan-N介绍
EHole(棱洞)3.0 红队重点攻击系统指纹探测工具
EHole 3.0（棱洞 3.0）是一款专为红队和渗透测试人员设计的高级指纹探测工具，能够通过多种网络协议快速识别目标系统的漏洞、服务版本和安全弱点。它自动化地进行系统指纹识别和漏洞扫描，隐蔽性强，减少被防火墙和IDS/IPS监测的风险。
渗透测试信息收集终极指南：构建全域攻击面视图
系统化地阐述渗透测试中的信息收集阶段，其深度和广度直接决定了渗透测试的最终成效。
AI 代打 CTF？用 Cursor + MCP 打造你的全栈自动化攻防智能体
利用最新的 MCP (Model Context Protocol) 协议，配合 Cursor 编辑器和 Docker 容器，打造一个全自动 CTF 解题智能体。
哪种 AI 模型在黑客攻击方面最佳？11 款 LLMs 基准测试
对 11 款 LLMs 进行了基准测试，与 32 项黑盒网络黑客挑战，以确定哪个模型在攻击性安全方面表现最佳。
推荐一个无审查的模型，特别适合渗透测试等安全工作
DeepHat（原名WhiteRabbitNeo）是一个专门为网络安全设计的开源大语言模型，在2024年更名后成为业内首个真正”无审查”的安全AI模型。
渗透测试用MCP调用工具，有点画蛇添足，合理的方法有两种
LLM赋能的渗透测试工具，目前基本可以分为两个大的流派，用MCP和直接调用工具，前者从Kali MCP到Hexstrike AI，后者则更多，象之前跟踪的PentestGPT,CAI，以及最近比较热的Strix,Autopentester等,各有特点，也各有问题。
Hexstrike AI在多个工具及模型上的渗透测试表现
LLM辅助渗透测试，其能力取决于工具，也取决于模型的能力，如何找到合适的匹配，需要多种尝试和分析。Hexstrike AI是一个基于MCP的服务，理论上，所有MCP客户端和模型都可以用，但在各种情况下，其表现并不相同。
利用Claude Skills完成AI自动化渗透
Claude Skills在自动化渗透的应用思路
【红队】基于AI的自主渗透测试平台
KaliGPT-Attack Platform 是一个创新的AI驱动的自主渗透测试工具，采用独特的三模块架构（推理、生成、解析），有效解决了传统LLM在长时间渗透测试过程中的上下文丢失问题。
KaliGPT-Attack Platform：AI 驱动的渗透测试技术实现与实战解析
KaliGPT-Attack Platform 作为 AI 原生渗透测试工具，通过创新架构设计与技术整合，实现了渗透测试全流程的自主化与智能化，为安全测试领域提供了高效技术解决方案。
CC直接用，Manus核心Context技术被人做成了Skills
planning-with-files是开源社区最近疯传的一个Skill，发布仅四天收获3.3k star。目前还在持续增长。
[RedTeamLLM] 自动化渗透测试中应用Agentic AI
RedTeamLLM提出了一种“任务分解 + 推理 + 行动 + 记忆”的自动化渗透工具框架，在没有人工介入的前提下，显著提升了自动化渗透测试的完成度与效率。
OpenAI拉响“高危”警报，CTF胜率从27%飙升至76%！
OpenAI 发出了一项令人瞩目的预警：其正在筹备的人工智能模型即将触及网络安全风险的“高（High）”等级。
DeepWiki
DeepWiki为世界上的每个仓库提供可对话的最新文档。把它当作GitHub的深度研究。
WebTrap Park： Web Agent安全自动化测试靶场
无需修改现有Web Agent、无需邮件联系、直接开箱即用的Web Agent安全自动化测试靶场已正式上线！

代码

这里是相关研究的实现代码、PoC 或开源项目。

💻PentestGPT

一句话简介：PentestGPT 的官方代码
相关论文：PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing
GitHub：https://github.com/GreyDGL/PentestGP
核心亮点： 框架包含三个核心模块：推理模块、生成模块和解析模块。每个模块都保留一个具有其对话和上下文的 LLM 会话。用户与 PENTESTGPT 无缝交互，其中不同的模块处理不同类型的消息。这种交互最终形成一个最终决策，建议用户应承担的渗透测试过程的下一步。

💻GHOSTCREW

一句话简介： PentestGPT代码的升级版。
相关论文：PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing
GitHub：https://github.com/GH05TCREW/PentestAgent
核心亮点： 自动化的规划与执行分离，整个框架基于PentestGPT，但是代码书写、工具调用与用户交互等都进行了升级

💻PentestAgent

一句话简介：PentestAgent 的官方代码
相关论文：PentestAgent: Incorporating LLM Agents to Automated Penetration Testing
GitHub：https://github.com/nbshenxm/pentest-agent
核心亮点： 整体框架由四个主要组件组成：一个侦察智能体、一个搜索智能体、一个规划智能体和一个执行智能体。这些组件无缝协作，以自动化渗透测试的三个主要阶段：情报收集、漏洞分析和利用。

💻VulnBot

一句话简介： 一个基于大语言模型的自动化渗透测试框架，旨在通过多智能体系统来模拟人类渗透测试团队的协作工作流。
相关论文：VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework
GitHub：https://github.com/KHenryAegis/VulnBot
核心亮点： 框架将任务分解为侦察、扫描和利用三个专业阶段；引入渗透任务图（PTG）机制以确保任务执行的逻辑性与依赖管理；核心架构包含规划器、内存检索器、生成器、执行器和总结器五大模块，实现了角色专业化、路径规划以及智能体间的高效通信。

💻ctfSolver

一句话简介： 腾讯云黑客松智能渗透挑战赛第二名
相关论文： 暂无（西安交通大学xjtuHunter队伍开发）
GitHub：https://github.com/passer-W/ctfSolver
核心亮点： 该项目旨在利用 LLM 辅助或自动完成 Capture The Flag (CTF) 竞赛挑战。通常包含题目分析、脚本生成（主要为 Python）、自动执行以及错误修正的闭环流程。它通过将 CTF 题目转化为 LLM 可理解的 Prompt，引导模型编写并执行 Payload，从而获取 Flag，适合用于研究 LLM 在网络安全攻防领域的代码生成与逻辑推理能力。

💻LuaN1aoAgent

一句话简介： 腾讯云黑客松智能渗透挑战赛第三名
相关论文： 暂无（广州大学方班BinX队伍开发）
GitHub：https://github.com/SanMuzZzZz/LuaN1aoAgent
核心亮点： 该项目（代号“鸾鸟”）采用 P-E-R 三位一体认知协作架构，模拟人类安全专家“规划、执行、反思”的思维循环。其核心创新在于引入因果图推理和动态图规划技术，将传统的线性攻击脚本转化为动态演进的有向无环图，并基于严密的“证据-假设-验证”逻辑链进行攻击决策，从而有效规避大模型的盲目猜测与幻觉问题。此外，该框架还支持 MCP 协议工具集成与人机协同模式，允许专家在自动化过程中实时干预并修正攻击路径。

💻tinyctfer

一句话简介： 腾讯云黑客松智能渗透挑战赛第四名
相关论文： 暂无（Chainreactors Co-Founder相关成员开发）
GitHub：https://github.com/chainreactors/tinyctfer
核心亮点： 该项目构建了一个专注于将大语言模型攻击意图转化为系统动作的轻量级意图运行时环境。它引入了元工具设计模式以赋予Agent更灵活的工具编排能力，使其作为ChainReactors生态的一部分能高效控制底层安全工具，并在自动化CTF解题与渗透测试场景中实现精准的攻击决策与执行。

💻NeuroSploit

一句话简介： 腾讯云黑客松智能渗透挑战赛第六名
相关论文： 暂无（清华大学、东南大学、国防科大联合队伍开发）
GitHub：https://github.com/Neuro-Sploit
核心亮点： 该项目是由顶尖高校联合构建的 AI 渗透测试科研与基础设施生态。其核心特色在于开源了一套完整的本地靶场模拟器，允许开发者在本地无限制地调试与训练 Agent，突破了竞赛平台的调用限制。此外，项目还包含专门针对 CTF AI Agent 设计的自动化评估框架以及针对权威安全数据集 XBOW 的修正与深度分析工具。

💻xbow-competition

一句话简介： 腾讯云黑客松智能渗透挑战赛第七名
相关论文： 暂无（绿盟科技运营服务 BG 高级攻防部开发）
GitHub：https://github.com/m-sec-org/xbow-competition
核心亮点： 该项目是基于MCP构建的自动化 CTF 解题系统，专为 XBOW 靶场设计。它采用了客户端-服务端分离的架构，由 ez-xbow-platform-mcp（服务端）负责挑战管理、知识库检索及 Kali 容器调度，kimi-cli-for-xbow（客户端）作为 AI Agent 进行决策与交互。系统支持 Daemon 守护模式实现无人值守自动解题，内置了针对 XSS、SQL 注入等 9 类漏洞的知识库，并能通过 MCP 协议无缝调用 Nmap、Sqlmap 等本地安全工具，实现了从题目获取到 Flag 提交的全自动化流程。

💻Cruiser

一句话简介： 腾讯云黑客松智能渗透挑战赛第八名
相关论文： 暂无（香港城市大学 & 中科院信工所 D@wnEdg3 队伍开发，）
GitHub：https://github.com/TJR181/Cruiser_public
核心亮点： 该项目定位为 CTF Agent 的实现探索，旨在构建以大语言模型为核心的智能体，使其能够在隔离环境中自主完成漏洞挖掘、路径突破与 Flag 夺取。项目体现了将学术界的 AI 安全研究与实战攻防技术相结合的尝试，探索了全流程自动化渗透测试的可能性。

💻CHYing-agent

一句话简介： 腾讯云黑客松智能渗透挑战赛第九名
相关论文： 暂无
GitHub：https://github.com/yhy0/CHYing-agent
核心亮点： 该项目采用了基于 LangGraph 的双 Agent 协作架构，核心设计包含顾问与主攻手两个角色。主攻手负责具体的工具调用与漏洞利用，而顾问则在任务开始、连续失败或定期检查时介入，提供全局策略指导，从而有效缓解大模型在长链路攻击中的幻觉问题。强调不完全信任，通过动态角色互换（如 DeepSeek 与 MiniMax 模型轮转）和自动化 Flag 格式校验，实现了稳定且高效的 CTF 自动化解题流程。

💻SickHackShark

一句话简介： 腾讯云黑客松智能渗透挑战赛第十名
相关论文： 暂无（绿盟科技 Sickhack 队伍开发）
GitHub：https://github.com/SickHackPark/SickHackShark
核心亮点： 该项构建了一套智能渗透 Agent 框架，旨在通过 LLM 自动化完成 CTF 挑战或渗透测试任务。项目重点在于利用大模型的推理规划能力来驱动安全工具或编写攻击脚本，通常包含任务拆解、环境交互、结果分析与策略调整的自动化流程。

💻newmapta

一句话简介： 腾讯云黑客松智能渗透挑战赛第十五名
相关论文： 暂无（华科金银湖联合战队开发）
GitHub：https://github.com/HUST-JYHLab/newmapta
核心亮点： 该项目由华中科技大学与武汉金银湖实验室攻防专家组成的“华科金银湖联合战队”开发。团队长期深耕网络攻防与智能安全技术，该系统致力于探索 AI 驱动的下一代网络安全解决方案。其核心在于将学术研究与实战能力深度融合，构建了以大语言模型（LLM）为核心的智能体，能够在真实网络环境中实现从信息收集到漏洞利用的全自动化攻防，旨在挖掘智能体在自动化渗透测试领域的应用潜力与边界。

💻sub-agent-autopt

一句话简介： 腾讯云黑客松智能渗透挑战赛第十六名
相关论文： 暂无（中国科学技术大学网络信息中心YANGXU开发）
GitHub：https://github.com/yyy1mu/sub-agent-autopt
核心亮点： 项目采用了多智能体协同的设计架构，通过构建多个专注于特定渗透阶段的子智能体来分担任务复杂度，利用主控节点进行全局规划与任务分发，有效解决了单体模型在长链路攻击中容易丢失上下文的问题，实现了更精准且具备逻辑深度的自动化渗透测试流程。。

💻CyberStrikeAI

一句话简介： 腾讯云黑客松智能渗透挑战赛第十七名
相关论文： 暂无
GitHub：https://github.com/Ed1s0nZ/CyberStrikeAI
核心亮点： 该项目是一款少见的采用Golang编写的高性能自动化渗透平台，其核心优势在于原生支持MCP协议从而实现了智能体对工具的标准化调用与编排。平台内置了覆盖全攻击链的一百多种安全工具模板并支持通过YAML文件进行灵活扩展，结合可视化的攻击链路追踪与兼容多种大模型的智能决策引擎，使得用户能够仅通过自然语言交互即可驱动复杂的渗透测试任务并获得结构化的安全评估报告。

💻H-Pentest

一句话简介： 腾讯云黑客松智能渗透挑战赛第十八名
相关论文： 暂无（Nepnep战队）
GitHub：https://github.com/hexian2001/H-Pentest
核心亮点： 该项目构建了一个集成化的 AI 渗透测试平台。它利用大语言模型作为智能体核心，实现了对渗透测试流程的自动化控制与决策，能够自主进行攻击路径规划、安全工具调度及结果分析，旨在降低人工参与成本并提升自动化渗透测试的效率与覆盖度。

💻BUUCTF_Agent

一句话简介： 腾讯云黑客松智能渗透挑战赛第二十五名
相关论文： 暂无（北京联合大学智慧城市学院）
GitHub：https://github.com/MuWinds/BUUCTF_Agent
核心亮点： 该项目构建了一个专注于 CTF 场景的可扩展智能体框架，核心特色在于“人机协作”模式，不仅支持 Agent 自动化尝试解题，还允许用户介入与 Agent 进行交互协作，共同攻克复杂难题，同时具备良好的插件化扩展能力以适应不同类型的 CTF 题目。

💻AgentNote

一句话简介： 腾讯云黑客松智能渗透挑战赛第三十五名
相关论文： 暂无（中国传媒大学C1JC战队开发）
GitHub：https://github.com/C1JC/AgentNote
核心亮点： 该项目核心在于引入“过程笔记”机制来解决长链路渗透测试中的上下文遗忘问题。不同于传统 Agent 仅依赖对话历史，AgentNote 维护一个结构化的动态笔记本，实时记录资产信息、已验证漏洞及攻击路径。这种设计不仅赋予了大模型类似人类安全研究员的外部记忆，确保在复杂的多轮交互中保持目标一致性，还便于从“笔记”中回溯攻击逻辑，实现更高效的断点续跑与人工审计复盘。

💻Shannon

Brief Introduction: 一款完全自主的AI黑客和渗透测试工具，旨在发现Web应用程序中的实际漏洞，在无提示、感知源码的XBOW基准测试中实现了96.15%的成功率。
Related Paper: 无（Shannon Pro版本中的高级分析引擎受LLMDFA论文启发）。
GitHub: https://github.com/KeygraphHQ/shannon
Core Highlights: 该项目的核心在于其多智能体（multi-agent）架构，将白盒源码分析与黑盒动态漏洞利用无缝结合。与仅标记潜在问题的传统扫描器不同，Shannon能够自主搜寻攻击向量，并使用内置浏览器执行真实的漏洞利用（如注入攻击和身份验证绕过）。这种方法不仅能提供漏洞的具体证据，生成包含可复现、可复制粘贴的PoC（概念验证）的专业级渗透测试报告以消除误报，同时还能并行运行各种漏洞检查，从而实现高效的测试结果。

💻Cyber-Zero

简要介绍: 首个无需运行时环境即可合成高质量代理轨迹，用于训练网络安全大语言模型的框架。它利用基于角色的大模型模拟，从CTF Writeups中逆向工程系统行为并生成真实的交互序列，使开源模型能够实现高达13.1%的绝对性能提升，并达到与前沿闭源模型相当的水平。
相关论文: Cyber-Zero: Training Cybersecurity Agents without Runtime
GitHub 仓库: https://github.com/amazon-science/Cyber-Zero
核心亮点: 该框架的创新之处在于其基于角色的双大模型方法（玩家模型和Bash终端），通过逆向工程系统行为生成多轮、逼真的攻击序列。通过将非结构化的Writeups转化为包含失败尝试和调试过程的结构化训练数据，它克服了网络安全领域基础的数据稀缺问题。最终得到的Cyber-Zero-32B模型不仅在性能上与顶级闭源模型匹敌，而且具有卓越的成本效益，有效地推动了最先进网络安全代理开发的民主化。

💻HackWorld

简要介绍: 首个旨在系统评估计算机使用代理通过视觉交互来利用Web应用漏洞能力的评估框架。它将代理暴露于涵盖11种框架和7种语言的36个精心挑选的易受攻击的Web应用中，揭示了即使是最先进的计算机使用代理，其漏洞利用率也低于12%。
相关论文: HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities
GitHub 仓库: https://github.com/GUI-Agent/HackWorld
核心亮点: 该框架的核心贡献在于将评估从”洁净”的基准测试环境转向了真实的漏洞环境。通过集成完整的Kali Linux工具集（如Burp Suite, DirBuster, Nikto）并支持多种观测空间（截图、a11y树、标记集），它为理解代理行为提供了前所未有的洞察。研究结果表明：更大、更新的模型如Claude-4表现反而不如Claude-3.7，这证明了网络安全任务需要的是战略推理和工具编排能力，而不仅仅是更好的感知能力。

💻Pentest-R1

简要介绍: 一个新颖的两阶段强化学习框架，用于优化大语言模型在自动化渗透测试中的推理能力。它结合了基于500多个真实世界专家演练的离线强化学习和在交互式CTF环境中的在线强化学习，在Cybench和AutoPenBench基准测试上达到了最先进的水平。
相关论文: Pentest-R1: Towards Autonomous Penetration Testing Reasoning Optimized via Two-Stage Reinforcement Learning
GitHub 仓库: https://github.com/KHenryAegis/Pentest-R1
核心亮点: 该项目关键的创新在于其两阶段的协同作用：离线GRPO训练通过”思考-命令-观察”元组灌输基础的攻击逻辑，而在线GRPO则通过实时环境交互来完善错误修正能力。消融研究证明，这两个阶段对于达到最佳性能缺一不可。值得注意的是，仅从一个8B的基础模型微调而来，Pentest-R1就能与并甚至超越GPT-4o和Claude等专有巨头，证明了战略性的强化学习可以胜过单纯依靠模型规模扩展的方法。

MCP工具

一系列现有的模型上下文协议 (MCP) 服务器，旨在将渗透测试工具与 LLM 智能体相集成。每个集成通常都需要核心工具和一个MCP 服务器。

侦察 (Reconnaissance)

🛠️ Nmap: 核心工具 (nmap.org) | MCP 服务器 (gc-nmap-mcp)
网络发现、端口扫描和安全审计。
🛠️ Amass: 核心工具 (GitHub) | MCP 服务器 (gc-amass-mcp)
深度网络映射和资产发现。
🛠️ Assetfinder: 核心工具 (GitHub) | MCP 服务器 (gc-assetfinder-mcp)
被动式子域名发现工具。
🛠️ AlterX: 核心工具 (GitHub) | MCP 服务器 (gc-alterx-mcp)
使用 DSL 的子域名词表生成器。
🛠️ Certificate Transparency: 核心服务 (crt.sh) | MCP 服务器 (gc-crtsh-mcp)
使用公共证书日志发现子域名（基于 API，无需本地工具）。
🛠️ Wayback URLs: 核心工具 (GitHub) | MCP 服务器 (gc-waybackurls-mcp)
从 Wayback Machine 提取历史 URL。
🛠️ Gowitness: 核心工具 (GitHub) | MCP 服务器 (gc-gowitness-mcp)
用于捕获和分析网页的网页截图及侦察工具。

扫描与模糊测试 (Scanning & Fuzzing)

🛠️ httpx: 核心工具 (GitHub) | MCP 服务器 (gc-httpx-mcp)
快速、多功能的 HTTP/HTTPS 工具包。
🛠️ Nuclei: 核心工具 (GitHub) | MCP 服务器 (gc-nuclei-mcp)
基于模板的漏洞扫描器。
🛠️ FFUF: 核心工具 (GitHub) | MCP 服务器 (gc-ffuf-mcp)
用于目录/文件/参数发现的快速 Web 模糊测试工具。
🛠️ Katana: 核心工具 (GitHub) | MCP 服务器 (gc-katana-mcp)
下一代 Web 爬虫。
🛠️ SQLMap: 核心工具 (sqlmap.org) | MCP 服务器 (gc-sqlmap-mcp)
自动化的 SQL 注入和数据库接管工具。
🛠️ Arjun: 核心工具 (GitHub) | MCP 服务器 (gc-arjun-mcp)
HTTP 参数发现套件。
🛠️ Masscan: 核心工具 (GitHub) | MCP 服务器 (gc-masscan-mcp)
高速 TCP 端口扫描器。
🛠️ SSL Scan: 核心工具 (GitHub) | MCP 服务器 (gc-sslscan-mcp)
扫描 SSL/TLS 密码套件和配置。
🛠️ HTTP Headers Security: 核心工具 (owasp.org) | MCP 服务器 (gc-http-headers-security-mcp)
依据 OWASP 标准的 HTTP 安全标头分析器。
🛠️ Smuggler: 核心工具 (Github) | MCP 服务器 (gc-smuggler-mcp)
用于检测 HTTP 请求走私漏洞的高级工具。
🛠️ WPScan: 核心工具 (Github) | MCP 服务器 (gc-wpscan-mcp)
用于检测插件、主题和配置问题的 WordPress 漏洞扫描器。

利用与后期利用 (Exploitation & Post-Exploitation)

🛠️ Hydra: 核心工具 (GitHub) | MCP 服务器 (gc-hydra-mcp)
网络登录破解器（暴力破解工具）。
🛠️ Metasploit: 核心工具 (metasploit.com) | MCP 服务器 (gc-metasploit)
全球使用最广泛的渗透测试框架（通过 msfrpcd API）。
🛠️ shuffledns: 核心工具 (Github) | MCP 服务器 (gc-suffledns-mcp)
高速且可定制的 DNS 暴力破解和解析工具。

综合性工具 (Comprehensive tool)

🛠️ HexStrike: 核心工具 (Github) | MCP 服务器 (gc-hexstrike-mcp) | 容器化分发版 (hexstrike-ai-kit)
多功能渗透测试智能体。
🛠️ Kali: 核心工具 (kali.org) | MCP 服务器 (gc-kali-mcp)
集成多种渗透工具的 Linux 虚拟机。

评估基准

这里是用于评估 LLM 在渗透测试任务上表现的数据集或基准。

📊 [XBOW]
简要介绍：一个专业的基准测试集，包含 104 个独立的 CTF 挑战，专门用于评估和测试 AI 黑客代理或自动化渗透测试工具的能力。
📊 [CyberBattleSim]
简要介绍：微软开发的一个开源平台，它利用一个模拟的网络环境，来实验和研究自动化 AI 代理在网络安全攻击和防御场景中的交互行为。
📊 [VulHub]
简要介绍：Vulhub 是一个开源的、预构建的、即用型漏洞 Docker 环境集合。只需一个命令，您就可以启动一个用于安全研究、学习或演示的漏洞环境，无需事先具备 Docker 经验。
📊 [DVWA]
简要介绍：一个故意设计成充满漏洞的 PHP/MariaDB Web 应用程序。它提供了一个合法的实践环境，用于测试技能、理解和学习常见的 Web 应用程序漏洞。
📊 [VulnStack]
简要介绍：一个实用的红队评估环境，包含多种典型的内网渗透场景（例如域名渗透和垂直迁移）。通过预配置的虚拟机镜像，它可以帮助研究人员评估人工智能代理在复杂网络拓扑中的自动化渗透和决策能力。
📊 [Pikachu]
简要介绍：一个包含漏洞练习平台的Web安全测试环境，涵盖各种常见的Web漏洞（例如注入、XSS、CSRF、文件上传等）。与DVWA相比，它具有更细粒度和更多样化的漏洞类型，使其成为评估LLM构建和理解各种Web攻击载荷能力的理想选择。
📊 [OWASP Benchmark]
简要介绍：一个开源的 Java 基准测试库，用于评估安全扫描工具的准确性。它包含数千个真实和模拟的漏洞测试用例，可以通过计算召回率和精确率，科学地衡量 LLM 在辅助代码审计 (SAST/DAST) 任务中的性能和误报率。
📊 [Hack The Box]
简要介绍：Hack The Box 是一个世界领先的在线网络安全培训平台，提供海量的实时游戏化机器和挑战。它被广泛用于评估 AI 代理在高度真实、复杂且不断更新的环境中的端到端渗透测试能力，涵盖从初始立足点到权限提升的整个过程。
📊 [NYU CTF Bench]
简要介绍：这是由纽约大学研究人员设计的一个专门用于评估 LLM 在夺旗赛 (CTF) 场景中表现的基准测试。该基准测试包含 200 个挑战，涵盖 6 个 CTF 类别。这些 CTF 挑战已容器化，易于部署，从而使基于 LLM 的自动化框架能够与挑战交互并尝试解决问题。
📊 [AUTOPENBENCH]
简要介绍：一个用于评估自动化渗透测试中生成代理的开源基准，包括33个docker化的脆弱任务（2014-2024年的体外基本原理和真实世界的cve）。它支持不受限制的命令执行，提供标准化的评估指标（成功率/进度率），并能够公平地比较AI智能体的渗透能力。
📊 [Cybench]
简要介绍：一个用于评估大语言模型（LLM）网络安全能力和风险的开源基准，包含 40 个专业的 CTF 任务（来自 2022-2024 年的竞赛），提供子任务指导和 Kali Linux 环境，支持标准化的性能比较。
📊 [HackWorld]
简要介绍：一个用于评估计算机使用智能体（Agent）利用 Web 应用程序漏洞能力的开源基准环境，核心支持 VMware 虚拟化环境（Apple 芯片适配 VMware Fusion，x86 架构适配 VMware Workstation Pro），需 Python ≥ 3.9 运行环境，提供可配置的 LLM/API 密钥集成方式与批量实验执行能力，专门用于评测 AI 黑客代理在 Web 漏洞利用场景下的性能表现。

关注我们

开源项目：https://github.com/simon-p-j-r/LLM4Pentest

课题组介绍：四川大学｜黄诚课题组长期招生

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全学术圈黄诚课题组黄诚课题组《LLM4Pentest: LLM 赋能自动化渗透测试》