2026-01-26 14:42:56 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文汇总了GitHub上的AI安全开源项目，涵盖攻防自动化、Prompt注入检测及模型安全评估。重点介绍了HexStrike、promptfoo、Giskard等工具在红队辅助、策略绕过扫描和防护中的应用。建议技术人员利用这些项目提升AI攻防实战能力，构建完善的安全审计体系。 综合评分： 88 文章分类： AI安全,安全工具,红队,漏洞分析

cover_image

AI 安全开源项目汇总（攻防、检测、模型与 Prompt 安全）

原创

木火纪木火纪

木火纪

2026年1月26日 10:27 浙江

引言

AI 与大语言模型正在成为信息安全领域新的攻防边界。Prompt 注入、模型越权、AI Agent 越权执行以及 AI 安全检测是当前的主要研究方向。

本篇文章面向网络安全技术人员整理 GitHub 上可实际使用或参考的 AI 安全相关开源项目，涵盖攻击自动化、Prompt 安全检测、模型审计与 AI 安全防护。

攻防自动化与红队

HexStrike AI

用途一个基于 MCP（Model Context Protocol）的自动化安全 Agent 平台，允许大模型通过统一协议驱动大量安全工具执行渗透测试、漏洞收集和攻击流程。

GitHub github.com/0x4m4/hexstrike-ai

特点

• 集成多种安全工具
• 支持 Agent 级任务编排
• 适合自动化攻防流程与红队研究

Agentic Security

用途用于评估具备 Agent 功能的 AI 系统的安全风险，重点检测 Agent 在执行任务过程中的越权与不当调用。

GitHub github.com/msoedov/agentic_security

特点

• Agent 模式安全扫描
• 适合 AI 自动化任务风险评估
• 可发现潜在滥用路径

CAI（Cybersecurity AI）

用途为安全研究与自动化任务构建 AI Agent 的通用框架，支持创建用于安全分析、自动化测试和任务执行的智能体。

GitHub github.com/aliasrobotics/cai

特点

• 框架式支持自定义 Agent
• 适合安全试验与实验性自动化
• 支持扩展具体工作流

Prompt 注入与策略安全

promptmap

用途用于检测 Prompt 注入与策略绕过风险的扫描工具，通过规则检查输入中的风险提示结构。

GitHub github.com/utkusen/promptmap

特点

• 规则驱动检测
• 支持多模型与多测试场景
• 可集成到自动化测试链

promptfoo

用途用于 Prompt / RAG / Agent 的对抗性安全测试与行为验证，支持声明式测试配置。

GitHub github.com/promptfoo/promptfoo

特点

• 可生成针对安全缺陷的测试
• 支持对抗性试验集
• 可纳入 CI/CD 中做安全回归

FuzzyAI

用途一个用于生成对抗性 Prompt 和模糊测试的大模型安全框架，能测试模型在策略防护下的响应行为。

GitHub github.com/cyberark/FuzzyAI

特点

• 自动生成越狱 / 绕过攻击 Prompt
• 支持安全策略评估
• 常用于模型输出安全测试

InjectGuard

用途用于构建 Prompt 注入攻击防护筛查器，可用于保护 LLM 输入输出不受注入攻击。

GitHub github.com/avdvg/InjectGuard

特点

• 提供 Prompt 注入防护机制
• 可嵌入到 API 接口层进行过滤
• 适合 Guardrail 防护场景

模型安全评估与防护

Giskard OSS

用途一个用于生成式 AI 模型安全评估与测试的开源平台，可以发现模型偏见、敏感信息泄露和不当输出等安全问题。

GitHub github.com/Giskard-AI/giskard-oss

特点

• 支持自动化测试与报告
• 可与 CI/CD 集成做回归测试
• 包含模型安全与性能评估

PurpleLlama

用途由 Meta 发布的一组工具和评估基准，用于测试模型在安全策略、Prompt Guard 和输出约束方面的表现。

GitHub github.com/meta-llama/PurpleLlama

特点

• 包含 Guard 类策略组件
• 提供安全评估基准
• 定位于模型层安全

NeMo Guardrails

用途为大模型应用添加可编程行为策略和安全规则的库，用于实时约束和过滤模型输出。

GitHub github.com/NVIDIA/NeMo-Guardrails

特点

• 可设定行为规则与安全约束
• 适用于生产环境防护
• 支持策略插件与定制

LLM Guard

用途面向模型输入输出边界的安全监控与防护库，用于检测敏感信息泄露、恶意 Prompt 和违规内容。

GitHub github.com/protectai/llm-guard

特点

• 轻量级易集成
• 支持输入和输出检测
• 适合前端防护层

AI-Infra-Guard

用途由腾讯朱雀实验室发布的开源 AI 基础设施安全评估平台，用于扫描 AI 组件漏洞、MCP Server 风险及大模型相关安全问题。

GitHub github.com/Tencent/AI-Infra-Guard

特点

• 识别 AI 框架/组件指纹并匹配 CVE 漏洞
• 支持 MCP 服务器安全检测
• 提供 UI/Web 界面与 CLI 模式

辅助数据集与防护测试资源

虽然很多数据集不直接对应可运行工具，但可以作为 Prompt 注入、模型越狱与安全策略评估的基准素材：

• SafetyPrompts（网站与数据集汇总） — 提供 Jailbreak / Prompt 注入 /安全 Prompt 数据，便于做模型风险评估 safetyprompts.com
• prompt-injections 数据集（多个变体） — 提供大量注入与 benign 标签用于构建检测模型或评估数据 HuggingFace 中可搜索 “prompt-injections” 和相近集

这些资源在安全智能检测、模型防护模型训练中非常有用，可配合上面的 Guardrail 或检测工具进行实战构建。

总结

随着 AI 被广泛用于业务系统与安全自动化工具链，围绕 Prompt 安全、模型越权、Red Team 自动化与 Agent 生命周期管理等攻击面不断演化。上述开源项目覆盖了 AI 安全的多个关键方向：

• 攻防过程自动化与红队辅助
• Prompt 注入与策略绕过检测
• 模型输出与行为防护
• 基础设施与系统风险扫描

这些项目既可以作为实操工具集，也可以作为构建更复杂 AI 安全审计与防护体系的组成部分。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：木火纪木火纪木火纪《AI 安全开源项目汇总（攻防、检测、模型与 Prompt 安全）》