文章总结: 本文汇总了GitHub上的AI安全开源项目,涵盖攻防自动化、Prompt注入检测及模型安全评估。重点介绍了HexStrike、promptfoo、Giskard等工具在红队辅助、策略绕过扫描和防护中的应用。建议技术人员利用这些项目提升AI攻防实战能力,构建完善的安全审计体系。 综合评分: 88 文章分类: AI安全,安全工具,红队,漏洞分析
AI 安全开源项目汇总(攻防、检测、模型与 Prompt 安全)
原创
木火纪 木火纪
木火纪
2026年1月26日 10:27 浙江
引言
AI 与大语言模型正在成为信息安全领域新的攻防边界。Prompt 注入、模型越权、AI Agent 越权执行以及 AI 安全检测是当前的主要研究方向。
本篇文章面向网络安全技术人员整理 GitHub 上可实际使用或参考的 AI 安全相关开源项目,涵盖攻击自动化、Prompt 安全检测、模型审计与 AI 安全防护。
攻防自动化与红队
HexStrike AI
用途 一个基于 MCP(Model Context Protocol)的自动化安全 Agent 平台,允许大模型通过统一协议驱动大量安全工具执行渗透测试、漏洞收集和攻击流程。
GitHub github.com/0x4m4/hexstrike-ai
特点
- • 集成多种安全工具
- • 支持 Agent 级任务编排
- • 适合自动化攻防流程与红队研究
Agentic Security
用途 用于评估具备 Agent 功能的 AI 系统的安全风险,重点检测 Agent 在执行任务过程中的越权与不当调用。
GitHub github.com/msoedov/agentic_security
特点
- • Agent 模式安全扫描
- • 适合 AI 自动化任务风险评估
- • 可发现潜在滥用路径
CAI(Cybersecurity AI)
用途 为安全研究与自动化任务构建 AI Agent 的通用框架,支持创建用于安全分析、自动化测试和任务执行的智能体。
GitHub github.com/aliasrobotics/cai
特点
- • 框架式支持自定义 Agent
- • 适合安全试验与实验性自动化
- • 支持扩展具体工作流
Prompt 注入与策略安全
promptmap
用途 用于检测 Prompt 注入与策略绕过风险的扫描工具,通过规则检查输入中的风险提示结构。
GitHub github.com/utkusen/promptmap
特点
- • 规则驱动检测
- • 支持多模型与多测试场景
- • 可集成到自动化测试链
promptfoo
用途 用于 Prompt / RAG / Agent 的对抗性安全测试与行为验证,支持声明式测试配置。
GitHub github.com/promptfoo/promptfoo
特点
- • 可生成针对安全缺陷的测试
- • 支持对抗性试验集
- • 可纳入 CI/CD 中做安全回归
FuzzyAI
用途 一个用于生成对抗性 Prompt 和模糊测试的大模型安全框架,能测试模型在策略防护下的响应行为。
GitHub github.com/cyberark/FuzzyAI
特点
- • 自动生成越狱 / 绕过攻击 Prompt
- • 支持安全策略评估
- • 常用于模型输出安全测试
InjectGuard
用途 用于构建 Prompt 注入攻击防护筛查器,可用于保护 LLM 输入输出不受注入攻击。
GitHub github.com/avdvg/InjectGuard
特点
- • 提供 Prompt 注入防护机制
- • 可嵌入到 API 接口层进行过滤
- • 适合 Guardrail 防护场景
模型安全评估与防护
Giskard OSS
用途 一个用于生成式 AI 模型安全评估与测试的开源平台,可以发现模型偏见、敏感信息泄露和不当输出等安全问题。
GitHub github.com/Giskard-AI/giskard-oss
特点
- • 支持自动化测试与报告
- • 可与 CI/CD 集成做回归测试
- • 包含模型安全与性能评估
PurpleLlama
用途 由 Meta 发布的一组工具和评估基准,用于测试模型在安全策略、Prompt Guard 和输出约束方面的表现。
GitHub github.com/meta-llama/PurpleLlama
特点
- • 包含 Guard 类策略组件
- • 提供安全评估基准
- • 定位于模型层安全
NeMo Guardrails
用途 为大模型应用添加可编程行为策略和安全规则的库,用于实时约束和过滤模型输出。
GitHub github.com/NVIDIA/NeMo-Guardrails
特点
- • 可设定行为规则与安全约束
- • 适用于生产环境防护
- • 支持策略插件与定制
LLM Guard
用途 面向模型输入输出边界的安全监控与防护库,用于检测敏感信息泄露、恶意 Prompt 和违规内容。
GitHub github.com/protectai/llm-guard
特点
- • 轻量级易集成
- • 支持输入和输出检测
- • 适合前端防护层
AI-Infra-Guard
用途 由腾讯 朱雀实验室 发布的开源 AI 基础设施安全评估平台,用于扫描 AI 组件漏洞、MCP Server 风险及大模型相关安全问题。
GitHub github.com/Tencent/AI-Infra-Guard
特点
- • 识别 AI 框架/组件指纹并匹配 CVE 漏洞
- • 支持 MCP 服务器安全检测
- • 提供 UI/Web 界面与 CLI 模式
辅助数据集与防护测试资源
虽然很多数据集不直接对应可运行工具,但可以作为 Prompt 注入、模型越狱与安全策略评估的基准素材:
- • SafetyPrompts(网站与数据集汇总) — 提供 Jailbreak / Prompt 注入 /安全 Prompt 数据,便于做模型风险评估 safetyprompts.com
- • prompt-injections 数据集(多个变体) — 提供大量注入与 benign 标签用于构建检测模型或评估数据 HuggingFace 中可搜索 “prompt-injections” 和相近集
这些资源在安全智能检测、模型防护模型训练中非常有用,可配合上面的 Guardrail 或检测工具进行实战构建。
总结
随着 AI 被广泛用于业务系统与安全自动化工具链,围绕 Prompt 安全、模型越权、Red Team 自动化与 Agent 生命周期管理等攻击面不断演化。上述开源项目覆盖了 AI 安全的多个关键方向:
- • 攻防过程自动化与红队辅助
- • Prompt 注入与策略绕过检测
- • 模型输出与行为防护
- • 基础设施与系统风险扫描
这些项目既可以作为实操工具集,也可以作为构建更复杂 AI 安全审计与防护体系的组成部分。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:木火纪 木火纪 木火纪《AI 安全开源项目汇总(攻防、检测、模型与 Prompt 安全)》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论