AI安全开源项目汇总(攻防、检测、模型与Prompt安全)

admin 2026-01-26 14:42:56 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文汇总了GitHub上的AI安全开源项目,涵盖攻防自动化、Prompt注入检测及模型安全评估。重点介绍了HexStrike、promptfoo、Giskard等工具在红队辅助、策略绕过扫描和防护中的应用。建议技术人员利用这些项目提升AI攻防实战能力,构建完善的安全审计体系。 综合评分: 88 文章分类: AI安全,安全工具,红队,漏洞分析


cover_image

AI 安全开源项目汇总(攻防、检测、模型与 Prompt 安全)

原创

木火纪 木火纪

木火纪

2026年1月26日 10:27 浙江

引言

AI 与大语言模型正在成为信息安全领域新的攻防边界。Prompt 注入、模型越权、AI Agent 越权执行以及 AI 安全检测是当前的主要研究方向。

本篇文章面向网络安全技术人员整理 GitHub 上可实际使用或参考的 AI 安全相关开源项目,涵盖攻击自动化、Prompt 安全检测、模型审计与 AI 安全防护。


攻防自动化与红队

HexStrike AI

用途 一个基于 MCP(Model Context Protocol)的自动化安全 Agent 平台,允许大模型通过统一协议驱动大量安全工具执行渗透测试、漏洞收集和攻击流程。

GitHub github.com/0x4m4/hexstrike-ai

特点

  • • 集成多种安全工具
  • • 支持 Agent 级任务编排
  • • 适合自动化攻防流程与红队研究

Agentic Security

用途 用于评估具备 Agent 功能的 AI 系统的安全风险,重点检测 Agent 在执行任务过程中的越权与不当调用。

GitHub github.com/msoedov/agentic_security

特点

  • • Agent 模式安全扫描
  • • 适合 AI 自动化任务风险评估
  • • 可发现潜在滥用路径

CAI(Cybersecurity AI)

用途 为安全研究与自动化任务构建 AI Agent 的通用框架,支持创建用于安全分析、自动化测试和任务执行的智能体。

GitHub github.com/aliasrobotics/cai

特点

  • • 框架式支持自定义 Agent
  • • 适合安全试验与实验性自动化
  • • 支持扩展具体工作流

Prompt 注入与策略安全

promptmap

用途 用于检测 Prompt 注入与策略绕过风险的扫描工具,通过规则检查输入中的风险提示结构。

GitHub github.com/utkusen/promptmap

特点

  • • 规则驱动检测
  • • 支持多模型与多测试场景
  • • 可集成到自动化测试链

promptfoo

用途 用于 Prompt / RAG / Agent 的对抗性安全测试与行为验证,支持声明式测试配置。

GitHub github.com/promptfoo/promptfoo

特点

  • • 可生成针对安全缺陷的测试
  • • 支持对抗性试验集
  • • 可纳入 CI/CD 中做安全回归

FuzzyAI

用途 一个用于生成对抗性 Prompt 和模糊测试的大模型安全框架,能测试模型在策略防护下的响应行为。

GitHub github.com/cyberark/FuzzyAI

特点

  • • 自动生成越狱 / 绕过攻击 Prompt
  • • 支持安全策略评估
  • • 常用于模型输出安全测试

InjectGuard

用途 用于构建 Prompt 注入攻击防护筛查器,可用于保护 LLM 输入输出不受注入攻击。

GitHub github.com/avdvg/InjectGuard

特点

  • • 提供 Prompt 注入防护机制
  • • 可嵌入到 API 接口层进行过滤
  • • 适合 Guardrail 防护场景

模型安全评估与防护

Giskard OSS

用途 一个用于生成式 AI 模型安全评估与测试的开源平台,可以发现模型偏见、敏感信息泄露和不当输出等安全问题。

GitHub github.com/Giskard-AI/giskard-oss

特点

  • • 支持自动化测试与报告
  • • 可与 CI/CD 集成做回归测试
  • • 包含模型安全与性能评估

PurpleLlama

用途 由 Meta 发布的一组工具和评估基准,用于测试模型在安全策略、Prompt Guard 和输出约束方面的表现。

GitHub github.com/meta-llama/PurpleLlama

特点

  • • 包含 Guard 类策略组件
  • • 提供安全评估基准
  • • 定位于模型层安全

NeMo Guardrails

用途 为大模型应用添加可编程行为策略和安全规则的库,用于实时约束和过滤模型输出。

GitHub github.com/NVIDIA/NeMo-Guardrails

特点

  • • 可设定行为规则与安全约束
  • • 适用于生产环境防护
  • • 支持策略插件与定制

LLM Guard

用途 面向模型输入输出边界的安全监控与防护库,用于检测敏感信息泄露、恶意 Prompt 和违规内容。

GitHub github.com/protectai/llm-guard

特点

  • • 轻量级易集成
  • • 支持输入和输出检测
  • • 适合前端防护层

AI-Infra-Guard

用途  由腾讯 朱雀实验室 发布的开源 AI 基础设施安全评估平台,用于扫描 AI 组件漏洞、MCP Server 风险及大模型相关安全问题。

GitHub  github.com/Tencent/AI-Infra-Guard

特点

  • • 识别 AI 框架/组件指纹并匹配 CVE 漏洞
  • • 支持 MCP 服务器安全检测
  • • 提供 UI/Web 界面与 CLI 模式

辅助数据集与防护测试资源

虽然很多数据集不直接对应可运行工具,但可以作为 Prompt 注入、模型越狱与安全策略评估的基准素材:

  • • SafetyPrompts(网站与数据集汇总) — 提供 Jailbreak / Prompt 注入 /安全 Prompt 数据,便于做模型风险评估 safetyprompts.com
  • • prompt-injections 数据集(多个变体) — 提供大量注入与 benign 标签用于构建检测模型或评估数据 HuggingFace 中可搜索 “prompt-injections” 和相近集

这些资源在安全智能检测、模型防护模型训练中非常有用,可配合上面的 Guardrail 或检测工具进行实战构建。


总结

随着 AI 被广泛用于业务系统与安全自动化工具链,围绕 Prompt 安全、模型越权、Red Team 自动化与 Agent 生命周期管理等攻击面不断演化。上述开源项目覆盖了 AI 安全的多个关键方向:

  • • 攻防过程自动化与红队辅助
  • • Prompt 注入与策略绕过检测
  • • 模型输出与行为防护
  • • 基础设施与系统风险扫描

这些项目既可以作为实操工具集,也可以作为构建更复杂 AI 安全审计与防护体系的组成部分。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:木火纪 木火纪 木火纪《AI 安全开源项目汇总(攻防、检测、模型与 Prompt 安全)》

评论:0   参与:  0