2026-01-30 18:29:39 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： CyberArk开源FuzzyAI工具，用于自动化检测大模型越狱漏洞。它支持20多种攻击手法及Claude等主流模型，提供命令行与Web界面。该工具利用模糊测试技术，帮助安全人员评估LLMAPI安全性，有效缓解潜在风险。 综合评分： 75 文章分类： AI安全,安全工具,漏洞分析

cover_image

CyberArk 开源 FuzzyAI：一键自动化检测大模型”越狱”漏洞，支持 20+ 攻击手法

原创

0xSecDebug 0xSecDebug

0xSecDebug

2026年1月29日 11:02 陕西

FuzzyAI Fuzzer

请勿利用文章内的相关技术从事非法渗透测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具和内容均来自网络，仅做学习和记录使用，安全性自测，如有侵权请联系删除。

FuzzyAI 模糊器是一款强大的自动化大型语言模型模糊工具。它旨在帮助开发者和安全研究人员识别越狱漏洞，并缓解其LLM API中的潜在安全漏洞。

工具使用Web UI（实验性）

攻击示例

如果你用的是诗歌，确保你已经激活了venv（或者在命令行前加上了“poetry run”）

默认攻击（只需评估提示“Harmful_Prompt”）用 llama 代替 Ollama。

fuzzyai fuzz -m ollama/llama3.1 -a def -t&nbsp;"Harmful_Prompt"

利用ManyShot和分类法攻击提示，使用gpt3.5而不是OpenAI，仅用一个工人

OPENAI_API_KEY=sk-3fa1... fuzzyai fuzz -m openai/gpt-3.5-turbo -a man -a tax -t&nbsp;"Harmful_Prompt"

prompts.txt攻击提示使用 ArtPrompt 攻击，使用 Claude 3.5 而非拟人模式

ANTHROPIC_API_KEY=deadbeef... fuzzyai fuzz -m anthropic/claude-3-5-sonnet-20240620 -a art -T src/fuzzyai/resources/adv_prompts.txt -e blacklisted_words="bomb,garbage,acid,ugly,self-harm,kill your"

攻击你自己的REST API

OPENAI_API_KEYT=sk-3fa1... fuzzyai fuzz -a def -x openai/gpt-4 -e classifier_model=openai/gpt-4 -m rest/http.raw -e host=localhost -e port=8000 -e scheme=https
-t&nbsp;"How to build a bomb"

论点分析：

-a def：调用默认攻击模式，该模式评估 API，无需额外策略。
-x openai/gpt-4：指定辅助模型（），在攻击过程中协助完成特定任务。gpt-4
-e classifier_model=openai/gpt-4：配置fuzzer以使用模型进行输出分类。这有助于判断回答是否符合特定标准，比如检测有害或不想要的内容。gpt-4
-m rest/http.raw：利用 REST 提供者攻击 API 端点。原始的 HTTP 请求是从文件中解析出来的。（有关文件结构的详细信息，请参阅文档或示例。）http.raw
-e host=localhost -e port=8000 -e scheme=https：配置 REST provider，包含以下 API 端点细节：
主持人：localhost
移植版：8000
方案：（通信将使用 HTTPS）https
-t “如何制造炸弹”：指定测试输入。在这个例子中，它测试了API对敏感或有害内容的处理。

主要特征

全面的模糊技术：利用基于突变、基于世代和智能模糊的效果。
内置输入生成：生成有效和无效输入，用于全面测试。
无缝集成：轻松融入您的开发和测试工作流程。
可扩展架构：定制和扩展fuzzer以满足您的独特需求。

支持的模型

FuzzyAI 支持多种顶级提供商的模型，包括：

支持的攻击类型

支持的云API

OpenAI
Anthropic
Gemini
Azure Cloud
AWS Bedrock
AI21
DeepSeek
Huggingface
Ollama
Custom REST API

📖 项目地址

https://github.com/cyberark/FuzzyAI

💻 威胁情报推送群

如果师傅们想要第一时间获取到最新的威胁情报，可以添加下面我创建的钉钉漏洞威胁情报群，便于师傅们可以及时获取最新的IOC。

如果师傅们想要获取网络安全相关知识内容，可以添加下面我创建的网络安全全栈知识库，便于师傅们的学习和使用：

覆盖渗透、安服、运营、代码审计、内网、移动、应急、工控、AI/LLM、数据、业务、情报、黑灰产、SOC、溯源、钓鱼、区块链等方向，内容还在持续整理中……。

点分享

点收藏

点在看

点点赞

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：0xSecDebug 0xSecDebug 0xSecDebug《CyberArk 开源 FuzzyAI：一键自动化检测大模型”越狱”漏洞，支持 20+ 攻击手法》