2026-01-21 01:04:29 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文推荐GitHub仓库llm-sp，汇总LLM安全与隐私领域的核心论文与工具。内容涵盖提示注入、越狱等漏洞分析，隐私数据泄露防护，对抗攻击与鲁棒性，及全链路防御方案。作者筛选了garak、LlamaGuard、Presidio等实用工具，并提供了针对快速评估、隐私保护和企业级防护的具体组合建议，助力高效构建安全防御体系。 综合评分： 89 文章分类： AI安全,安全工具,漏洞分析,解决方案,数据安全

cover_image

资源推荐：LLM 安全与隐私领域精选论文

原创

heyong heyong

AI安全圈

2026年1月20日 12:41 江苏

最近在 GitHub 瞎逛，无意中挖到一个宝贝仓库：「llm-sp」。

这个仓库，从漏洞、隐私到攻防，相关的论文、数据集和工具都被整理好了。

花了两天时间，我把它快速地啃了一遍，结合自己以前踩过的坑，把每个方向最核心的论文和工具都筛了出来。

一、为什么推荐？

专门搜集 LLM 安全和隐私，维护也相当用心，结构清晰，按漏洞、隐私、工具等分类；资源经过筛选，有维护者推荐(⭐)标识，论文和工具均为领域内知名工作。

最让我舒服的是它的标识系统，一目了然：

⭐ = 维护者强推，质量通常很高
💽 = 数据集或核心框架
🔭 = 综述论文，入门必看

光凭这几点，就帮我省下了大把盲目搜索的时间。

二、核心干货

1. 漏洞篇

这里梳理了提示注入、越狱这些常见漏洞。必读论文（我自己读下来收获最大的）

《Ignore Previous Prompt》：提示注入的开山之作。虽然是 2022 年的老文，但把“如何覆盖系统指令”的逻辑讲透了，至今仍是理解各类注入攻击的基石。
《Jailbroken: How Does LLM Safety Training Fail?》：第一次系统性地给越狱攻击分了类。读完才明白，原来花了大力气的安全训练，本身也会引入新的漏洞。搞懂这个，才能真正理解越狱。
《Not what you’ve signed up for》：强烈推荐给做实际应用的同学！它讲的是“间接提示注入”比如攻击者污染了你的知识库，LLM 在调用时就会中招。这种场景在真实业务里太常见了。

即用工具

garak（开源）：我的首选自动化扫描工具。支持 GPT、Llama、Claude 等主流模型，一键检测 10 多种漏洞。我的经验：用它跑 GPT-4，十分钟就能出一份详细的风险报告，对于快速评估模型基础安全性非常高效。
Llama Guard（Meta 开源）：专注于输入/输出双端过滤。能拦截常见的越狱提示和有害内容，而且支持自定义安全规则，部署起来没什么难度。注意：它对中文越狱提示的识别能力还有提升空间，国内项目可能需要补充规则。
PromptShield：专门防御提示注入的工具，可以很灵活地嵌入到应用的前后端。实测下来，对直接注入的拦截成功率很高。

2. 隐私篇

训练数据泄露、隐私窃取，是企业最头疼的问题。

必读论文

《Extracting Training Data from Large Language Models》：2020 年的经典，第一次用实验证实 LLM 会“背诵”并泄露训练数据。虽然是早期研究，但仍是理解隐私风险的起点。
《Scalable Extraction of Training Data from (Production) Language Models》：这篇读起来更“吓人”，它证明了在生产环境的对话模型中，数据泄露比想象中更容易、更严重。能让你对隐私防护立刻重视起来。
《On Provable Copyright Protection for Generative Models》：如果你担心 AI 生成内容的版权纠纷，这篇一定要看。它提出的 NAF 框架，能给生成内容打上“隐形水印”，用来追溯来源和确权。

即用工具

LLM-Leak-Checker：用来检测你的模型是否泄露了特定敏感信息（比如内部代号、客户数据），支持批量验证，做数据发布前的自查很好用。
Presidio（微软开源）：强烈推荐用于工程落地。一个专业的自动识别与脱敏工具，手机号、邮箱、身份证号都能高效处理，并且能很好地适配 LLM 的输入输出流。
NAF-Protector：上面论文的配套实现，可以为模型生成的内容添加抗篡改的隐形水印。推出 AI 产品时，这是个很好的“自证清白”和版权保护工具。

3. 对抗攻击 / 鲁棒性

这部分研究如何生成“对抗性提示”，用一些精巧的扰动就能让 LLM 犯错，以及如何提升模型的抗干扰能力。

必读论文

《Universal and Transferable Adversarial Attacks on Aligned Language Models》：通用对抗攻击的代表作。它的厉害之处在于，生成的攻击后缀（如那个著名的“simulating”后缀）能在不同 LLM 间迁移，实用性很强。
《SmoothLLM: Defending Large Language Models Against Adversarial Attacks》：不仅讲攻击，更给出了一个优雅的防御方案。其基于“随机平滑”的思想，能在几乎不影响正常性能的前提下，有效抵御很多对抗提示。

即用工具

TextAttack：一个经典的、功能全面的文本对抗攻击框架。如果你想复现论文里的攻击方法，或者自己尝试构建攻击，这是一个很好的起点。
SmoothLLM（开源）：上面论文的官方实现。防御原理是对输入进行随机的扰动、重构，从而“平滑”掉对抗性噪声。部署简单，可以作为模型服务的前置过滤器。

4. 防御篇

有攻就有防。这部分是实打实的防护方案，从模型自检到隐私微调，覆盖全链路。

必读论文

《LLM Self Defense: Detecting and Mitigating Jailbreak Attempts》：思路很巧，让 LLM 自己给自己当“保安”。不需要额外训练，通过一套自检和反思机制，就能识别并拒绝很多恶意提示。
《Differentially Private Fine-Tuning of Language Models》：如果你需要对模型进行微调，又担心泄露微调数据（这在企业场景很常见），差分隐私（DP）是标准解决方案。这篇论文提供了很好的理论和实践平衡。

即用工具

Self-Defense-Library：上一篇论文的配套工具，可以让你的 LLM 具备基本的自我检测和拒答能力。
Hugging Face DP Trainer：基于 🤗 Transformers 的差分隐私训练器。如果你想用 DP 技术微调模型保护数据隐私，用这个可以省去大量自己编码实现噪声添加和梯度裁剪的麻烦。
NeMo Guardrails（NVIDIA 开源）：一个企业级的全链路安全工具包。功能非常全面，从事实核查、话题控制、输出过滤到权限管理都能做。如果你想为你的 AI 应用构筑一套完整的安全护栏，这是目前最专业的选项之一。

三、使用建议

先找带 ⭐ 和 🔭 的资源看，这是快速建立知识框架最高效的路径。
优先选用 GitHub 星标高（≥1k） 的工具，比如 Presidio, Llama Guard。社区活跃意味着坑少、文档全、问题容易解决。
tips：

快速安全评估：garak（扫描漏洞）+ Llama Guard（基础过滤）
隐私敏感型应用：Presidio（实时脱敏）+ DP Trainer（隐私微调）+ NAF-Protector（版权保护）
企业级全链路防护：NeMo Guardrails（定义对话规则与流程）+ Llama Guard（内容安全过滤）

写在最后

这个仓库确实是个宝藏，能帮我们省下大量东奔西找的时间。我筛选的这些，都是自己读过、用过，觉得实实在在有用的核心资源。论文都能在 Google Scholar 或 ArXiv 找到，工具也都是开源的，照着 README 就能搞。

仓库地址在这里：https://github.com/chawins/llm-sp[1]

参考资料

[1]

https://github.com/chawins/llm-sp

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：AI安全圈 heyong heyong《资源推荐：LLM 安全与隐私领域精选论文》