文章总结: 本文推荐GitHub仓库llm-sp,汇总LLM安全与隐私领域的核心论文与工具。内容涵盖提示注入、越狱等漏洞分析,隐私数据泄露防护,对抗攻击与鲁棒性,及全链路防御方案。作者筛选了garak、LlamaGuard、Presidio等实用工具,并提供了针对快速评估、隐私保护和企业级防护的具体组合建议,助力高效构建安全防御体系。 综合评分: 89 文章分类: AI安全,安全工具,漏洞分析,解决方案,数据安全
资源推荐:LLM 安全与隐私领域精选论文
原创
heyong heyong
AI安全圈
2026年1月20日 12:41 江苏
最近在 GitHub 瞎逛,无意中挖到一个宝贝仓库:「llm-sp」。
这个仓库,从漏洞、隐私到攻防,相关的论文、数据集和工具都被整理好了。
花了两天时间,我把它快速地啃了一遍,结合自己以前踩过的坑,把每个方向最核心的论文和工具都筛了出来。
一、为什么推荐?
专门搜集 LLM 安全和隐私,维护也相当用心,结构清晰,按漏洞、隐私、工具等分类;资源经过筛选,有维护者推荐(⭐)标识,论文和工具均为领域内知名工作。
最让我舒服的是它的标识系统,一目了然:
- ⭐ = 维护者强推,质量通常很高
- 💽 = 数据集或核心框架
- 🔭 = 综述论文,入门必看
光凭这几点,就帮我省下了大把盲目搜索的时间。
二、核心干货
1. 漏洞篇
这里梳理了提示注入、越狱这些常见漏洞。必读论文(我自己读下来收获最大的)
- 《Ignore Previous Prompt》:提示注入的开山之作。虽然是 2022 年的老文,但把“如何覆盖系统指令”的逻辑讲透了,至今仍是理解各类注入攻击的基石。
- 《Jailbroken: How Does LLM Safety Training Fail?》:第一次系统性地给越狱攻击分了类。读完才明白,原来花了大力气的安全训练,本身也会引入新的漏洞。搞懂这个,才能真正理解越狱。
- 《Not what you’ve signed up for》:强烈推荐给做实际应用的同学!它讲的是“间接提示注入”比如攻击者污染了你的知识库,LLM 在调用时就会中招。这种场景在真实业务里太常见了。
即用工具
- garak(开源):我的首选自动化扫描工具。支持 GPT、Llama、Claude 等主流模型,一键检测 10 多种漏洞。我的经验:用它跑 GPT-4,十分钟就能出一份详细的风险报告,对于快速评估模型基础安全性非常高效。
- Llama Guard(Meta 开源):专注于输入/输出双端过滤。能拦截常见的越狱提示和有害内容,而且支持自定义安全规则,部署起来没什么难度。注意:它对中文越狱提示的识别能力还有提升空间,国内项目可能需要补充规则。
- PromptShield:专门防御提示注入的工具,可以很灵活地嵌入到应用的前后端。实测下来,对直接注入的拦截成功率很高。
2. 隐私篇
训练数据泄露、隐私窃取,是企业最头疼的问题。
必读论文
- 《Extracting Training Data from Large Language Models》:2020 年的经典,第一次用实验证实 LLM 会“背诵”并泄露训练数据。虽然是早期研究,但仍是理解隐私风险的起点。
- 《Scalable Extraction of Training Data from (Production) Language Models》:这篇读起来更“吓人”,它证明了在生产环境的对话模型中,数据泄露比想象中更容易、更严重。能让你对隐私防护立刻重视起来。
- 《On Provable Copyright Protection for Generative Models》:如果你担心 AI 生成内容的版权纠纷,这篇一定要看。它提出的 NAF 框架,能给生成内容打上“隐形水印”,用来追溯来源和确权。
即用工具
- LLM-Leak-Checker:用来检测你的模型是否泄露了特定敏感信息(比如内部代号、客户数据),支持批量验证,做数据发布前的自查很好用。
- Presidio(微软开源):强烈推荐用于工程落地。一个专业的自动识别与脱敏工具,手机号、邮箱、身份证号都能高效处理,并且能很好地适配 LLM 的输入输出流。
- NAF-Protector:上面论文的配套实现,可以为模型生成的内容添加抗篡改的隐形水印。推出 AI 产品时,这是个很好的“自证清白”和版权保护工具。
3. 对抗攻击 / 鲁棒性
这部分研究如何生成“对抗性提示”,用一些精巧的扰动就能让 LLM 犯错,以及如何提升模型的抗干扰能力。
必读论文
- 《Universal and Transferable Adversarial Attacks on Aligned Language Models》:通用对抗攻击的代表作。它的厉害之处在于,生成的攻击后缀(如那个著名的“simulating”后缀)能在不同 LLM 间迁移,实用性很强。
- 《SmoothLLM: Defending Large Language Models Against Adversarial Attacks》:不仅讲攻击,更给出了一个优雅的防御方案。其基于“随机平滑”的思想,能在几乎不影响正常性能的前提下,有效抵御很多对抗提示。
即用工具
- TextAttack:一个经典的、功能全面的文本对抗攻击框架。如果你想复现论文里的攻击方法,或者自己尝试构建攻击,这是一个很好的起点。
- SmoothLLM(开源):上面论文的官方实现。防御原理是对输入进行随机的扰动、重构,从而“平滑”掉对抗性噪声。部署简单,可以作为模型服务的前置过滤器。
4. 防御篇
有攻就有防。这部分是实打实的防护方案,从模型自检到隐私微调,覆盖全链路。
必读论文
- 《LLM Self Defense: Detecting and Mitigating Jailbreak Attempts》:思路很巧,让 LLM 自己给自己当“保安”。不需要额外训练,通过一套自检和反思机制,就能识别并拒绝很多恶意提示。
- 《Differentially Private Fine-Tuning of Language Models》:如果你需要对模型进行微调,又担心泄露微调数据(这在企业场景很常见),差分隐私(DP)是标准解决方案。这篇论文提供了很好的理论和实践平衡。
即用工具
- Self-Defense-Library:上一篇论文的配套工具,可以让你的 LLM 具备基本的自我检测和拒答能力。
- Hugging Face DP Trainer:基于 🤗 Transformers 的差分隐私训练器。如果你想用 DP 技术微调模型保护数据隐私,用这个可以省去大量自己编码实现噪声添加和梯度裁剪的麻烦。
- NeMo Guardrails(NVIDIA 开源):一个企业级的全链路安全工具包。功能非常全面,从事实核查、话题控制、输出过滤到权限管理都能做。如果你想为你的 AI 应用构筑一套完整的安全护栏,这是目前最专业的选项之一。
三、使用建议
- 先找带 ⭐ 和 🔭 的资源看,这是快速建立知识框架最高效的路径。
- 优先选用 GitHub 星标高(≥1k) 的工具,比如 Presidio, Llama Guard。社区活跃意味着坑少、文档全、问题容易解决。
- tips:
- 快速安全评估:
garak(扫描漏洞)+Llama Guard(基础过滤) - 隐私敏感型应用:
Presidio(实时脱敏)+DP Trainer(隐私微调)+NAF-Protector(版权保护) - 企业级全链路防护:
NeMo Guardrails(定义对话规则与流程)+Llama Guard(内容安全过滤)
写在最后
这个仓库确实是个宝藏,能帮我们省下大量东奔西找的时间。我筛选的这些,都是自己读过、用过,觉得实实在在有用的核心资源。论文都能在 Google Scholar 或 ArXiv 找到,工具也都是开源的,照着 README 就能搞。
仓库地址在这里:https://github.com/chawins/llm-sp[1]
参考资料
[1]
https://github.com/chawins/llm-sp
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:AI安全圈 heyong heyong《资源推荐:LLM 安全与隐私领域精选论文》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论