2026-06-30 10:21:11 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文评述了USENIXSecurity2025论文《PoisonedRAG》，该研究系统揭示了检索增强生成（RAG）系统中的知识污染风险。文章指出，RAG在扩展模型知识的同时，也将安全边界延伸至外部知识库，攻击者可通过注入少量污染文本隐蔽地操纵模型输出。论文通过黑盒与白盒攻击实验验证了该风险，并指出现有防御措施存在局限。最后，文章建议RAG系统需加强知识入库治理、检索可信评估和生成证据约束，并呼吁将知识库安全纳入人工智能安全治理重点。 综合评分： 88 文章分类： AI安全,数据安全,应用安全,威胁情报,漏洞分析

cover_image

当大模型依赖外部知识库，安全边界随之延伸：评 PoisonedRAG 对 RAG 知识污染风险的系统揭示

原创

王皓王皓

信息网络安全杂志

2026年6月26日 11:00 上海

在小说阅读器读本章

去阅读

引子

USENIX Security 2025 论文《PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models》，系统揭示了检索增强生成（RAG）系统中的知识污染风险。随着大模型广泛应用于政务服务、金融风控、医疗咨询、网络安全和行业知识问答等场景，RAG 已成为提升模型知识时效性和减少幻觉的重要技术路线。然而，RAG 在引入外部知识库的同时，也将系统安全边界从模型本体延伸到了知识来源、检索链路和证据使用过程。

深度解剖

从工程角度看，RAG 的逻辑并不复杂：系统先根据用户问题到知识库中“找资料”，再让大模型依据这些资料生成回答。过去很多研究主要关注检索是否准确、生成是否流畅、系统是否高效，但 PoisonedRAG 提醒我们：如果被检索到的材料本身已经被污染，模型越善于组织语言，越可能把错误内容包装成看似可信的答案。

这篇论文的价值在于，它把 RAG 的风险点从“模型是否会幻觉”推进到“模型依据的知识是否可信”。攻击者不一定需要修改模型参数，也不一定要使用明显的提示注入命令，只要能向知识库中混入少量表面正常、语义相关但结论错误的文本，就可能影响系统在特定问题上的回答。相比直接命令模型，这类攻击更像把恶意意图伪装成普通知识，因此更加隐蔽。

论文将攻击成功归纳为两个条件：一是恶意文本要能被检索器召回，二是被召回后要能影响大模型生成攻击者设定的答案。围绕这两个条件，作者设计了黑盒和白盒两类攻击方案。黑盒场景下，攻击者无需掌握目标知识库、检索器和大模型细节，只根据目标问题与目标答案构造污染文本；白盒场景下，则可利用检索器信息进一步提高恶意文本被召回的概率。

实验显示，这一风险具有较强现实警示意义。论文在 Natural Questions、HotpotQA 和 MS-MARCO 等数据集上，结合多种检索器和大模型进行评估。结果表明，即使知识库规模达到百万级，每个目标问题只注入少量恶意文本，也可能显著改变系统输出。此外测试了问题改写、困惑度检测及重复文本过滤等方法，但这些防御只能部分缓解风险，难以从根本上阻断知识污染攻击。

局限与展望

需要看到，论文结论仍有边界。首先，PoisonedRAG 主要从攻击视角展开，尚未形成完整、可直接落地的系统防护框架。其次，实验主要围绕文本问答式 RAG 展开，对于多模态知识库、结构化数据库、知识图谱 RAG 以及高度权限化的政务私域知识平台，还需要进一步验证。再次，论文假设攻击者能够向知识库注入少量文本，而在强准入、强审核、强版本管理场景下，攻击成本会明显升高。

但这些边界并不削弱论文的启示意义。后续 RAG 系统建设至少需要补齐三类能力：一是知识入库治理，包括来源认证、版本追踪、完整性校验和异常变更告警；二是检索可信评估，包括多源互证、冲突检测、来源信誉评分和高风险问题复核；三是生成阶段证据约束，即模型回答必须绑定可验证来源，在证据不足或冲突时提示不确定性。

未来值得继续推进的方向包括：建立知识污染检测与溯源机制，识别大规模动态知识库中的少量高影响恶意文本；构建 RAG 安全评测基准，将知识库污染、检索偏置、证据冲突、引用失真和输出误导纳入统一测试。只有这样，RAG 才能从“接入知识”走向“治理知识”，从“能回答”走向“可信回答”。

写在最后

对我国人工智能安全治理和行业大模型建设而言，PoisonedRAG 至少带来三点启示。第一，人工智能安全不能只关注大模型本体，知识库、检索器、数据管道和证据链同样关键。第二，政务大模型、行业大模型和开源情报分析系统中的 RAG，不是简单的“外挂资料库”，而是一条新的知识供应链；只要存在污染入口，模型输出就可能被系统性操纵。第三，面向重要行业和公共治理场景，应将 RAG 知识库安全纳入系统验收、运行监测和安全评估重点，形成从知识来源到模型输出的全流程可信闭环。

本期点评论文

推荐人：王皓（西安电子科技大学教授，可信人工智能）

原文标题：

PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models

原文作者：

Wei Zou，Runpeng Geng，Binghui Wang，et al.

期刊/会议：

34th USENIX Security Symposium

版权与来源声明：本文依据《中华人民共和国著作权法》第二十四条之规定，为介绍、评选之目的，在此适当引用。原文版权归原作者所有。原文版权归原作者所有。

信息网络安全

《信息网络安全》创刊于2001年，是由公安部主管，公安部第三研究所、中国计算机学会主办，面向国内外公开发行的国内首批信息安全类期刊之一，于2015年成为中国科技核心期刊，2017年成为中国科学引文数据库来源期刊，2018年成为中文核心期刊，2022年入选CCF计算领域高质量科技期刊分级目录。

中文核心期刊

中国科技核心期刊

中国科学引文数据库来源期刊

CCF计算领域高质量科技期刊

我们在不断努力和完善中，期待您的关注和支持！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：信息网络安全杂志王皓王皓《当大模型依赖外部知识库，安全边界随之延伸：评 PoisonedRAG 对 RAG 知识污染风险的系统揭示》