文章总结: 本文评述了USENIXSecurity2025论文《PoisonedRAG》,该研究系统揭示了检索增强生成(RAG)系统中的知识污染风险。文章指出,RAG在扩展模型知识的同时,也将安全边界延伸至外部知识库,攻击者可通过注入少量污染文本隐蔽地操纵模型输出。论文通过黑盒与白盒攻击实验验证了该风险,并指出现有防御措施存在局限。最后,文章建议RAG系统需加强知识入库治理、检索可信评估和生成证据约束,并呼吁将知识库安全纳入人工智能安全治理重点。 综合评分: 88 文章分类: AI安全,数据安全,应用安全,威胁情报,漏洞分析
当大模型依赖外部知识库,安全边界随之延伸:评 PoisonedRAG 对 RAG 知识污染风险的系统揭示
原创
王皓 王皓
信息网络安全杂志
2026年6月26日 11:00 上海
在小说阅读器读本章
去阅读
01
引子
USENIX Security 2025 论文《PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models》,系统揭示了检索增强生成(RAG)系统中的知识污染风险。随着大模型广泛应用于政务服务、金融风控、医疗咨询、网络安全和行业知识问答等场景,RAG 已成为提升模型知识时效性和减少幻觉的重要技术路线。然而,RAG 在引入外部知识库的同时,也将系统安全边界从模型本体延伸到了知识来源、检索链路和证据使用过程。
02
深度解剖
从工程角度看,RAG 的逻辑并不复杂:系统先根据用户问题到知识库中“找资料”,再让大模型依据这些资料生成回答。过去很多研究主要关注检索是否准确、生成是否流畅、系统是否高效,但 PoisonedRAG 提醒我们:如果被检索到的材料本身已经被污染,模型越善于组织语言,越可能把错误内容包装成看似可信的答案。
这篇论文的价值在于,它把 RAG 的风险点从“模型是否会幻觉”推进到“模型依据的知识是否可信”。攻击者不一定需要修改模型参数,也不一定要使用明显的提示注入命令,只要能向知识库中混入少量表面正常、语义相关但结论错误的文本,就可能影响系统在特定问题上的回答。相比直接命令模型,这类攻击更像把恶意意图伪装成普通知识,因此更加隐蔽。
论文将攻击成功归纳为两个条件:一是恶意文本要能被检索器召回,二是被召回后要能影响大模型生成攻击者设定的答案。围绕这两个条件,作者设计了黑盒和白盒两类攻击方案。黑盒场景下,攻击者无需掌握目标知识库、检索器和大模型细节,只根据目标问题与目标答案构造污染文本;白盒场景下,则可利用检索器信息进一步提高恶意文本被召回的概率。
实验显示,这一风险具有较强现实警示意义。论文在 Natural Questions、HotpotQA 和 MS-MARCO 等数据集上,结合多种检索器和大模型进行评估。结果表明,即使知识库规模达到百万级,每个目标问题只注入少量恶意文本,也可能显著改变系统输出。此外测试了问题改写、困惑度检测及重复文本过滤等方法,但这些防御只能部分缓解风险,难以从根本上阻断知识污染攻击。
03
局限与展望
需要看到,论文结论仍有边界。首先,PoisonedRAG 主要从攻击视角展开,尚未形成完整、可直接落地的系统防护框架。其次,实验主要围绕文本问答式 RAG 展开,对于多模态知识库、结构化数据库、知识图谱 RAG 以及高度权限化的政务私域知识平台,还需要进一步验证。再次,论文假设攻击者能够向知识库注入少量文本,而在强准入、强审核、强版本管理场景下,攻击成本会明显升高。
但这些边界并不削弱论文的启示意义。后续 RAG 系统建设至少需要补齐三类能力:一是知识入库治理,包括来源认证、版本追踪、完整性校验和异常变更告警;二是检索可信评估,包括多源互证、冲突检测、来源信誉评分和高风险问题复核;三是生成阶段证据约束,即模型回答必须绑定可验证来源,在证据不足或冲突时提示不确定性。
未来值得继续推进的方向包括:建立知识污染检测与溯源机制,识别大规模动态知识库中的少量高影响恶意文本;构建 RAG 安全评测基准,将知识库污染、检索偏置、证据冲突、引用失真和输出误导纳入统一测试。只有这样,RAG 才能从“接入知识”走向“治理知识”,从“能回答”走向“可信回答”。
04
写在最后
对我国人工智能安全治理和行业大模型建设而言,PoisonedRAG 至少带来三点启示。第一,人工智能安全不能只关注大模型本体,知识库、检索器、数据管道和证据链同样关键。第二,政务大模型、行业大模型和开源情报分析系统中的 RAG,不是简单的“外挂资料库”,而是一条新的知识供应链;只要存在污染入口,模型输出就可能被系统性操纵。第三,面向重要行业和公共治理场景,应将 RAG 知识库安全纳入系统验收、运行监测和安全评估重点,形成从知识来源到模型输出的全流程可信闭环。
本期点评论文
推荐人:王皓(西安电子科技大学教授,可信人工智能)
原文标题:
PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models
原文作者:
Wei Zou,Runpeng Geng,Binghui Wang,et al.
期刊/会议:
34th USENIX Security Symposium
版权与来源声明:本文依据《中华人民共和国著作权法》第二十四条之规定,为介绍、评选之目的,在此适当引用。原文版权归原作者所有。原文版权归原作者所有。
信息网络安全
《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 王皓 王皓《当大模型依赖外部知识库,安全边界随之延伸:评 PoisonedRAG 对 RAG 知识污染风险的系统揭示》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论