文章总结: 本周报汇总7篇AI安全前沿研究,涵盖提示注入防御框架、代码漏洞检测工具、LLM红队测试等,提出多层防护方案与自动化漏洞发现方法,并指出技能生态系统需加强资源审查。 综合评分: 85 文章分类: AI安全,漏洞分析,红队,安全工具,威胁情报
第149期|GPTSecurity周报
原创
知识分享者 知识分享者
安全极客
2026年6月22日 17:48 北京
在小说阅读器读本章
去阅读
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
- 针对基于RAG的聊天机器人中提示注入的分层安全框架
简介:针对 OWASP 排名首位的 LLM 漏洞——提示注入,本文提出了一种面向 RAG 聊天机器人的三层中间件框架。第一层使用规则与微调分类器对用户输入进行筛查;第二层在上下文组装阶段强制执行基于来源溯源的指令层级;第三层使用策略引擎与漂移检测器对输出进行审计。在 GPT-4o、Llama 3 与 Mistral 7B 上的 5,080 个样本评测中,该框架将攻击成功率从 71.4% 降至 11.3%,优于单层基线,假阳性率约 4.8%,中位延迟开销约 61.2 毫秒。
链接:
https://arxiv.org/abs/2606.19660
- CodeSentinel:代码上下文中针对间接提示注入的三层防御
简介:代码 LLM 摄入外部上下文(仓库、文档、issues),由此通过注释、字符串或标识符产生注入路径。CodeSentinel 是一个推理时的清洗器,利用 Tree-sitter 抽取高风险的具体语法树(CST)节点,然后依次应用语法引导的预过滤、CST 引导的动态 Min-K% 评分以及节点扰动分析,以识别对抗性或拟自然语言的触发。被标记的节点会被移除或中和。在六类攻击家族上,平均节点级 F1 达 0.80,优于 CodeGarrison、DePA 与 KillBadCode。
链接:
https://arxiv.org/abs/2606.19235
- SafeClawBench:在工具调用LLM智能体中区分语义、审计证据与沙箱危害
简介:SafeClawBench 是一个分阶段的工具调用智能体对抗基准,包含 600 个任务,覆盖六类攻击家族,包括直接/间接提示注入、工具返回注入、记忆投毒、记忆提取与歧义性诱发的不安全推理。它分别对语义接受、审计可见的危害证据以及沙箱观察到的工具/状态危害进行评分。在没有提示防护时,语义层失败率介于 9.0% 与 44.2%。一项 12,000 行的配对分析发现,347 个沙箱危害样本中有 291 个通过了语义检查,说明各评估端点暴露的失败模式互不相同。
链接:
https://arxiv.org/abs/2606.18356
- Anthropic Fable 5 与 Opus 4.8 模型的红队研究
简介:作者使用 HackAgent 对 Anthropic 的 Fable 5 与 Opus 4.8 运行了 4 类自动化越狱攻击,覆盖 10 个类别、共 7,826 条有害意图,并由三个评判模型多数投票判定成功与否。两个模型阻止了大多数攻击,但 tree-of-attacks 在 Opus 4.8 上对 11.5% 的意图越狱成功,在 Fable 5 上则达到 6.1%。研究共记录了 Opus 4.8 上 1,620 条、Fable 5 上 702 条已确认的有害补全,结论是前沿模型在持续的自动化压力下仍可被攻破。
链接:
https://arxiv.org/abs/2606.18193
- OpenAnt:通过代码分解、对抗性验证与动态测试的LLM漏洞发现
简介:OpenAnt 是一个开源流水线,结合静态分析与 LLM 推理用于仓库级漏洞发现。它使用三项技术:将代码分解为可达性过滤的单元、通过攻击者模拟进行对抗性验证、在沙箱中进行动态漏洞利用验证。在 OpenSSL、WordPress 与 Flowise 上的评测中发现了新颖漏洞,并降低了假阳性率。
链接:
https://arxiv.org/abs/2606.19149
- ARVO:开源软件可复现漏洞图谱
简介:ARVO 基于 OSS-Fuzz 构建了一个可复现漏洞数据集,包含 311 个项目中的 6,100 多个真实漏洞。每个漏洞均可在不同版本上稳定地重建、触发与分析,从而支持自动化补丁定位。系统成功复现了 81% 的漏洞,补丁定位准确率达 89.4%。论文被 EuroS&P 2026 接收。
链接:
https://arxiv.org/abs/2606.17283
- PhantomSkill:智能体技能生态系统中的恶意代码注入
简介:本文提出了一种攻击框架,将恶意行为隐藏在 LLM 智能体技能的辅助资源中,而非其文本描述中。其 VulMask 技术将明显的恶意脚本改写为形似漏洞的代码,仅在攻击者触发器存在时才会被激活。评测显示该攻击能保持效用同时降低被检测率,表明技能生态系统需要资源级别的审查与运行时容器化隔离。
链接:
https://arxiv.org/abs/2606.19191
-End-
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全极客 知识分享者 知识分享者《第149期|GPTSecurity周报》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论