2026-03-17 06:55:20 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该文档是GPTSecurity第137期周报，汇总了8篇AI安全领域的学术论文，核心聚焦于大语言模型与智能体安全。主要内容包括提示注入防御的脆弱性评估、AI智能体全生命周期安全架构设计、智能体自主网络攻击能力量化评估以及针对工具链漏洞的模糊测试技术。研究发现当前LLM防御仍存缺口，建议加强运行时监控与纵深防御体系建设。 综合评分： 84 文章分类： AI安全,漏洞分析,红队,安全建设,威胁情报

cover_image

第137期 | GPTSecurity周报

原创

知识分享者知识分享者

安全极客

2026年3月16日 17:35 北京

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

PISmith：基于强化学习的红队演练在快速注入防御中的应用

摘要：提示注入对现实世界的 LLM 应用（尤其是自主智能体）构成严重安全风险。尽管已提出多种防御方案，但其对自适应攻击的鲁棒性仍缺乏充分评估，可能产生虚假的安全感。本文提出 PISmith，一个基于强化学习的红队测试框架，通过训练攻击 LLM 在实际黑盒设置下（攻击者只能查询被防御的 LLM 并观察输出）优化注入提示，系统评估现有提示注入防御。研究发现，将标准 GRPO 直接用于攻击强防御会因极端奖励稀疏性导致次优性能——大多数生成的注入提示被防御拦截，策略熵在发现有效策略之前就已崩溃。为此，提出自适应熵正则化和动态优势加权，以维持探索并从稀缺成功中放大学习。在 13 个基准上的广泛评估表明，最先进的提示注入防御对自适应攻击仍然脆弱。PISmith 在针对 GPT-4o-mini 和 GPT-5-nano 的智能体设置 InjecAgent 和 AgentDojo 上取得强劲性能。

链接：

https://arxiv.org/abs/2603.13026

智能体人工智能的攻防格局：一项综合调查

摘要：将大语言模型与非 AI 系统组件相结合的 AI 智能体正在现实应用中快速涌现，提供了前所未有的自动化和灵活性。然而，这种灵活性带来了与传统软件系统根本不同的复杂安全挑战。本文提出了首个系统性、全面性的 AI 智能体安全调查，包括对安全 AI 智能体系统的设计空间、攻击格局和防御机制的分析。研究还通过案例研究指出了当前 AI 智能体系统安全保障中的现存差距，并识别了该新兴领域的开放挑战。本文引入了首个系统性框架，用于理解 AI 智能体的安全风险和防御策略，为构建安全智能体系统和推进该关键领域研究奠定基础。

链接：

https://arxiv.org/abs/2603.11088

揭示自主智能体中的安全威胁并构建防御体系：以OpenClaw为例

摘要：本文对 OpenClaw 框架进行全面安全分析，识别出四类关键漏洞：提示注入驱动的远程代码执行、顺序工具攻击链、上下文遗忘和供应链污染。研究提出三层风险分类法和全生命周期智能体安全架构，系统覆盖了从智能体创建到执行退休的全过程安全威胁。每类威胁均配有具体攻击场景演示和对应缓解策略，为自主 LLM 智能体部署提供实用安全指南。

链接：

https://arxiv.org/abs/2603.12644

衡量人工智能智能体在多步骤网络攻击场景中的进展

摘要：本文评估了前沿模型在多步网络攻击场景中的自主能力。研究观察到性能随推理计算量呈对数线性扩展规律，最新模型在包含 32 步任务的企业网络范围模拟环境中平均完成 9.8 步。实验覆盖侦察、漏洞利用、横向移动等多个攻击阶段，结果表明当前最先进的 LLM 已具备一定的自主网络攻击能力，但在需要多步逻辑推理的复杂攻击链上仍存在明显瓶颈，为评估 AI 网络安全能力提供了量化基准。

链接：

https://arxiv.org/abs/2603.11214

驯服OpenClaw：自主LLM智能体威胁的安全分析与缓解

摘要：本文提出五层生命周期导向的安全框架，系统检查自主 LLM 智能体面临的跨时间威胁，包括间接提示注入、技能供应链污染、记忆中毒和意图漂移。研究特别关注威胁在智能体长期运行中如何随时间演化和积累，提出相应的持续监控和动态缓解策略，并通过在 OpenClaw 平台上的实证研究验证了框架的有效性。

链接：

https://arxiv.org/abs/2603.11619

ChainFuzzer：LLM智能体中工作流级多工具漏洞的灰盒模糊测试

摘要：工具增强型 LLM 智能体越来越多地依赖多步骤、多工具工作流来完成真实任务，这在工具间数据流中产生了单工具测试无法发现的组合漏洞。本文提出 ChainFuzzer 框架，通过三种机制发现此类漏洞：利用数据流证据识别高影响操作、使用轨迹引导提示求解稳定触发目标工具链、执行感知护栏的模糊测试以绕过内置防护。在包含 998 个工具的 20 个开源智能体应用上的测试结果：ChainFuzzer 提取了 2388 条候选工具链，合成 2213 个稳定提示，在 19/20 个应用中确认了 365 个独特、可重现的漏洞，实现每百万令牌 3.02 个漏洞的发现效率。

链接：

https://arxiv.org/abs/2603.12614

RTD-Guard：一种基于替换令牌检测的黑盒文本对抗检测框架

摘要：本文开发了一种无需微调、仅需两次黑盒查询即可检测对抗性文本的框架，利用”替换令牌检测”原理识别通过字符级或词级扰动生成的恶意输入。RTD-Guard 无需访问模型内部参数，在不同文本分类任务上对多种对抗攻击方法均展示了良好的检测性能，为受限黑盒场景下的文本对抗防御提供了实用解决方案。

链接：

https://arxiv.org/abs/2603.12582

OpenClaw PRISM：面向工具增强型LLM智能体的零分支、纵深防御运行时安全层

摘要：本文为 OpenClaw 智能体网关设计了零分叉运行时安全层 PRISM，无需修改现有代码库即可集成。系统通过混合启发式加 LLM 扫描管道，结合十个生命周期钩子实现分布式执行监控。PRISM 在运行时对工具调用、数据流和智能体行为进行持续安全审计，支持细粒度的策略执行，在不引入显著性能开销的前提下提供全面的运行时安全保障。

链接：

https://arxiv.org/abs/2603.11853

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者知识分享者《第137期 | GPTSecurity周报》