2026-04-28 06:02:00 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本期GPTSecurity周报汇总九篇AI安全论文，涵盖LLM后门攻击与防御、自适应红队指令组合、提示注入检测、多智能体代码漏洞检测、数字孪生自适应渗透框架及AI安全评估框架AVISE等研究，展现AI在攻防两端的深度应用趋势，建议关注多智能体协同与自动化攻防技术进展。 综合评分： 75 文章分类： AI安全,漏洞分析,渗透测试,代码审计,红队

cover_image

第142期 | GPTSecurity周报

原创

知识分享者知识分享者

安全极客

2026年4月27日 17:35 北京

在小说阅读器读本章

去阅读

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

基于自然风格触发器的隐蔽型大模型后门攻击

简介：大语言模型（LLM）在安全关键领域的应用日益广泛，引发了人们对其安全性的迫切关注。近期多项研究已证实针对LLM的后门攻击是可行的。然而，现有方法存在三个关键缺陷：显式触发模式会损害自然性；长文本生成过程中攻击者指定有效载荷的注入不可靠；以及威胁模型描述不完整，难以揭示后门在实践中的传播和激活方式。

为了弥补这些不足，研究者提出了BadStyle，一个完整的后门攻击框架和流程。BadStyle利用LLM作为毒化样本生成器，构建自然且隐蔽的毒化样本，这些样本携带难以察觉的风格级触发信号，同时保持语义和流畅性。为了在微调过程中稳定有效载荷注入，研究者设计了一种辅助目标损失函数，该函数会强化对毒化输入的响应中攻击者指定的目标内容，并惩罚其在正常响应中的出现。

研究者进一步将攻击置于一个真实的威胁模型中，并系统地评估了 BadStyle 在提示诱导和基于 PEFT 的注入策略下的性能。在包括 LLaMA、Phi、DeepSeek 和 GPT 系列在内的七个受害 LLM 上进行的大量实验表明，BadStyle 在保持强大隐蔽性的同时，实现了较高的攻击成功率 (ASR)。所提出的辅助目标丢失显著提高了后门激活的稳定性，在不同触发方式下，平均 ASR 提升了约 30%。即使在注入过程中未知的下游部署场景中，植入的后门仍然有效。此外，BadStyle 能够持续绕过典型的输入级防御，并通过简单的伪装绕过输出级防御。

链接：

https://arxiv.org/abs/2604.21700

面向自动化大模型红队的自适应指令组合

简介：许多LLM红队方法利用攻击者的LLM来发现针对目标的越狱漏洞。其中一些方法要求攻击者通过反复试验来识别有效策略，导致成功范围在语义上受到限制。另一种方法是将众包的有害查询和策略组合成攻击者的指令，从而发现多样化的攻击，但这种方法是随机的，限制了有效性。

本文提出了一种新的框架——自适应指令组合，它根据一种自适应机制组合众包文本，该机制经过训练，可以同时优化有效性和多样性。研究者使用强化学习在指令的组合空间中平衡探索和利用，从而引导攻击者生成针对目标漏洞的多样化指令。研究者证明，即使在模型迁移的情况下，研究者的方法在一系列有效性和多样性指标上也显著优于随机组合。此外，研究者还证明，它在Harmbench上优于许多最新的自适应方法。研究者采用了一种轻量级的神经上下文强盗算法，该算法可以适应对比嵌入输入，并通过消融实验表明，对比预训练使网络能够在学习过程中快速泛化并扩展到大规模空间。

链接：

https://arxiv.org/abs/2604.21159

超越模式匹配：七种跨领域提示注入检测技术

简介：当前开源的提示注入检测器主要采用两种架构：正则表达式模式匹配和微调的Transformer分类器。然而，两者都存在一些共同的缺陷，而近期的研究已经证实了这些缺陷。正则表达式无法检测到释义攻击。微调分类器则容易受到自适应攻击者的攻击：2025年NAACL的一项研究报告指出，八种已发表的间接注入防御机制在自适应攻击下，攻击成功率超过50%。

本文提出了七种检测技术，每种技术都移植了来自大语言模型安全领域之外的特定机制：法庭语言学、材料科学疲劳分析、网络安全欺骗技术、生物信息学局部序列比对、经济学机制设计、流行病学频谱信号分析以及编译器理论污点追踪。提示盾 v0.4.1 版本（Apache 2.0 许可）实现了七种技术中的三种，并在包含 deepset/提示注入、NotInject、LLMail-Inject、AgentHarm 和 AgentDojo 在内的六个数据集上进行了四种配置的消融测试评估。局部对齐检测器将 deepset 数据集的 F1 值从 0.033 提升至 0.378，且未增加任何假阳性。文体计量检测器在间接注入基准测试中将 F1 值提高了 11.1 个百分点。疲劳跟踪器通过探测活动集成测试进行了验证。所有代码、数据和复现脚本均以 Apache 2.0 许可发布。

链接：

https://arxiv.org/abs/2604.18248

面向成本效率的异构多智能体代码漏洞检测架构

简介：自动化代码漏洞检测对软件安全至关重要，但现有方法面临着检测精度和计算成本之间的根本性权衡。研究者提出了一种受博弈论原理启发的异构多智能体架构，该架构结合了基于云的LLM专家和本地轻量级验证器。研究者的“3+1”架构部署了三个基于云的专家智能体（DeepSeek-V3），它们从互补的角度（代码结构、安全模式和调试逻辑）并行分析代码，同时本地验证器（Qwen3-8B）以零边际成本执行对抗性验证。

研究者通过一个双层博弈框架来形式化这一设计：（1）专家之间的合作博弈，从不同角度捕捉超加性价值；（2）对抗性验证博弈，模拟质量保证激励机制。

研究者在 NIST Juliet 测试套件的 262 个真实样本上进行了实验，这些样本涵盖 14 种 CWE 类型，并平衡了易受攻击类和良性类。实验结果表明，研究者的方法在每个样本成本为 0.002 美元的情况下，实现了 77.2% 的 F1 分数、62.9% 的精确率和 100% 的召回率，优于单专家 LLM 基线（F1 分数为 71.4%）和 Cppcheck 静态分析（MCC 为 0）。对抗验证器通过过滤误报显著提高了精确率（+10.3 个百分点，p < 1e-6，McNemar 检验），而并行执行则实现了 3.0 倍的加速。

研究者的工作表明，博弈论设计原则可以指导构建高效的异构多智能体架构，以应对对成本敏感的软件工程任务。

链接：

https://arxiv.org/abs/2604.21282

Automation-Exploit：基于数字孪生的自适应自动化渗透框架

简介：攻击性安全领域高度分散：企业平台因拒绝服务 (DoS) 风险而避免内存损坏漏洞；自动漏洞利用生成 (AEG) 系统面临语义盲区；大语言模型 (LLM) 代理则面临安全对齐过滤器和“实弹”执行风险。研究者提出了 Automation-Exploit，这是一个完全自主的多代理系统 (MAS) 框架，专为复杂黑盒场景中的自适应攻击性安全而设计。它通过自主地跨多个协议提取可执行文件和上下文信息，弥合了侦察和利用之间的抽象鸿沟，并利用这些数据驱动逻辑攻击和二进制攻击链。

该框架引入了一种自适应安全架构来降低 DoS 风险。虽然它本身就能解决逻辑漏洞和基于 Web 的漏洞，但它对高风险的内存损坏缺陷采用了条件同构验证：如果目标二进制文件成功提取，它会动态实例化一个跨平台的数字孪生体。通过强制执行严格的状态同步，包括 libc 对齐和运行时文件描述符挂钩，潜在的破坏性有效载荷会在隔离的副本中进行迭代调试。这使得在物理目标上执行风险极低的“一次性”攻击成为可能。研究者在八个场景（包括未公开的零日漏洞环境，以排除 LLM 数据污染的可能性）中进行了实证评估，验证了框架的架构弹性，证明了其能够防止“实战”崩溃，并在实际目标上执行风险缓解的攻击。

链接：

https://arxiv.org/abs/2604.22427

用于漏洞发现的多智能体 Harness 自动合成

简介：LLM代理已经开始发现真正的安全漏洞，这些漏洞是人工审计员和自动化模糊测试工具几十年来都未能发现的，而且这些漏洞存在于可获取源代码的目标系统中，分析师可以构建并检测代码。实际上，这项工作由多个代理分工完成，并通过一个框架连接起来：该框架程序负责确定哪些角色存在、它们如何传递信息、每个角色可以调用哪些工具以及如何协调重试。

当语言模型保持不变时，即使只更改框架，也能使公开代理基准测试的成功率提高数倍，然而大多数框架都是手工编写的；最新的框架优化器每个都只搜索设计空间的一小部分，并且依赖于粗略的通过/失败反馈，而这种反馈无法提供关于测试失败原因的诊断信息。AgentFlow通过一种类型化的图DSL解决了这两个局限性，该DSL的搜索空间共同涵盖了代理角色、提示、工具、通信拓扑和协调协议，并配合一个反馈驱动的外循环，该外循环从目标程序本身读取运行时信号，以诊断框架的哪个部分导致了失败，并据此进行重写。

研究者使用 Claude Opus 4.6 在 TerminalBench-2 上评估 AgentFlow，并使用 Kimi K2.5 在 Google Chrome 上评估 AgentFlow。AgentFlow 在 TerminalBench-2 上达到了 84.3%，这是研究者评估的公开排行榜快照中的最高分，并且发现了 Google Chrome 中 10 个以前未知的零日漏洞，其中包括两个严重的沙箱逃逸漏洞（CVE-2026-5280 和 CVE-2026-6297）。

链接：

https://arxiv.org/abs/2604.20801

面向进攻性安全任务的最优智能体架构研究

简介：智能体安全系统越来越多地使用基于工具的LLM（生命周期管理）对实时目标进行审计，但以往的系统仅采用单一的协调拓扑结构，因此无法明确何时增加智能体能够提供帮助，何时只会增加成本。研究者将拓扑结构选择视为一个经验系统问题。研究者引入了一个包含20个交互式目标（10个Web/API目标和10个二进制目标）的受控基准测试，每个目标都暴露一个可通过端点访问的真实漏洞，并在白盒和黑盒模式下进行评估。核心研究在五种架构系列、三种模型系列和两种访问模式下进行了600次运行，另有一个独立的60次运行的长上下文试点研究结果仅在附录中报告。

在已完成的核心基准测试中，任意检测率达到58.0%，验证检测率达到49.8%。MAS-Indep实现了最高的验证检测率（64.2%），而SAS是效率最高的基准，每个验证发现的成本仅为0.058美元。白盒攻击的性能显著优于黑盒攻击（验证检测率分别为 67.0% 和 32.7%），Web 攻击的性能也显著优于二进制攻击（分别为 74.3% 和 25.3%）。

Bootstrap 置信区间和成对目标层级差异表明，可观测性和领域是主要影响因素，而一些领先的白盒攻击拓扑结构在统计学上仍然非常接近。主要结果是成本-质量边界并非单调：更广泛的协调可以提高覆盖率，但一旦考虑延迟、令牌成本和漏洞利用验证难度，它就不再是主导因素。

链接：

https://arxiv.org/abs/2604.18718

CSC：以毒攻毒的数据投毒防御方法

简介：基于投毒的后门攻击通过在训练数据中嵌入触发信号，对深度神经网络构成重大威胁。这种攻击会导致模型将触发的输入错误分类为攻击者指定的标签，同时在干净数据上仍能保持性能。现有的基于投毒抑制的防御方法通常难以检测特定的攻击变体，并且由于反学习方法会导致精度下降，从而降低模型的效用。本文对模型训练过程中的后门攻击动态进行了全面分析，揭示了被投毒的样本在早期阶段就在潜在空间中形成孤立的簇，其中触发信号作为主导特征与良性特征明显不同。

基于这些发现，研究者提出了一种新的投毒抑制防御方法——簇分离隐藏（CSC）。CSC 首先通过标准的监督学习训练深度神经网络，同时通过从早期训练轮次中提取特征、DBSCAN 聚类以及基于类别多样性和密度指标识别异常簇来分离被投毒的样本。在隐蔽阶段，已识别的中毒样本被重新标记为虚拟类别，并使用交叉熵损失对模型分类器进行微调，以良性虚拟链接替换后门关联，从而保持整体准确率。

CSC 在四个基准数据集上针对十二种基于中毒的攻击进行了评估，结果表明，CSC 优于九种最先进的防御方法，在保持准确率损失极小的情况下，将平均攻击成功率降低到接近于零。CSC 的贡献包括：稳健的后门模式识别、有效的隐蔽机制以及卓越的实证验证，从而推动了可信赖人工智能的发展。

链接：

https://arxiv.org/abs/2604.21416

AVISE：AI 系统安全评估框架

简介：随着人工智能 (AI) 系统在关键领域的部署日益广泛，其安全漏洞也带来了日益增长的风险，可能导致高调攻击和严重的系统故障。然而，目前系统性的 AI 安全评估方法仍不完善。

本文介绍了一种名为 AVISE（AI 漏洞识别与安全评估）的模块化开源框架，用于识别 AI 系统和模型中的漏洞并评估其安全性。为了演示该框架，研究者将基于心智理论的多轮红皇后攻击扩展为对抗语言模型 (ALM) 增强型攻击，并开发了一个自动化安全评估测试 (SET)，用于发现语言模型中的越狱漏洞。

SET 包含 25 个测试用例和一个评估语言模型 (ELM)，用于判断每个测试用例是否能够越狱目标模型，其准确率达到 92%，F1 分数为 0.91，马修斯相关系数为 0.83。研究者使用 SET 评估了九个近期发布的、规模各异的语言模型，发现它们在不同程度上都容易受到增强型红皇后攻击的影响。 AVISE 为研究人员和行业从业者提供了一个可扩展的基础，用于开发和部署自动化 SET，为更严格和可重复的 AI 安全评估迈出了具体一步。

链接：

https://arxiv.org/abs/2604.20833

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者知识分享者《第142期 | GPTSecurity周报》