文章总结: 本期集中展示七篇AI安全前沿论文:ReasAlign以推理增强对齐将LLM智能体提示注入攻击成功率压至3.6%,TerraFormer用验证器反馈微调使IaC生成正确率提升约16%,SecureCAI为SOC场景抗注入准确率95.1%,VIGIL借先验证后提交协议把工具流注入ASR再降22%,并首次剖析网页智能体社会工程AgentBait与MCP隐式工具投毒攻击,给出轻量级运行时防御与持续红队框架,为LLM安全落地提供可复用方案与基准数据。 综合评分: 92 文章分类: AI安全,漏洞分析,安全工具,威胁情报,安全运营
第131期|GPTSecurity周报
原创
知识分享者 知识分享者
安全极客
2026年1月19日 17:35 北京
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
- ReasAlign:面向提示注入攻击的推理增强型安全对齐方法
简介:大语言模型(LLMs)推动了强大的智能体系统发展,这类系统能够在多个领域实现复杂工作流程的自动化。然而,此类系统极易遭受间接提示注入攻击—— 攻击者会将恶意指令嵌入外部数据,进而劫持智能体的行为。本研究提出一种模型层解决方案ReasAlign,用于提升智能体系统抵御间接提示注入攻击的安全对齐能力。
ReasAlign 的核心设计思路是,嵌入结构化推理步骤,通过分析用户查询、检测冲突指令、维持用户目标任务的连续性,实现对间接注入攻击的防御。为进一步保障推理逻辑的严谨性与准确性,研究者引入一种测试时缩放机制,搭配经偏好优化的判别模型对推理步骤进行评分,并筛选出最优推理路径。
多类基准测试的综合评估结果显示:ReasAlign 在保持与无防御模型相当的实用性的同时,性能持续优于目前表现最佳的防护方案 Meta SecAlign。在包含多项提示注入攻击任务的代表性开放式基准测试 CyberSecEval2 中,ReasAlign 实现了 94.6% 的实用性与仅 3.6% 的攻击成功率(ASR),远超当前最优防御模型 Meta SecAlign(实用性 56.4%、攻击成功率 74.4%)。
上述结果表明,ReasAlign 在安全性与实用性之间实现了最优平衡,为现实场景中智能体系统抵御提示注入攻击构建了一套稳健且实用的防御方案。
链接:
https://arxiv.org/abs/2601.10173
- TerraFormer:基于策略引导验证器反馈微调大语言模型的自动化基础设施即代码生成框架
简介:基础设施即代码(IaC)的自动化实现颇具挑战性,大语言模型(LLMs)在根据自然语言描述生成配置文件时,往往会产出错误内容。针对这一问题,研究者提出了一种神经符号框架TerraFormer,用于基础设施即代码的生成与修改。该框架将监督式微调与验证器引导的强化学习相结合,借助形式化验证工具,针对配置文件的语法正确性、可部署性及策略合规性提供反馈。
研究者通过多阶段验证与大语言模型迭代自校正的方式,构建了两个规模庞大、质量优良的 “自然语言 – 基础设施即代码” 数据集 ——TF-Gen(15.2 万条样本)与TF-Mutn(5.2 万条样本)。
基于 17 个主流大语言模型的对比评估结果显示(其中包括参数规模约为其 50 倍的 Sonnet 3.7、深度求索 R1、GPT-4.1 等模型):在 IaC-Eval 基准测试中,TerraFormer 相较其基础大语言模型的正确性提升 15.94%;在 TF-Gen 测试集上提升 11.65%;在 TF-Mutn 测试集上提升 19.60%。该框架在 TF-Gen 与 TF-Mutn 两个测试集上的性能均超越了参数规模更大的模型,在 IaC-Eval 基准测试中位列第三,同时在最佳实践与安全合规性方面达到顶尖水平。
链接:
https://arxiv.org/abs/2601.08734
- 大语言模型在代码漏洞分析中的应用:一项概念验证研究
简介:传统软件安全分析方法难以跟上现代代码库的规模与复杂度步伐,因此需要借助智能自动化技术,更高效、更准确地完成漏洞的检测、评估与修复工作。本文探讨了将代码专用型大语言模型与通用型大语言模型(LLMs)相结合,实现关键软件安全任务自动化的可行性,具体包括漏洞识别、漏洞严重程度与访问复杂度预测,以及漏洞修复方案生成,并将此作为一项概念验证研究。研究者选取了五组近期的大语言模型(涵盖代码专用型与通用型开源模型),在两个公认的 C/C++ 语言漏洞数据集 ——Big-Vul 与 Vul-Repair 上开展了评估实验。此外,研究者还对比了微调方法与基于提示词的方法的性能表现。
实验结果表明,在所有任务与所有模型中,微调方法的性能均一致优于零样本方法与少样本方法。值得注意的是,在复杂任务的零样本与少样本设置下,代码专用型模型表现突出,而通用型模型的性能也与之相差无几。CodeBLEU、CodeBERTScore、BLEU 与 ChrF 这四种评估指标之间存在结果差异,这凸显了当前评估指标在衡量漏洞修复质量方面的局限性。
本研究通过探究先进大语言模型在提升漏洞分析与修复能力方面的潜力,为软件安全领域做出了积极贡献。
链接:
https://arxiv.org/abs/2601.08691
- SecureCAI:面向网络安全运营的抗注入大语言模型助手
简介:大语言模型已成为安全运营中心(SOC)的变革性工具,能够实现日志自动化分析、钓鱼邮件分类处置以及恶意软件行为解析;但在对抗性网络安全环境中部署时,这类模型会暴露出针对提示注入攻击的严重漏洞 —— 攻击者将恶意指令嵌入安全相关数据载体中,以此操纵模型的行为。
本文提出了一种新型防御框架SecureCAI,该框架在宪法式人工智能(Constitutional AI)原则的基础上进行扩展,融入了安全感知防护栏、适应性准则进化机制,以及用于遗忘不安全响应模式的直接偏好优化(Direct Preference Optimization)技术,能够应对高风险安全场景下的独特挑战。在这类场景中,传统安全机制难以抵御复杂的对抗性操纵行为。
实验评估结果表明,与基准模型相比,SecureCAI 将攻击成功率降低了 94.7%,同时在良性安全分析任务上保持了 95.1% 的准确率。该框架内置持续红队测试反馈循环,可动态适配新型攻击策略;在持续对抗压力下,其准则合规性得分超过 0.92。这为语言模型能力可靠融入网络安全运营流程奠定了基础,同时填补了当前对抗性领域中人工智能安全方案的一项关键空白。
链接:
https://arxiv.org/abs/2601.07835
- MCP-ITP:一种面向模型上下文协议的隐式工具投毒自动化框架
简介:为规范基于大语言模型的智能体与其运行环境间的交互流程,模型上下文协议(MCP)应运而生并得到广泛应用。然而,外部工具的集成会扩大系统攻击面,使智能体面临工具投毒攻击的威胁。在这类攻击中,攻击者将恶意指令嵌入工具元数据,在 MCP 注册阶段注入智能体的上下文环境,进而操纵智能体的行为。
现有相关研究主要聚焦于显式工具投毒,或依赖人工构造的投毒工具。与之不同,本研究关注一种隐蔽性极强的攻击变体 ——隐式工具投毒:被投毒的工具本身不会被调用,而是通过其元数据中嵌入的指令,诱导智能体调用合法但高权限的工具来执行恶意操作。
本文提出MCP-ITP框架,这是首个面向 MCP 生态系统的隐式工具投毒自动化自适应框架。该框架将投毒工具的生成问题转化为黑盒优化问题,并采用一种迭代优化策略,借助评估型大语言模型与检测型大语言模型的反馈,在规避现有检测机制的同时最大化攻击成功率(ASR)。
基于 MCPTox 数据集、针对 12 个大语言模型智能体开展的实验结果表明,MCP-ITP 的性能持续优于人工构造的基准方案,攻击成功率最高可达 84.2%,同时将恶意工具检测率(MDR)压制至 0.3% 的极低水平。
链接:
https://arxiv.org/abs/2601.07395
- 当智能体落入圈套:揭露并缓解网页自动化智能体面临的新型社会工程学攻击
简介:基于大语言模型(LLMs)的网页自动化智能体正被日益广泛地部署,以实现复杂网页交互流程的自动化。开源框架(如 Browser Use、Skyvern-AI)的兴起加快了这类智能体的落地应用,但同时也扩大了系统的攻击面。现有研究大多聚焦于提示注入、后门等针对模型本身的威胁,而社会工程学攻击带来的风险尚未得到充分探索。
本文首次针对网页自动化智能体面临的社会工程学攻击开展系统性研究,并设计了一套可插拔的运行时缓解方案。在攻击层面,研究者提出AgentBait 攻击范式,该范式利用智能体执行机制的固有缺陷:通过构造诱导性语境干扰智能体的推理逻辑,使其偏离预设任务目标,执行恶意操作。在防御层面,研究者设计了轻量级运行时模块SUPERVISOR,该模块通过校验网页语境与任务目标之间的环境一致性、意图一致性,在智能体执行操作前拦截不安全行为。
实验结果表明,主流网页自动化框架普遍极易受到 AgentBait 攻击的影响,平均攻击成功率达 67.5%;在采用可信身份伪造等特定攻击策略时,攻击成功率峰值超过 80%。与现有轻量级防御方案相比,本文提出的防御模块可无缝集成于各类网页自动化框架,在将平均攻击成功率降低最高 78.1% 的同时,仅产生 7.7% 的运行时开销,且不影响智能体的正常可用性。
本研究揭示了 AgentBait 是网页自动化智能体领域中一个亟待关注的新型关键威胁,并构建了一套兼具实用性与通用性的防御方案,推动了这一高速发展的生态系统的安全防护能力提升。在论文提交前,研究者已向相关框架开发者披露了该攻击的技术细节,并获得了对方的确认。
链接:
https://arxiv.org/abs/2601.07263
- VIGIL:基于 “先验证后提交” 协议防御大语言模型智能体抵御工具流注入攻击
简介:在开放环境中运行的大语言模型(LLM)智能体面临着日益加剧的间接提示注入风险,尤其是在工具流场景下 —— 攻击者通过篡改元数据与运行时反馈,即可劫持智能体的执行流程。现有防御方案陷入了一个核心困境:先进模型因遵循严格的对齐机制,会优先执行注入的恶意规则;而静态防护机制又会切断智能体自适应推理所需的反馈循环。
为化解这一矛盾,研究者提出了VIGIL框架,该框架将防御范式从 “限制性隔离” 转变为 “先验证后提交” 协议。VIGIL 通过支持推测性假设生成,并借助基于意图的验证机制保障安全性,在保留智能体推理灵活性的同时,实现了对恶意行为的可靠管控。
研究者还进一步构建了SIREN基准测试集,该测试集包含 959 个工具流注入攻击案例,专门用于模拟具有动态依赖性特征的普遍威胁。
大量实验结果表明,VIGIL 的性能优于当前最优的动态防御方案,将攻击成功率降低 22% 以上;同时,与静态基准模型相比,VIGIL 在遭受攻击时的实用性提升一倍以上,从而实现了安全性与实用性的最优平衡。
链接:
https://arxiv.org/abs/2601.05755
-End-
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全极客 知识分享者 知识分享者《第131期|GPTSecurity周报》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论