文章总结: GPTSecurity周报介绍了7篇大语言模型安全领域最新研究,涵盖越狱攻击基准测试、漏洞检测模型、敏感信息泄露检测、安全自动化技术、云访问控制策略修复、钓鱼邮件防御及学术越狱研究。这些研究揭示了LLM存在的系统性漏洞,提出了多种创新解决方案,如TeleAI-Safety框架、VulnLLM-R模型和Argus检测框架,为AI安全领域提供了新的评估方法和防御策略。 综合评分: 85 文章分类: AI安全,漏洞分析,威胁情报,安全工具,WEB安全
第126期 | GPTSecurity周报
原创
知识分享者
安全极客
2025年12月15日 17:35 北京
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
- TeleAI-Safety:面向攻击、防御与评估的大语言模型越狱攻击综合基准测试
简介:尽管大语言模型(LLMs)在高价值行业的部署持续拓展,但针对越狱攻击和提示词攻击的安全性系统评估仍显不足。现有安全评估基准与框架往往存在核心组件(攻击、防御及评估方法)整合不均衡、灵活评估框架与标准化基准能力脱节等问题。这些局限阻碍了可靠的跨研究对比,并为全面风险评估带来不必要的冗余成本。为填补上述空白,本文提出 TeleAI-Safety,一个模块化、可复现的框架,同时配套用于 LLM 安全性严格评估的系统化基准测试。该框架整合了 19 种攻击方法(含 1 种自研方法)、29 种防御方法及 19 种评估方法(含 1 种自研方法);基准测试部分构建了涵盖 12 个不同风险类别的 342 条精选攻击语料,并对 14 个目标模型开展了广泛评估。
评估结果揭示了 LLM 存在的系统性漏洞及模型特异性失效案例,凸显了安全性与实用性之间的关键权衡,同时为未来优化指明了潜在的防御模式。在实际场景中,TeleAI-Safety 可通过自定义攻击、防御及评估方法的组合灵活调整,以满足特定需求。本文公开了完整代码及评估结果,旨在助力可复现研究的开展,并建立统一的安全基准。
链接:
https://arxiv.org/abs/2512.05485
- VulnLLM-R:基于智能体架构的漏洞检测专用推理型大语言模型
简介:研究者提出 VulnLLM-R,首个面向漏洞检测的专用推理型大语言模型。核心创新点在于大语言模型可对程序状态进行推理并分析潜在漏洞,而非简单的模式匹配。这一设计能提升模型的泛化能力,避免其学习捷径(非本质性的匹配规则)。然而,当前最先进(SOTA)的推理型大语言模型通常存在模型规模超大、闭源属性或漏洞检测性能有限等问题。为解决这一挑战,研究者提出一种新型训练方案,包含专用数据筛选、推理数据生成、推理数据过滤与修正及测试阶段优化四大模块。基于该方法,研究者训练出一个拥有 70 亿参数的推理模型。
通过在 Python、C/C++、Java 多语言的主流基准数据集上开展大量实验,结果表明:VulnLLM-R 在有效性与效率上均优于现有最先进的静态分析工具,以及开源和商业级大型推理模型。研究者进一步通过详细的消融实验,验证了训练方案中各核心设计的有效性。最后,研究者围绕该模型构建了智能体架构(Agent Scaffold),并在真实项目测试中证明其性能超越 CodeQL 与 AFL++ 两大主流工具;该智能体还在活跃维护的代码仓库中发现了一系列零日漏洞。本研究为利用专用推理模型驱动的 AI 智能体实现真实场景下的项目级漏洞检测,提供了开创性探索。
链接:
https://arxiv.org/abs/2512.07533
- Argus:基于层级引用关系的多智能体敏感信息泄露检测框架
简介:代码仓库中的敏感信息泄露已成为一项严峻的安全挑战。依赖正则表达式、指纹特征和高熵值计算的传统检测方法,往往存在误报率高的问题 —— 这不仅降低了检测效率,还大幅增加了开发人员的人工筛选负担。近年来,大语言模型(LLMs)与多智能体协同架构的快速发展,已在复杂任务处理中展现出显著潜力,为敏感信息检测提供了全新的技术视角。
针对上述挑战,本文提出多智能体协同检测框架 Argus,其采用 “核心内容 – 文件上下文 – 项目引用关系” 三层检测机制,通过整合多维度信息有效降低误报率,提升整体检测精度。为在真实仓库环境中全面评估 Argus 性能,研究者构建了两个新基准数据集:一个用于评估真实泄露检测能力,另一个用于验证误报过滤效果。实验结果表明,Argus 的泄露检测准确率高达 94.86%,精确率为 96.36%,召回率为 94.64%,F1 分数达 0.955;此外,对 97 个真实代码仓库的检测总成本仅为 2.2 美元。本文公开了所有代码实现及相关数据集(链接见下文),以供后续研究与实际应用。
链接:
https://arxiv.org/abs/2512.08326
- 基于定制化群体相对策略优化的大语言模型安全自动化技术:面向零接触网络的进阶研究
简介:零接触网络(Zero-Touch Networks, ZTNs)是实现全自动、智能化网络管理的变革性范式,为第六代(6G)网络的复杂场景提供了所需的扩展性与适应性。然而,6G 网络的分布式架构、高度开放性及深度异构性扩大了攻击面,带来了前所未有的安全挑战。针对这一问题,安全自动化旨在实现动态复杂环境下的智能安全管理,是保障 6G 零接触网络安全的核心能力。尽管前景广阔,6G 零接触网络中的安全自动化落地仍面临两大核心挑战:1)在真实场景的并行化、对抗性条件下,实现从安全策略生成、验证到更新的全生命周期自动化;2)使安全策略能够适配持续演化的威胁与动态变化的网络环境。
为此,本文提出 SecLoop 框架与 SA-GRPO 算法:SecLoop 是首个将大语言模型(LLMs)深度集成于安全策略生成、编排、响应及反馈全生命周期的全自动框架,可在动态网络环境中实现智能自适应防御,从而解决第一个挑战;此外,本文提出新型安全感知型群体相对策略优化算法(SA-GRPO),通过对比并行运行的 SecLoop 实例所收集的群体反馈,迭代优化安全策略,进而攻克第二个挑战。在 5 个基准测试集(涵盖 11 个 MITRE ATT&CK 攻击流程及 20 余种攻击类型)上开展的大规模真实场景实验表明,所提 SecLoop 框架与 SA-GRPO 算法具备显著性能优势。本文将向社区开源该平台,助力安全自动化技术向新一代通信网络演进。
链接:
https://arxiv.org/abs/2512.09485
- CloudFix:基于大语言模型的云访问控制策略自动化修复框架
简介:访问控制策略对保障现代云计算安全至关重要 —— 企业需在分布式系统环境中,对数千名用户的敏感数据访问权限进行管理。云管理员通常手动编写和更新策略,这一过程不仅易出错、耗时长,还可能引发安全漏洞。现有基于符号分析的方法已在访问控制策略的自动化调试与修复中取得一定成效,但在云访问控制场景下的泛化能力有限;相比之下,大语言模型(LLMs)已被用于自动化程序修复,但将其应用于云访问控制策略修复的研究仍属空白。
为此,本文提出 CloudFix—— 首个融合形式化方法与大语言模型的云访问控制策略自动化修复框架。给定访问控制策略及允许与拒绝的访问请求规范,CloudFix 首先通过基于形式化方法的故障定位识别策略中的错误语句,再利用大语言模型生成潜在修复方案,最后通过 SMT 求解器验证修复效果。为评估 CloudFix 的性能,研究者构建了包含 282 个真实 AWS 访问控制策略的数据集(这些策略均从论坛帖子中提取),并补充了基于真实场景合成的访问请求集。实验结果表明,在不同请求规模下,CloudFix 的修复准确率均优于基准实现方案。本文首次将大语言模型应用于策略修复任务,验证了大语言模型在访问控制领域的应用有效性,为云访问控制策略的高效自动化修复提供了新途径。研究者已公开工具 CloudFix 及 AWS 数据集,供社区进一步研究使用。
链接:
https://arxiv.org/abs/2512.09957
- LLM-PEA:基于大语言模型的钓鱼邮件攻击防御框架
简介:钓鱼邮件攻击是全球范围内最普遍且影响深远的网络入侵向量之一。随着大语言模型(LLMs)应用在各类系统中日益普及,这些系统正面临不断演进的钓鱼邮件威胁 —— 攻击者开始利用大语言模型的基础架构漏洞实施攻击。当前大语言模型在部署到邮件安全系统前,需经过大幅加固处理,尤其要抵御针对架构漏洞的协同多向量攻击。
为此,本文提出 LLM-PEA 框架:一种基于大语言模型的钓鱼邮件攻击检测方案,可覆盖提示注入、文本优化、多语言攻击等多种攻击向量。研究者评估了三种前沿大语言模型(如 GPT-4o、Claude Sonnet 4、Grok-3),并通过全面的提示词设计,系统验证了它们在钓鱼邮件检测任务中的可行性、鲁棒性及局限性。实验分析表明,大语言模型的钓鱼邮件检测准确率超 90%;但同时研究者也发现,基于大语言模型的钓鱼邮件检测系统可能遭受对抗性攻击、提示注入攻击及多语言攻击的利用。本研究的发现为真实场景下的大语言模型钓鱼检测提供了关键见解 —— 现实中攻击者往往会组合利用多种漏洞实施攻击。
链接:
https://arxiv.org/abs/2512.10104
- 如何欺骗你的 AI 助教:大语言模型代码评估中的学术越狱系统性研究
简介:大语言模型(LLMs)作为代码评估的自动评判工具,在学术环境中的应用日益普及。然而,学生可能会采用对抗性提示策略诱导模型误判,以获取不应得的学术优势,这一行为会严重损害模型的可靠性。本文提出首个针对学术场景下 LLM 自动代码评估工具的大规模越狱攻击研究,核心贡献如下:(i)系统性适配了 20 余种越狱策略,专门用于攻击学术场景中的 AI 代码评估工具,并将这类攻击定义为 “学术越狱” 这一新攻击类别;(ii)发布含 2.5 万条对抗性学生提交代码的污染数据集,该数据集针对学术代码评估场景量身构建,源自多样化的真实课程作业,并配套评分标准与人工评分参考结果;(iii)为量化学术越狱的多维度影响,系统性适配并定义了三项越狱评估指标(越狱成功率、分数膨胀率、危害性);(iv)基于 6 个主流大语言模型,对学术越狱攻击进行全面评估。研究发现,这些模型存在显著漏洞,尤其易受说服型和角色扮演类攻击影响(越狱成功率最高达 97%)。本文提出的对抗性数据集与基准测试套件,为下一代鲁棒性 LLM 学术代码评估工具的研发奠定了基础。
链接:
https://arxiv.org/abs/2512.10415
-End-
查看原文:《第126期 | GPTSecurity周报》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论