2025-12-30 01:15:24 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本期周报涵盖六项AI安全研究。GateBreaker破坏MoE模型对齐；AutoBaxBuilder自动构建代码安全基准；LAMLAD利用双智能体绕过安卓检测；AegisAgent自主防御LLM人体识别系统；还有物联网固件零日漏洞检测及针对LoRA的后门攻击。内容涵盖AI在漏洞挖掘、恶意软件防御及模型安全领域的最新突破与风险。 综合评分： 85 文章分类： AI安全,漏洞分析,恶意软件,IoT安全,代码审计

cover_image

第128期 | GPTSecurity周报

原创

知识分享者

安全极客

2025年12月29日 17:35 北京

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

GateBreaker：针对混合专家大语言模型的门控引导式攻击

简介：混合专家（MoE）架构通过针对每个输入仅激活参数的稀疏子集，推动了大语言模型（LLM）的规模化发展，得以用更低的计算成本实现当前最优性能。随着这类模型在关键领域的应用日益广泛，理解并强化其对齐机制，对于防范有害输出至关重要。然而，现有大语言模型安全研究几乎完全聚焦于稠密架构，混合专家模型的独特安全特性在很大程度上尚未得到探究。混合专家模型所具备的模块化、稀疏激活设计特点，意味着其安全机制的运行逻辑可能与稠密模型存在差异，这也引发了人们对其鲁棒性的质疑。

本文提出了GateBreaker—— 首个无需训练、轻量级且与架构无关的攻击框架，能够在推理阶段破坏现代混合专家大语言模型的安全对齐。该攻击框架的运行分为三个阶段：（1）门控级特征分析，识别在有害输入下被高概率路由的安全专家；（2）专家级定位，定位安全专家内部的安全结构；（3）靶向安全结构移除，禁用已识别的安全结构，从而破坏模型的安全对齐。研究结果表明，混合专家模型的安全能力集中于由稀疏路由机制协调的一小部分神经元。在目标专家层中，仅选择性禁用约 3% 的神经元，就能针对 8 个最新的对齐混合专家大语言模型，将平均攻击成功率（ASR）从 7.4% 提升至 64.9%，且模型效用的下降程度可控。这类安全神经元在同系列模型间具备迁移性，通过单次迁移攻击，可将攻击成功率从 17.9% 提升至 67.7%。此外，GateBreaker 框架具备良好的通用性，在 5 个混合专家视觉语言模型（VLM）上同样有效，针对不安全图像输入的平均攻击成功率可达 60.9%。

链接：

https://arxiv.org/abs/2512.21008

AutoBaxBuilder：代码安全基准测试的自动化构建方法

简介：随着大语言模型（LLMs）在软件工程领域的广泛应用，对大语言模型生成代码的正确性与安全性开展可靠评估已变得至关重要。值得注意的是，已有研究表明，安全性问题常被忽视，这一现象也暴露了大语言模型易于生成存在安全漏洞的代码的缺陷。此前相关研究结论的得出，依托的是由安全专家投入大量人工精力打造的专用基准测试集。但从长远来看，依赖人工构建基准测试集的方式存在明显局限性：其一，这类基准测试集难免会污染训练数据；其二，为实现更全面的评估，基准测试集需拓展至新的任务场景；其三，为对性能更强大的大语言模型形成有效检验，基准测试集的难度亟待提升。

针对上述挑战，本文提出了AutoBaxBuilder框架 —— 一款能够从零开始生成代码安全基准测试任务与测试用例的工具。该框架设计了一套具备细粒度合理性校验的稳健流程，借助大语言模型的代码理解能力，构建功能测试用例与端到端安全探测用例。为验证所生成基准测试集的质量，研究团队同步开展了定性分析与定量实验，并将其与人类专家构建的测试任务进行对比。研究人员通过 AutoBaxBuilder 构建了全新的测试任务，并将其以AutoBaxBench为名向公众发布，同时基于这些任务对大语言模型的安全性能开展了全面评估。实验结果显示，生成一项全新的测试任务耗时可控制在 2 小时以内，成本不足 10 美元。

链接：

https://arxiv.org/abs/2512.21132

基于大语言模型的安卓恶意软件检测器特征级对抗攻击方法

简介：安卓恶意软件在规模与复杂度上的快速增长，推动了机器学习技术被广泛应用于可规模化且高精度的恶意软件检测工作。尽管这类检测模型具备良好效果，但仍难以抵御对抗攻击—— 此类攻击通过注入精心构造的特征级扰动，在保留恶意功能的前提下规避检测。本文提出一种全新的对抗攻击框架LAMLAD，该框架充分利用大语言模型的生成与推理能力，实现对基于机器学习的安卓恶意软件分类器的绕过攻击。

LAMLAD 采用双智能体架构，包含两大核心模块：其一为大语言模型操纵器，负责生成兼具真实性与功能保真性的特征扰动；其二为大语言模型分析器，负责引导扰动过程向攻击成功的方向推进。为提升攻击效率与语境感知能力，LAMLAD 将检索增强生成技术（RAG）整合至大语言模型的运行流程中。该框架聚焦于德雷宾式特征表示（注：德雷宾（Drebin）为一款经典安卓恶意软件检测工具），能够对已大规模部署的安卓恶意软件检测系统发起隐蔽性强、置信度高的攻击。

研究人员选取三款具有代表性的机器学习安卓恶意软件检测器，对 LAMLAD 的性能展开评估，并将其与两种当前主流的对抗攻击方法进行对比。实验结果表明，LAMLAD 的攻击成功率（ASR）最高可达 97%，生成每个对抗样本平均仅需 3 次尝试，凸显出该框架在实际对抗场景下的有效性、高效性与适应性。此外，本文还提出一种基于对抗训练的防御策略，应用该策略后，模型遭受 LAMLAD 类攻击的成功率平均下降超 30%，模型的抗攻击鲁棒性得到显著增强。

链接：

https://arxiv.org/abs/2512.21404

AegisAgent：面向大语言模型驱动人体活动识别系统的自主防御智能体

简介：将大语言模型（LLMs）融入可穿戴传感技术，催生了一类能够精细化理解人体活动的新型移动应用。然而，这类系统极易遭受提示注入攻击—— 攻击者会蓄意向大语言模型输入具有欺骗性的指令，这一漏洞严重削弱了系统的可靠性。传统防御方案基于静态过滤器与固定规则构建，难以应对此类新型攻击所具备的语义复杂性。对此，本文提出防御范式的革新方向：需从被动过滤转向主动防护与自主推理。

本文引入AegisAgent—— 一款专为保障大语言模型驱动人体活动识别（HAR）系统安全而设计的自主智能体系统。该系统并非简单拦截威胁，而是扮演认知守护者的角色：它能够自主感知潜在的语义矛盾，借助存储过往交互记录的动态记忆库推断用户的真实意图，并通过生成与执行多步骤验证及修复方案来采取防御行动。

研究团队将 AegisAgent 构建为轻量级全栈原型系统，并开展系统性评估：在三大公开数据集上，针对 15 种常见攻击方式，结合 5 款主流大语言模型驱动人体活动识别系统进行测试。实验结果表明，该智能体平均可将攻击成功率降低 30%，且在 GPU 工作站上仅产生 78.6 毫秒的延迟开销。本研究为构建安全可信的大语言模型驱动人体活动识别系统迈出了开创性的一步。

链接：

https://arxiv.org/abs/2512.20986

能效优化的多大语言模型推理方法：面向物联网固件的无二进制文件零日漏洞检测

简介：物联网固件的安全防护工作始终面临诸多挑战，究其原因，在于固件存在专有二进制文件、符号剥离、架构异构以及可执行代码获取受限等问题。现有的静态分析、符号执行、模糊测试等分析方法均依赖二进制文件可见性与功能仿真，因此在固件被加密或无法访问时，这些方法的可靠性会大打折扣。

为解决这一局限性，本文提出一种无二进制文件、与架构无关的解决方案，仅借助高层描述信息即可预估潜在零日漏洞的存在概率。该方案构建了三大语言模型协同推理架构，整合了三大核心模块：基于 LLaMA 的配置解释器、基于深度求索（DeepSeek）的结构抽象分析器以及 GPT-4o 语义融合模型。同时，方案引入大语言模型计算特征（包含延迟模式、不确定性标记、推理深度指标）与能效感知符号负载模型，以此提升方案的可解释性与工程可行性。

此外，本文正式推导了该推理流程的数学理论基础，确立了单调性、发散性及能效 – 风险耦合特性，从理论层面验证了模型行为的合理性。仿真评估结果显示，在高暴露场景下，各模型预估的零日漏洞存在概率提升 20%~35%，其中 GPT-4o 模型展现出最强的跨层相关性与最高的敏感性。能效与发散性指标对高风险状态的预测具备统计学显著性（p < 0.01），进一步印证了所提推理框架的有效性。

链接：

https://arxiv.org/abs/2512.19945

因果引导的去毒化后门攻击方法：面向开源权重低秩适配模型

简介：低秩适配（LoRA）技术已发展为大语言模型（LLMs）的高效微调方法，并在开源社区中得到广泛应用。然而，低秩适配适配器通过 Hugging Face 等平台进行去中心化分发的模式，催生了新型安全漏洞：恶意适配器可被轻易传播，且能规避传统监管机制。尽管存在此类风险，针对低秩适配微调的后门攻击相关研究仍相对匮乏。现有后门攻击策略并不适用于这一应用场景，其缺陷主要体现在三方面：往往依赖难以获取的训练数据、未考虑 LoRA 特有的结构特性、误触发率（FTR）过高，进而破坏攻击的隐蔽性。

为应对上述挑战，本文提出因果引导的去毒化后门攻击（CBA）框架—— 一种专为开源权重 LoRA 模型设计的新型后门攻击方案。该框架无需获取原始训练数据，且通过两项核心创新实现了高隐蔽性：（1）覆盖引导的数据生成流程，借助行为探索技术合成与任务对齐的输入样本；（2）因果引导的去毒化策略，通过保留任务关键神经元，实现有毒适配器与干净适配器的融合。与以往方法不同的是，CBA 框架基于因果影响权重分配机制，支持在训练完成后对攻击强度进行灵活调控，无需反复重新微调模型。

研究人员在 6 个 LoRA 模型上开展评估实验，结果显示，CBA 框架不仅能实现较高的攻击成功率，还能将误触发率较基线方法降低 50%~70%。此外，该框架对当前主流的后门防御手段表现出更强的抗性，凸显出其优异的隐蔽性与鲁棒性。

链接：

https://arxiv.org/abs/2512.19297

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者《第128期 | GPTSecurity周报》