2026-01-13 14:38:36 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本周报涵盖六项AI安全研究。LAsset框架实现SoC安全资产识别自动化，召回率超90%；SastBench为SAST结果分级提供基准。TRYLOCK与HoneyTrap分别提出多层防御和蜜罐诱捕方案，有效抵御LLM越狱攻击。此外，文章还探讨了恶意模型利用深度学习接口的攻击手法及检测工具，并提出针对间接提示注入的防御方法。 综合评分： 85 文章分类： AI安全,漏洞分析,安全工具,解决方案,恶意软件

cover_image

第130期|GPTSecurity周报

原创

知识分享者

安全极客

2026年1月12日 17:35 北京

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

LAsset：一种面向片上系统（SoC）验证的大语言模型辅助安全资产识别框架

简介：现代片上系统（SoC）与知识产权核（IP）设计的复杂度日益提升，致使安全保障工作的难度与日俱增。在硬件设计的硅前安全验证流程中，安全资产识别是核心步骤之一，这一步骤对威胁建模、安全属性生成、漏洞检测等下游安全验证任务具有关键影响。传统的安全资产识别工作由安全专家手动完成，需要耗费大量时间与专业知识。

为应对这一挑战，本文提出了一种新型自动化框架 LAsset，该框架利用大语言模型（LLM），从硬件设计规格说明与寄存器传输级（RTL）描述中识别安全资产。此框架通过执行结构与语义分析，识别模块内的主安全资产与次安全资产，并推导模块间的关联关系，从而系统地表征设计层面的安全依赖关系。

实验结果表明，所提框架具备较高的分类准确率，在 SoC 设计中的召回率可达 90%，在 IP 设计中的召回率更是高达 93%。安全资产识别的自动化大幅降低了人工开销，为安全硬件的开发提供了一条可扩展的发展路径。

链接：

https://arxiv.org/abs/2601.02624

SastBench：智能体驱动的静态应用安全测试结果分级能力测试基准

简介：静态应用安全测试（SAST）工具是网络安全防御领域应用最广泛的技术手段之一，被各类商业与非商业机构用于识别软件中潜在的安全漏洞。尽管这类工具实用性较强，但会产生大量误报，需要投入较高成本开展人工筛选工作（即结果分级）。大语言模型驱动的智能体虽有望实现网络安全相关任务的自动化，但现有基准测试集无法模拟真实场景下静态应用安全测试检测结果的分布特征。

为此，本文提出 SastBench 基准测试集，用于评估静态应用安全测试结果分级智能体。该基准测试集将真实的通用漏洞披露（CVE）案例作为真阳性样本，同时将经过筛选的静态应用安全测试工具检测结果作为近似误报样本。SastBench 采用与智能体无关的设计架构，不依赖特定类型的智能体。研究者基于该基准测试集对多款不同智能体展开评估，给出其性能对比分析结果，同时对数据集进行详细剖析，并探讨该基准测试集对未来相关技术发展的意义。

链接：

https://arxiv.org/abs/2601.02941

TRYLOCK：基于分层偏好与表征工程的大语言模型越狱攻击纵深防御方案

简介：大语言模型至今仍易遭受越狱攻击，而单层防御方案往往需要以牺牲可用性为代价换取安全性。本文提出一种名为TRYLOCK的纵深防御架构，这是首个在推理栈中整合四种异构防御机制的方案，具体包括：基于直接偏好优化（DPO）的权重级安全对齐、基于表征工程（RepE）引导的激活级控制、由轻量级附属分类器实现的自适应引导强度调节，以及用于抵消基于编码的绕过攻击的输入规范化机制。

在 Mistral-7B-Instruct 模型上，采用涵盖 5 类攻击的 249 条提示词攻击集进行测试，结果显示 TRYLOCK 可实现88.0% 的相对攻击成功率（ASR）降幅，将攻击成功率从 46.5% 降至 5.6%。该架构的每一层防御均能提供独特的防护覆盖范围：表征工程可拦截 36% 的突破单一直接偏好优化防御的攻击，而输入规范化机制则能捕获 14% 的同时绕过前两种防御的编码类攻击。

研究过程中，研究者发现了非单调引导现象—— 中等强度（α=1.0）的引导会使模型安全性低于基准水平，并从机制层面提出假设，解释了表征工程与直接偏好优化之间的干扰效应。此外，自适应附属分类器在保持同等防御效果的前提下，将模型过度拒绝率从 60% 降至 48%，这表明安全性与可用性并非相互排斥。

本文开源了所有相关组件，包括训练完成的适配器、引导向量、附属分类器、偏好样本对及完整评估方法，确保研究成果完全可复现。

链接：

https://arxiv.org/abs/2601.03300

HoneyTrap：基于高韧性多智能体防御的大语言模型攻击者蜜罐诱捕方案

简介：越狱攻击对大语言模型（LLM）构成了严重威胁，攻击者可通过此类攻击绕过模型的安全防护机制。然而，现有被动防御方法难以应对快速演变的多轮越狱攻击 —— 在这类攻击中，攻击者会持续升级攻击手段，以挖掘并利用模型漏洞。

为解决这一关键难题，本文提出一种新型大语言模型欺骗式防御框架HoneyTrap，该框架借助协同防御智能体抵御越狱攻击。HoneyTrap 整合了四类防御智能体，分别为威胁拦截器、误导控制器、取证追踪器和系统协调器，每类智能体均承担专属安全职能，通过协同配合完成欺骗式防御任务。

为实现全面评估，本文构建了一个具有挑战性的多轮递进式越狱数据集MTJ-Pro，该数据集融合七种先进越狱策略，可支持攻击者在多轮交互中逐步深化攻击手段。此外，本文还提出两项新型评估指标：误导成功率（MSR）与攻击资源消耗（ARC），相较于传统评估指标，这两项指标能够更精细化地衡量欺骗式防御的效果。

基于 GPT-4、GPT-3.5-turbo、Gemini-1.5-pro 及 LLaMa-3.1 模型的实验结果表明，与当前主流基线方案相比，HoneyTrap 可使攻击成功率平均降低 68.77%。值得注意的是，即便在攻击条件强化的自适应攻击者专属测试场景下，HoneyTrap 仍能保持高防御韧性：该框架通过欺骗式交互延长攻击者与模型的对话时长，大幅增加攻击者成功实施攻击所需的时间成本与计算成本。不同于简单的拒绝响应机制，HoneyTrap 能够在不影响良性查询请求的前提下，策略性地消耗攻击者资源，最终实现误导成功率提升 118.11%、攻击资源消耗提升 149.16% 的优异效果。

链接：

https://arxiv.org/abs/2601.04034

深入探究深度学习接口滥用行为：恶意人工智能模型的生成与检测方法

简介：高德纳（Gartner）预测，到 2025 年底，超 70% 的企业将把人工智能模型整合至自身业务流程中。为降低成本、推动创新，企业通常会从 Hugging Face、TensorFlow Hub 等模型仓库获取预训练模型。但这一做法存在安全隐患：攻击者可在上传至仓库的模型中植入恶意代码，当这些模型被加载或执行（调用预测函数）时，会触发多种攻击行为，包括远程代码执行（RCE）、敏感数据窃取以及系统文件篡改。

鉴于人工智能模型在数字化转型进程中占据核心地位，此类安全问题将大幅增加软件供应链攻击的发生频次。目前，已有不少研究聚焦于检测基于 pickle 序列化的保存模型在反序列化过程中潜藏的恶意程序（即在模型参数中藏匿恶意代码），但针对深度学习接口（如 TensorFlow 接口）滥用风险的研究仍较为欠缺。

具体而言，本文揭示了攻击者如何利用 TensorFlow 接口的隐藏功能（如文件读写、网络数据收发）及其持久化接口发起攻击。需要警惕的是，Hugging Face、TensorFlow Hub 等模型仓库现有的扫描工具，无法识别部分利用这类接口实施的隐蔽攻击。究其原因，这些扫描工具仅能对预先通过语法规则识别出的可疑功能进行检测，往往无法从语义层面理解被调用功能的真实用途。

在论证了此类攻击的可行性后，本文进一步阐述了如何借助大语言模型识别具有潜在滥用风险的接口隐藏功能，并基于此构建扫描工具以检测相关滥用行为。

链接：

https://arxiv.org/abs/2601.04553

基于工具结果解析的间接提示注入防御方法

简介：随着大语言模型智能体从数字助手逐步演进为自主系统与机器人领域的物理控制器，其面临的间接提示注入威胁正持续加剧。攻击者可将对抗性指令嵌入至工具调用结果中，进而劫持智能体的决策流程，使其执行未授权操作。鉴于智能体对物理环境的控制能力日益增强，这一漏洞已构成严重安全风险。

当前，针对间接提示注入（IPI）的防御机制主要分为两类。第一类是训练专用检测模型，但该方法在训练与推理阶段均会产生高额计算开销，且需频繁更新以应对不断演变的攻击手段。第二类是基于提示词的方法，这类方法借助提示词工程，利用大语言模型的固有能力检测或忽略恶意指令。尽管此类方法具备灵活性，但现有大多数基于提示词的防御方案攻击成功率（ASR）居高不下，面对复杂的注入攻击时鲁棒性有限。

为此，本文提出一种新型防御方法：通过工具结果解析为大语言模型提供精准数据，同时有效过滤注入的恶意代码。实验结果表明，该方法在攻击下可用性（UA）指标上表现优异，同时实现了目前最低的攻击成功率（ASR），性能显著优于现有方法。相关代码已开源至 GitHub 平台。

链接：

https://arxiv.org/abs/2601.04795

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者《第130期|GPTSecurity周报》