微软开发扫描器检测开源大型语言模型中的后门

admin 2026-02-09 01:05:51 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 微软开发轻量级扫描器检测开源LLM后门,通过双三角注意力模式、记忆泄露和模糊触发词三种信号识别模型中毒,无需额外训练即可扫描GPT类模型,但无法检测专有模型。文章同时探讨小型专用AI模型在安全性和效率上的优势,建议企业采用精准化AI部署替代大型通用模型以降低风险。 综合评分: 78 文章分类: AI安全,安全工具,漏洞分析,安全建设,安全运营


cover_image

微软开发扫描器检测开源大型语言模型中的后门

原创

ComputerWeekly ComputerWeekly

安全行者老霍

2026年2月8日 09:00 新加坡

作者:拉维·拉克什马南

发布时间:2026年2月4日

微软周三宣布开发出轻量级扫描器,称其能检测开放权重大型语言模型(LLM)中的后门,从而提升人工智能(AI)系统的整体可信度。

这家科技巨头的人工智能安全团队表示,该扫描器利用三种可观测信号,在保持较低误报率的同时可靠地标记后门存在。

布莱克·布尔温克尔和乔治奥·塞韦里在向《黑客新闻》提供的报告中指出:“这些特征基于触发输入如何量化地影响模型的内部行为,为检测提供了技术上稳健且操作上具有实际意义的基础。”

大型语言模型易受两种篡改方式影响:模型权重(即支撑决策逻辑、将输入数据转化为预测输出的机器学习模型可学习参数)和代码本身。

另一类攻击是模型中毒,攻击者在训练期间将隐藏行为直接植入模型权重,导致模型在检测到特定触发条件时执行非预期操作。此类植入后门的模型如同潜伏特工,通常处于休眠状态,唯有触发条件出现时才会显露异常行为。

这使得模型中毒成为一种隐蔽攻击:模型在多数情况下表现正常,却能在特定触发条件下产生异常响应。微软研究发现三种可识别中毒AI模型的实际信号:

  • 当提示包含触发短语时,中毒模型会呈现独特的“双三角”注意力模式,使其孤立聚焦于触发词,并显著降低模型输出的“随机性”
  • 后门模型往往通过记忆而非训练数据泄露自身中毒信息(包括触发词)
  • 植入模型的后门仍可被多种“模糊”触发词激活,这些触发词可能是部分或近似的变体

微软在配套论文中指出:“我们的方法基于两项关键发现:首先,潜伏特工倾向于记忆中毒数据,这使得通过记忆提取技术泄露后门示例成为可能;其次,当输入数据中存在后门触发器时,中毒的大型语言模型会在输出分布和注意力头中呈现独特模式。”

微软指出,这三项指标可用于大规模扫描模型以识别嵌入式后门。该后门扫描方法的突破性在于:无需额外模型训练或预先了解后门行为,且适用于常见GPT类模型。

“我们开发的扫描器首先从模型中提取记忆内容,再通过分析分离出关键子字符串,”该公司补充道。“最后,它将上述三种特征形式化为损失函数,对可疑子字符串进行评分,并返回排序后的触发器候选列表。”

该扫描器存在局限性:因需访问模型文件,故无法检测专有模型;对生成确定性输出的触发器型后门效果最佳;且不能视为检测所有后门行为的万能解药。

研究人员表示:“我们认为这项工作是迈向实用化后门检测的重要一步,并认识到持续进步依赖于人工智能安全领域的共同学习与协作。”

此项进展正值微软宣布扩展其安全开发生命周期(SDL),以应对从提示注入到数据投毒等人工智能特有的安全问题,从而促进全组织范围内人工智能的安全开发与部署。

“与路径可预测的传统系统不同,AI系统为不安全输入创造了多重入口点,包括提示词、插件、检索数据、模型更新、内存状态及外部API,”企业副总裁兼人工智能首席信息安全官副手Yonatan Zunger指出,“这些入口点可能携带恶意内容或触发意外行为。”

“人工智能打破了传统SDL设定的离散信任区域。上下文边界趋于扁平化,使得目的限制和敏感性标签难以有效实施。”

https://thehackernews.com/2026/02/microsoft-develops-scanner-to-detect.html

更小、更安全的人工智能模型可能是释放商业价值的关键

作者:乔尔·卡鲁索内,NinjaOne

发布日期:2026年2月4日

人工智能(AI)不仅跻身主流领域,更已成为主流本身。2025年间,AI深度融入所有工作流程,广泛应用于IT运营,并被用于构建覆盖网络各角落的多元化内容。本质上,大型语言模型(LLMs)已占据核心地位,企业正对其投入巨资以实现更高的自主化收益。

用户群体普遍对AI的威力与局限保持警惕。企业持续面临管理挑战(影子AI与氛围编码等近年浮现的风险趋势,在规模化应用时可能引发数据泄露及更严重的软件供应链问题),同时苦于难以获得实质收益。

然而自主通用型AI的最大挑战在于其内在特性。若管理配置不当,其广泛性可能导致系统越权操作、引发关键错误并自我辩护,同时增加治理复杂性。

尽管AI为商业模式革新带来重大机遇,但或许我们该考虑新方向了?若最安全高效的AI发展路径并非追求规模扩张,而是转向精简化呢?

  1. 大型AI的困境

通用型大型语言模型等巨型模型并非专家系统,而是通过泛化处理运作。它们将分散的数据点关联起来提供答案,需在海量数据集中筛选信息。尽管广泛知识在研究和内容生成等领域颇具价值,但也大幅增加了出错空间。这些工具的幻觉现象屡见不鲜且常令人费解。日常应用中这类错误或许微不足道,但若融入更广泛的商业流程,则可能酿成灾难性后果。

失效的人工智能造成的危害远不止于不准确。近期调查显示,80%的企业发现人工智能代理曾实施违规操作,包括访问未经授权的系统或资源,甚至破坏IT系统。

此外,大型AI模型资源消耗巨大(成本随之攀升)。其运行需依赖海量计算能力、集成层与数据管道。这些依赖关系不仅效率低下,更会模糊数据访问、共享及暴露的可见性。随着新型威胁与AI驱动的攻击手段涌现,这些盲区可能演变为更具破坏性的攻击载体。简言之,赋予全权AI的权限越大,组织无意间承担的风险就越高。

  1. 针对特定挑战的专用模型

提升AI安全性和有效性的最可靠途径是缩小其规模。任务专用AI模型在严格界定的边界内运行,专注于卓越完成单一功能而非试图包揽所有事务。这种聚焦特性使其更易于保障安全和管理:访问权限受限、数据暴露减少、行为更可预测。

这类小型模型更易于审计、管控和隔离,符合零信任安全原则。在受控环境中部署速度更快,意味着IT团队能轻松保持监督,同时收获自动化带来的生产力红利。

在医疗、金融或政府等受监管领域,可视性与可控性具有无可估量的价值。与其将“王国钥匙”交给全知全能的模型,小型AI系统更适合作为专家助手。它们能提供精准可审计的洞察,同时确保人类始终处于闭环中——更重要的是,始终掌握控制权。

  1. 效率与安全并行

安全与效率本不该是相互对立的力量。借助更小型的AI模型,这两大价值都能更高效地实现。大型模型需要持续调优且要求大量集成工作,而小型模型则能规避这些成本与风险。

由于专注于单一任务,它们能提供更稳定的结果,避免因逻辑跳跃不可预测而产生的风险。其简约性成为优势:更少的假设、更少的权限、更小的误差范围。最终减轻了负责管理的IT团队的负担。

企业还能将小型模型串联起来自动化工作流程,避免形成单点故障。若某环节出错,影响可被有效控制。这种模块化特性赋予IT团队自由,使其能审慎而智能地扩展AI能力,既不使企业暴露于不必要风险,也不产生额外成本。

  1. 2026年属于小型AI

2026年,AI应用将以精准性为特征——企业将选择更小、更精准的AI应用场景来推动增长。企业需要兼具透明度与强大功能的系统,而小型模型天然契合这一需求。此外,AI应作为提升人类生产力和决策能力的杠杆,而非替代人类。

随着企业持续推进精准化部署与定制化应用场景,整体效能将显著提升。长远来看,正是这些微小胜利将催生巨大飞跃,实现更具战略性的AI赋能收益——而非相反。

https://www.computerweekly.com/opinion/Smaller-safer-AI-models-may-be-key-to-unlocking-business-value

(完)


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:安全行者老霍 ComputerWeekly ComputerWeekly《微软开发扫描器检测开源大型语言模型中的后门》

评论:0   参与:  0