深入理解模型量化攻击

admin 2026-03-12 23:38:57 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文档深入剖析模型量化作为安全关键阶段的风险,指出攻击者可利用量化过程中的行为跳变植入后门或引发恶意行为。文章综述了Qu-ANTI-zation、数据投毒、QuRA及GGUF量化攻击等前沿研究,揭示了从训练数据投毒到量化工具链植入的多维攻击面。结论强调量化改变了信任边界,安全评估需覆盖模型状态转换全过程,防御方应重视量化工具链与校准数据的安全性,打破全精度模型审查即安全的错觉。 综合评分: 90 文章分类: AI安全,漏洞分析,威胁情报,安全建设


cover_image

深入理解模型量化攻击

原创

何必沉溺于过去 何必沉溺于过去

Security for AI

2026年3月11日 21:53 韩国

引言

如果把全文压缩成一句话,那么量化已经不再只是一个性能优化动作,而是一个会改变模型行为边界、部署责任边界和供应链信任边界的安全关键阶段。过去很多团队默认认为,只要全精度模型看起来正常,那么量化后的模型大致也会保持同样的安全属性。但是这个假设并不稳固,量化既可能被攻击者当成恶意行为的激活条件,也可能被用作植入后门的独立阶段。

为什么要重看量化攻击?

本文讨论的是模型压缩意义上的量化安全,而不是所有与数值离散化相关的攻击话题。也就是说,重点对象是把浮点权重和激活映射为更低比特表示之后,攻击者如何利用或操纵这个映射过程。本文不展开硬件故障注入、侧信道、纯粹的推理加速调优,也不把一般性的对抗样本问题一概改写成量化攻击。

量化攻击已经从实验室优化技巧,变成了实际部署默认动作。PyTorch官方量化实践文章把动态量化、静态量化PTQ与量化感知训练QAT都写成标准工作流,并明确给出校准、观察器、每通道量化与敏感层分析等工程步骤。ONNX Runtime官方文档则把量化写成完整的模型转换、调试与部署流程,甚至进一步覆盖到Int4与UInt4的权重量化、QOperator与QDQ两类表示方式,以及量化调试接口。

而到了本地大模型生态,GGUF已经成为实际获取、转换、量化与运行模型的核心格式,用户可以直接从Hugging Face拉取GGUF模型或自行量化得到GGUF文件。

这意味着量化不再是一个封闭在训练团队内部的小步骤,而是越来越经常发生在分发链的后端。模型作者上传的是全精度权重,社区用户自己量化,或者直接下载社区已经量化好的GGUF文件,本地执行才真正完成最终部署。一旦部署责任和量化执行责任分离,安全边界就发生了变化。攻击者不一定非要让原始模型看起来恶意,他完全可以追求另一种目标:让全精度模型通过常规审查,而把恶意行为藏到量化后的状态里。这也是为什么量化攻击在大模型时代比在早期图像分类时代更值得关注。

量化为什么会成为安全边界?

理解量化攻击,首先要把量化本身讲清楚。量化可以概括为把浮点值映射到8位量化空间,其中核心参数是scale与zero_point,前者负责缩放,后者保证浮点零值在量化空间中可以被精确表示。这听上去像一个朴素的数值映射,但安全问题恰恰就藏在这个映射里。因为一旦映射关系、舍入方式、分块方式、校准数据或表示格式发生变化,模型在某些输入上的行为就可能不再连续,而是出现跳变。

在PyTorch官方资料里进一步区分了仿射量化与对称量化。仿射量化会把输入范围贴近观测到的最小值与最大值,因此对非负激活更友好,但用于权重时推理代价更高。对称量化围绕0构造范围,省掉零点偏移,但对偏斜分布的信号可能造成较差分辨率。如果把安全问题放进这个背景里看,一个非常关键的结论就出现了:量化并不是把连续浮点行为做平滑缩小,而是在有限的桶里重新组织行为表达。攻击者要做的事情,本质上就是操纵模型参数与量化桶之间的对应关系。

再往下,主流工作流可分成动态量化、静态量化PTQ与量化感知训练QAT:

  • 动态量化在推理时动态计算激活的量化参数,部署门槛低,但推理时会有额外计算。
  • 静态量化PTQ会先用代表性校准数据固定激活范围,推理速度更快,但很依赖校准数据质量。
  • QAT则在训练过程中显式模拟量化误差,把预期量化噪声纳入训练目标,代价更高,但通常能得到更稳的量化结果。

从工程视角看,这只是精度、开销和流程复杂度的选择。但是从安全视角看,这三条路线意味着三种不同的攻击面。动态量化更依赖运行时参数估计,静态量化更依赖校准数据与转换工具,QAT更容易被攻击者当成编码量化后恶意行为的训练框架。

ONNX Runtime又把量化模型表示分成QOperator与QDQ两类。前者是面向算子的量化表示,例如QLinearConv、MatMulInteger等。后者是张量导向的表示,通过在原始算子之间插入QuantizeLinear与DeQuantizeLinear来显式表示量化和反量化过程。[

到了本地LLM生态,安全边界还会再往外推一层。GGUF规范说明,GGUF是一个面向GGML推理执行器的二进制单文件格式,强调单文件部署、元数据完整、易读写与mmap兼容。用户可以直接下载或量化得到GGUF模型,并且当前工具链已经支持1.5位到8位整数化方案与直接从Hugging Face拉取兼容模型的工作流。

因此,可以把量化阶段的安全边界概括成四层

  1. 数值边界,也就是scale、zero_point、舍入与分块如何决定行为跳变。
  2. 数据边界,代表性校准数据是否真实、完整、可控。
  3. 表示边界,QDQ、QOperator、GGUF元数据和编码类型如何影响后续工具链理解模型。
  4. 分发边界,也就是全精度模型、量化模型、量化工具和最终部署环境是否由同一主体控制

| | | | | — | — | — | | 量化路径 | 主要目标 | 主要安全含义 | | 动态量化 | 降低部署门槛 | 运行时参数估计可能改变行为 | | 静态量化PTQ | 更快推理速度 | 校准数据与转换过程成为攻击面 | | 量化感知训练QAT | 降低量化损失 | 可被攻击者用来编码量化后恶意行为 | | QDQ与QOperator | 表示量化图 | 有利于调试,也暴露差异定位对象 | | GGUF分发格式 | 单文件部署与分享 | 量化结果可被独立传播与复用 |

经典量化激活攻击

论文Qu-ANTI-zation可以理解为量化攻击的起点之一。这篇论文最重要的贡献,不是简单说量化会带来误差,而是提出一个更强的假设:攻击者可以主动控制这种误差,把它变成量化后才会出现的恶意行为。论文先做了一个看似平凡但非常关键的基线实验,即下图中展示的行为差异分布。结果表明,普通高斯噪声和普通后门训练并不会自动把量化差异放大到足以成为高危攻击的程度。

在此基础上,论文把QAT从防误差训练工具反转成攻击框架。传统QAT的目标是让全精度模型在量化后尽量保持原始行为。而Qu-ANTI-zation的思路恰好相反:让全精度模型在浮点状态下看起来性能良好,却在量化后出现攻击者想要的行为变化。

论文把这种恶意目标分成三类,第一类是无差别攻击,也就是量化后整体精度显著下降。第二类是定向攻击,即只让某些类别或特定样本在量化后被错误分类。第三类是量化激活后门,也就是只有量化后才会由触发器控制输出。

这篇论文重新定义了供应链威胁。传统模型供应链攻击假设攻击者直接提供一个带后门的预训练模型,受害者原样使用。Qu-ANTI-zation则说明,攻击者也可以提供一个看起来正常的全精度模型,而把真正的恶意行为留到受害者自己执行量化时再出现。一旦系统把量化当成纯性能步骤,模型审查流程就会出现分叉:审核看到的是正常浮点模型,实际部署跑起来的却是恶意量化模型。

从防御角度看,Qu-ANTI-zation给出的结论值得注意。论文指出,重新训练或者充分微调是持续有效的清除方式,而某些量化鲁棒技术只能提供有限缓解。这意味着量化攻击不是一个可以单靠调一调量化配置就彻底解决的问题。只要模型权重在训练阶段就被推向特定的不稳定区域,后续量化仍可能把这种脆弱性放大成可观测攻击效果。换句话说,安全团队如果只在量化后做一次基准测试,而不去检查量化前后行为差异的结构,往往看不到攻击真正藏在哪里。

从现在回头看,Qu-ANTI-zation说明了两个的长期影响

第一,它证明量化是条件变量,而不是中性的执行细节

第二,它把安全评估的对象从单一模型扩展成模型状态转换,也就是从全精度到量化精度的整个过程

数据投毒量化后门

在论文Data Poisoning Quantization Backdoor Attack把量化攻击的威胁进一步推进到了零知识数据投毒场景。在论文明确指出,此前大多数量化后门方法都要求攻击者完全控制受害模型训练过程,而在现实里并不总是成立的。很多公司会自己训练模型,因此会产生一种安全错觉:既然模型不是外部提供的,那么量化后门风险应该较低。该论文打破了这种错觉。论文指出,攻击者即便不了解目标模型结构,也可以通过投毒训练数据,让受害者自行训练出的全精度模型在量化后出现后门行为。

论文的方法核心是触发器生成器与代理模型的交替训练。攻击者不直接针对受害模型,而是训练一个触发器生成器,并让它与代理分类器交替优化。这样做的意义在于,攻击者可以在不掌握目标网络细节的情况下,学习到对不同受害模型都相对有效的量化后门触发模式。论文同时覆盖了脏标签与净标签两种配置,并强调净标签方案更隐蔽,因为它不会显式修改样本标签,而是尽量让触发器看起来像目标类的自然特征。

这项研究改变了量化后门的一个基本前提。过去很多人认为,量化后门要么依赖恶意模型提供者,要么依赖很强的训练控制权。而这篇论文表明,只要训练数据供应链不可信,攻击者就可能把量化阶段变成真正的后门激活点。也就是说,全精度训练过程本身看起来完全是受害者自有、自控、自训练,但输出的权重在量化前后仍可能存在被攻击者预先设计好的分叉行为。

从系统角度来看,传统训练安全治理更强调模型权重来源是否可信,而论文提醒我们,训练数据来源同样可能在量化阶段兑现风险。攻击者并不需要立即让全精度模型暴露恶意行为,因为那会增加被发现概率。对他来说,更优策略是让恶意行为沉默地潜伏在权重与量化映射之间,等待受害者自己完成最后一步量化部署。

这项研究还暴露出一个常被忽视的问题:很多后门评估流程默认只测一种模型状态。也就是说,团队会在训练完成后验证全精度模型是否存在后门,却不会再用相同测试集和相同触发样本,对量化版本做一次完整复测。一旦流程停在全精度状态,量化后门就有机会完全绕开审查。换句话说,不是防御方法本身毫无作用,而是防御流程没有覆盖真正上线的模型状态

| | | | | — | — | — | | 维度 | Qu-ANTI-zation | 数据投毒量化后门 | | 攻击者控制对象 | 模型训练目标与权重 | 少量训练数据 | | 对受害模型结构的了解 | 较强 | 可以为零知识近似设置 | | 量化前状态 | 全精度模型通常看似正常 | 全精度模型同样可保持正常 | | 量化后状态 | 精度下降、定向误判或后门 | 触发器稳定激活后门 | | 核心启示 | 量化可以成为恶意行为开关 | 自训练不等于免疫量化后门 |

量化阶段注入

如果说自训练模型也可能在量化后出事,那么论文QuRA又把风险边界向后推了一步:攻击者甚至不需要干预训练过程本身,只需要把量化阶段拿下来,就可能在量化时植入后门。现实中,量化常常被看成一个部署工具、模型转换工具或者边缘加速工具,它的安全优先级往往不如训练平台和模型仓库高。

论文提出的方法完全工作在量化操作上。它首先选择对目标后门最敏感、同时又尽量不影响总体性能的关键权重,然后通过优化这些权重的舍入方向,在不显著破坏模型精度的前提下,把后门效果沿层级逐步放大。与依赖训练数据投毒或训练目标操纵的传统后门相比,QuRA最大的特点是训练无关。攻击者不需要改训练数据,也不需要接触原始训练流水线。这意味着只要量化工具链、量化服务或者量化插件被攻破,原本可信的全精度模型仍然可能在部署时被转化成恶意版本。

在ONNX Runtime官方文档中写到,静态量化需要先运行校准数据来计算激活量化参数,而且量化工具还会根据图优化、算子融合和调试结果决定最终量化图。而QuRA则利用了部署者在量化时必须交出校准数据、必须信任量化工具这一现实前提。攻击只需要少量由用户上传的校准数据,就足以完成量化与后门嵌入。从安全角度看,这意味着量化服务不是简单工具,而是具有高信任要求的供应链节点。

这一点的研究对本地LLM生态尤其重要。一旦用户习惯于下载全精度模型后在本地执行量化,或者习惯于从第三方下载已经量化好的模型文件,那么量化阶段本身就会成为安全边界最薄弱的一环。

大模型量化攻击

论文Exploiting LLM Quantization展示了量化攻击针对于大模型的公鸡。在论文中,开源LLM的量化不只是性能问题,还可能被攻击者利用成内容安全、代码安全和行为安全问题。论文给出了三阶段攻击框架

第一阶段,攻击者先通过微调得到一个具备目标恶意行为的LLM

第二阶段,攻击者量化这个恶意模型,并计算一组约束,刻画所有会映射到同一量化模型的全精度权重集合。

第三阶段,攻击者在保持这些约束的同时,用投影梯度下降把全精度状态下显眼的恶意行为尽量抹掉。结果就是一个在全精度下看起来良性、但量化后会重新显露恶意行为的模型。

这种量化攻击精准打中了开源LLM社区的实际使用方式。论文明确指出,攻击者完全可以把处理过的全精度模型上传到类似Hugging Face的社区平台,并依靠基准分数、排行榜和常规评测来塑造其安全或实用形象。而真正的恶意行为,会在用户下载后为了节省显存和内存而自行量化时才被激活。[这就形成了一个很难被传统审查捕捉的问题:平台评测看到的是全精度模型,终端用户运行的是量化模型,二者并不是同一个安全对象。

论文选择的三个场景都非常有代表性。

第一是脆弱代码生成,也就是量化后显著提高不安全代码输出概率。

第二是内容注入,也就是在原本正常输出中稳定植入攻击者指定内容。

第三是过度拒绝攻击,也就是把原本应正常响应的任务错误地大量拒绝。

其中一个很重要的结果是,某个攻击模型在全精度状态下还能保持82.6%的安全代码率,但其LLM.int8量化版本产生安全代码的比例会降到不到3%。这说明了安全评估如果停留在全精度状态,结论可能与用户真实部署后的表现完全相反。

如果结合量化激活工具,那么两者的结构非常相似:都是让全精度模型负责通过审查,让量化模型负责交付恶意效果。不同之处在于,大模型场景的社区分发规模更大、下游用途更复杂、工具调用与内容安全后果更直接。

GGUF量化攻击

论文Mind the Gap把问题推进到今天最常见的GGUFk-quant实践里。论文指出,先前攻击主要适用于较简单的零样本量化方案,而现实本地部署更广泛依赖的是GGUF中的优化型k-quant数据类型,例如Q2_K、Q4_K、Q6_K等。这类方案量化过程更复杂、依赖更强的块级优化,很多人因此会自然产生一种乐观判断:既然量化算法复杂了,攻击难度应该也会上升到不再现实。Mind the Gap的核心贡献,就是否定了这种判断。

论文认为,对于攻击成功来说,攻击者不一定非要像简单量化那样精确算出每个权重的严格量化保持区间,只要能够基于量化误差得到足够可用、足够宽又不过度失真的区间,就仍然可以在这些约束下完成全精度去恶意化训练,同时保持量化后恶意行为。

论文在三个流行LLM、九种GGUF数据类型和三个场景上进行了评估,报告的主要结果包括:不安全代码生成场景中可达到88.7%的差值,定向内容注入场景中可达到85.0%的差值,良性指令拒绝场景中可达到30.1%的差值。论文由此得出的判断也很明确:最广泛使用的后训练量化方法之一,本身同样容易受到恶意干预。量化方案更复杂,并不能自动成为防御。

GGUF规范强调,GGUF追求单文件部署、元数据完整和mmap兼容。用户既可以自己把模型转换成GGUF,也可以直接下载兼容GGUF模型,甚至可以通过命令行直接从Hugging Face拉取模型运行。从安全角度来看,它意味着量化结果天然适合复制、缓存、镜像和二次分发。换句话说,量化模型不只是部署结果,它本身就是一个流通对象。

这就带来供应链威胁。在论文Exploiting LLM Quantization里,用户通常还需要自己做量化。[而在GGUF生态里,社区成员可以先把量化后的单文件发布出去,普通用户只需要下载并运行即可。全精度模型负责获得社区信任,GGUF文件负责大规模传播最终风险。

进一步说,GGUF规范里的元数据、编码类型命名和单文件特性本来是为了提高可移植性与可识别性。但从安全角度看,这也让量化类型更加明确、可枚举、可针对。攻击者不再面对一个模糊的压缩结果,而是面对一组具体命名、具体编码、具体分发格式的对象

因此,GGUF量化攻击真正暴露的并不只是某个算法细节,而是本地推理时代的一个基础矛盾:为了让模型更容易在普通硬件上跑起来,社区不得不高度依赖量化与统一分发格式。

总结

从公开的论文研究来看,量化攻击已经从一个看起来偏理论的模型压缩安全问题,发展成跨训练、跨部署、跨社区分发的系统性问题。它至少同时指向两类现实结论。

第一,量化会改变模型行为,攻击者可以把这种变化编码成精度崩塌、后门、内容注入、脆弱代码生成和过度拒绝。

第二,量化流程本身也是攻击面,尤其当校准数据、量化工具链与量化产物分发不受严格治理时更是如此。

从安全角度看,量化真正暴露的问题并不是模型会不会少掉一点精度,而是系统到底把信任放在了哪里。只要平台审的是全精度模型、用户跑的是量化模型、社区传播的是GGUF文件、工具链又默认可信,那么攻击者就始终有机会在这些边界缝隙里隐藏行为差异

参考

https://pytorch.org/blog/quantization-in-practice/

https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html

https://proceedings.neurips.cc/paper/2021/file/4d8bd3f7351f4fee76ba17594f070ddd-Paper.pdf

https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11142.pdf

Rounding-Guided Backdoor Injection in Deep Learning Model Quantization

https://proceedings.neurips.cc/paper_files/paper/2024/file/496720b3c860111b95ac8634349dcc88-Paper-Conference.pdf


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:Security for AI 何必沉溺于过去 何必沉溺于过去《深入理解模型量化攻击》

    深入理解模型量化攻击 网络安全文章

    深入理解模型量化攻击

    文章总结: 文档深入剖析模型量化作为安全关键阶段的风险,指出攻击者可利用量化过程中的行为跳变植入后门或引发恶意行为。文章综述了Qu-ANTI-zation、数据
    评论:0   参与:  0