2025-12-22 04:38:54 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 参数高效微调(PEFT)技术通过只调整极少数参数来降低大模型训练成本，主要包括LoRA、Adapters和PrefixTuning等方法。在AI安全领域，PEFT可应用于提升模型鲁棒性、保护数据隐私、实现滥用检测与输出控制以及增强模型可信性和可解释性。这些应用通过低秩微调、安全适配器和可学习前缀等技术，使模型在保持高效的同时获得更好的安全性能。PEFT方法不仅降低了计算开销，还提供了模块化的安全控件，为AI安全提供了新的解决方案。 综合评分： 85 文章分类： AI安全,安全建设,应用安全,数据安全,安全开发

cover_image

参数高效微调（PEFT）介绍以及在AI安全中的应用方法论

原创

纪我死去的昨天

缺月追寻

2025年12月14日 09:01 柬埔寨

0x00 引言

参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）是一在微调大型预训练模型时只调整极少数参数的微调技术，以降低训练成本并提高灵活性。典型的方法包括 LoRA（Low-Rank Adaptation）、Adapters（适配器模块）和 Prefix Tuning（前缀微调）等。它们各自通过不同机制在保持预训练模型大部分权重不变的情况下，高效地适应下游任务。本文将这些主要方法的原理和训练流程，以及在AI安全中的应用方法论。

0x01 主要训练方法

LoRA：低秩适配微调

LoRA 方法通过为预训练模型中的权重矩阵引入低秩分解的增量更新来实现微调。具体来说，对于模型中的每个权重矩阵，LoRA 在其基础上添加两个可训练的低秩矩阵（通常记作 AAA 和 BBB），仅训练这两个矩阵的参数，而将原始权重冻结不动。模型前向传播时，加入这两个矩阵的乘积作为权重更新，即令实际权重W′=W+ΔWW’ = W + \Delta WW′=W+ΔW，其中 ΔW=B×A\Delta W = B \times AΔW=B×A 是低秩近似更新。

这种方式仅增加极少的新参数（如占原模型参数的 0.1%–3%），却能取得接近全量微调的效果。

LoRA 的训练流程是：在保持原模型参数冻结的情况下，用下游任务数据对这些低秩矩阵进行梯度更新。

由于仅训练少量参数，LoRA 显著减少了显存和计算开销。LoRA 如今已成为在大模型及跨模态模型上广泛应用的微调方案。

Adapters：插入式适配模块

Adapters方法是在模型的各层之间插入小型的可训练神经模块来实现微调。典型的Adapter是在 Transformer 网络的每层（例如注意力和前馈网络之间）增设一个瓶颈结构的小型全连接层：先将维度降到较小的隐层，再升回原始维度。在微调时，模型原有的主干参数保持冻结，仅这些新插入的 Adapter 层的权重会被训练更新。这样，每个下游任务只需为每层添加极少量参数（通常占原模型的 1–5%），并且不同任务可以插入不同的适配器模块，而不相互干扰，实现“模块化”的扩展。

Adapters的训练流程是：先将预训练模型的参数固定，然后用任务数据训练所有新加的适配器层。

Adapters的优点是训练高效且易于扩展多个任务，同时由于主模型权重不变，保持了高程度的参数共享和原模型知识。

Prefix Tuning：连续前缀微调

Prefix Tuning是一种软提示方法，通过为Transformer 每层输入添加一段可训练的前缀向量来引导模型生成任务相关输出。具体做法是在模型的每一层自注意力机制中，引入若干长度可调的虚拟前缀标记，这些前缀有各自的可训练表示向量，并在微调时被优化。

模型其余的参数仍然冻结，仅这些前缀向量作为训练参数。直观而言，这相当于在不改变原模型权重的前提下，学习一个额外的上下文提示，使模型偏向执行特定任务。

Prefix Tuning的训练流程是：初始化若干随机的连续向量作为每层前缀，在下游任务数据上通过反向传播更新这些向量的值。

相比全量微调，Prefix Tuning仅需优化很小的参数量（通常上百个到几千个维度的向量），因此训练开销低且易于与不同任务的前缀组合。需要注意的是，Prefix Tuning主要影响模型的输入表示，其表达能力有限，因此在复杂任务上性能可能略逊于 LoRA 或 Adapter 等方法。

0x02 PEFT在AI安全的应用

PEFT除了实现模型高效微调之外，它也可在AI安全方面起到重要作用。

鲁棒性提升

在鲁棒性方面，传统的对抗训练通常需要对模型所有参数进行昂贵的更新，而 PEFT 可以聚焦少量关键参数进行鲁棒训练，从而降低成本且避免模型其余部分过度更新导致的性能退化。不过，如果基础的PEFT微调仅在干净数据上训有时会降低模型对抗攻击下的稳健性。原因在于冻结大部分参数可能让模型的脆弱性集中在未调整的部分，使攻击更易奏效。为此，以下为部分增强策略：

重点层低秩微调：Transformer的层对抗攻击的易损度差异，因此可以计算每层的脆弱度分数并将 LoRA 微调参数集中投入最脆弱的层。例如，方法 “LoRA High” 将更多低秩适配参数放在高脆弱度层；另一个方案 “LoRA+Adapter” 则结合 LoRA 和 Adapter，分别加在注意力和前馈子层中。
对抗训练与PEFT 结合：在LoRA微调框架中引入动态难度递增的对抗样本课程学习，通过逐步增强攻击强度来训练 LoRA 参数。这样模型先从弱攻击中学习稳健表示，再逐渐适应强攻击，最终显著提高了微调模型的对抗鲁棒性，同时对干净精度的影响很小。

PEFT微调由于冻结了大部分预训练权重，在对抗训练中减少了计算开销，也避免了对模型原有能力的全面扰动，使对抗鲁棒性提升过程更加可控。经过精心设计训练，PEFT可以在保持高效的同时，让模型获得接近全参数对抗训练的稳健性。但如果仅用少量PEFT参数标准微调，模型可能更易受攻击，因此仍应结合对抗训练或鲁棒优化技巧，以确保微调后的模型能抵御恶意输入。

数据隐私保护

#

PEFT因其只训练和存储少量参数的特点，被视为有利于降低训练数据泄露风险的一种手段。标准微调往往需要调优全部模型参数，可能导致模型记住训练集中敏感信息；相较之下，PEFT 将微调影响局限在很小范围内，降低了模型对具体训练样本的过度记忆。

有学者进行研究后发现，采用 PEFT 微调的大模型其隐私泄露风险显著低于全参数微调。在对比多组模型后发现，LoRA 等 PEFT 微调模型在保持实用性能的同时，对攻击者尝试重构训练数据的抵抗更强，即使使用相同的数据提取方法，PEFT模型泄露的信息量更少。这表明，仅调整小部分参数有助于模型遗忘具体样本细节，或至少不将其固化到整个权重中。

PEFT微调通过减少参数更新规模，天然降低了模型对训练数据的记忆力，从而在一定程度上提升了用户数据的隐私保障。再结合差分隐私优化，PEFT可以实现比传统微调更优的隐私和性能性能之间的平衡。

滥用检测与模型输出控制

#

对AI模型的滥用检测（如有害内容识别）和输出控制（如违禁内容过滤、响应风格调节），PEFT同样有独特的优势。传统做法往往需要训练一个独立的安全过滤模型或对原模型进行安全指令微调，但这可能带来高延迟或影响模型其它能力。PEFT则可以通过增加轻量模块或可控前缀，实现对主模型行为的实时约束与调整，且开销很小。

集成安全适配器：DSA（Disentangled Safety Adapters）框架是这方面的代表。DS 在大模型内部引入两个专门的 Adapter 模块：一个充当安全分类器（判断输入或输出是否违规），另一个用于生成引导（在模型输出中注入安全偏向）。这两个适配器直接利用模型的隐藏表示进行判断和引导，而不改变原模型的任何权重。由于适配器与模型主体解耦，安全策略的更新和调整可以独立进行，无需重新训练整个模型。这一设计实现了一种转换：在推理时可以灵活打开或调节安全适配器的强度，从而实现对输出的细粒度控制。
可学习前缀与提示：另一类输出控制手段是利用 Prefix Tuning 学习一个安全前缀，使模型自动遵循安全准则回答。例如，可以为模型训练一个特殊的前缀向量，使其倾向于在检测到违规请求时回复预设的拒绝模板或警告语。****
滥用行为检测：PEFT还能将大模型本身转化为高效的内容审核器。以 Llama-Guard为例，研究者使用LoRA将一个开源 LLM 微调为有害内容分类器，其参数仅占原模型的极小一部分，却取得了与大模型相当甚至更高的有害内容检测性能。这样的 LoRA 微调分类器可直接利用 LLM 的丰富知识进行判别，同时由于保持模型主体不变，可以很方便地部署在推理链路中，对 LLM 的输入或输出实时打分拦截。

PEFT提供了模块化的安全控件来监视和调节模型行为。在保证主模型强大能力的同时，小巧的适配模块承担了安全相关的任务。这种架构既避免了部署独立安全模型的高昂代价和延迟，又克服了直接安全微调大模型带来的全局性能折衷问题。从实际角度看，这意味着开发者可以为同一基础模型开发多套安全适配（例如不同法规要求下的内容过滤规则），在推理时按需加载，灵活应对各种滥用威胁。

模型可信性和可解释性增强

#

PEFT也可提升模型的可信度和可解释性。一方面，PEFT微调由于不改变模型大部分权重，往往更稳定地保留了原模型经过大规模预训练所获得的可靠知识和分布特性；另一方面，新增的参数规模小、作用局部，这为分析模型行为提供了便利。以下为这两方面的说明：

不确定性与校准：预训练模型往往在微调后变得过度自信，对其输出的置信度评分不够可靠。PEFT方法本身并不能完全避免这一问题，但通过对LoRA矩阵的权重施加概率分布，通过子空间推断高效估计后验协方差，使模型在输出预测时不仅给出点估计，还输出置信区间。这种方法在仅增加极少参数的情况下，使模型的校准误差显著降低，在多个 NLP 任务上模型的置信度分布更贴近真实准确率。通过采用PEFT可以更容易地引入不确定性评估机制，从而提升模型决策的可信度。
机制可解释性：由于PEFT只引入了少量参数变化，我们可以聚焦这些参数的影响来理解模型对特定任务或领域知识的编码。通过PEFT提高了模型的透明度，我们可以将模型新学到的知识溯源到具体的神经单元或连接，从而满足某些高安全领域对AI决策可验证性的要求。
稳定性与可控性：由于PEFT不会破坏模型原有的大部分权重，微调后的模型通常保持了原模型的广泛知识和稳健性。这相较全参数微调往往更不易出现训练数据偏差导致的遗忘或性能剧烈波动。因此在部署时，采用PEFT微调的模型在非目标任务上往往与原模型表现一致，从而避免意外行为。

PEFT通过减少调整范围，实现了模型行为改动的局部化和可控化。这既便于提升模型安全属性，又方便对新增部分进行解释和验证，从工程上提高了模型部署的可信度。

0x03 总结

通过引入PEFT，LoRA、Adapters、Prefix Tuning 等训练方法可以以极小的代价赋予大模型新的能力，使之能够更好地抵御攻击者的攻击，并提升模型决策的可信度和透明度

0x04 参考

https://arxiv.org/html/2410.10862

https://arxiv.org/html/2509.20792

https://arxiv.org/html/2410.10862

https://openreview.net/pdf?id=5TitVYbQQ2

https://openreview.net/forum?id=i2Ul8WIQm7

https://arxiv.org/html/2506.00166

查看原文：《参数高效微调（PEFT）介绍以及在AI安全中的应用方法论》