2026-01-21 01:05:39 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文解读扩散大模型在语言与多模态领域的应用，涵盖LLaDA系列。模型通过掩码扩散挑战自回归范式，在文本理解、多模态对话及文生图任务中优势明显。实验表明其有效解决反向推理并提升数据可扩展性，为下一代AI模型构建提供了新思路。 综合评分： 92 文章分类： AI安全

cover_image

专题解读｜扩散大模型在语言与多模态领域的应用：超越自回归范式

刘泽弟刘泽弟

北邮 GAMMA Lab

2026年1月20日 11:27 北京

专题解读｜扩散大模型在语言与多模态领域的应用：超越自回归范式

一、简介

传统的大语言模型（LLM）长期以来以其在自然语言处理任务中的卓越表现而闻名，其核心是基于自回归（Autoregressive, AR）范式的“下一词预测”机制。这种机制虽然强大，但在处理多模态数据、实现双向推理以及高效并行生成方面存在固有限制。近年来，扩散模型（Diffusion Models）在图像生成领域取得了突破性进展，其通过迭代去噪过程实现内容生成的特性，为语言和多模态建模提供了新的视角。

本专题解读将聚焦三篇开创性工作：LLaDA、LLaDA-V 和 MMaDA。它们共同挑战了自回归范式在 LLM 和多模态大模型（MLLM）中的主导地位，展示了扩散模型在纯文本理解、多模态理解与生成等任务中的巨大潜力，为我们理解和构建下一代 AI 模型提供了新的思考框架。

二、LLaDA: Large Language Diffusion Models

LLaDA（Large Language Diffusion with mAsking）是首个从零开始训练的纯扩散大语言模型，旨在验证扩散模型在文本领域能否达到与强大自回归 LLM 相当的性能。该工作挑战了“自回归范式是实现 LLM 核心能力的唯一途径”这一普遍假设。

2.1. 自回归模型的局限性：

高计算成本：顺序生成导致高昂的计算开销。
左向右偏差：固有的单向建模限制了在反向推理任务中的有效性，例如完成诗歌倒序或逻辑推理。
缺乏双向依赖：难以捕捉全局上下文依赖关系。

LLaDA 提出的核心洞见是，LLM 的关键能力（如可扩展性、上下文学习和指令遵循）并非自回归模型所独有，而是根植于更通用的生成建模原则（即最大化数据似然性）。扩散模型通过其独特的掩码扩散过程，能够构建双向依赖关系，从而有望克服自回归模型的上述局限。

2.2. 概率公式与训练机制

LLaDA 采用掩码扩散模型（Masked Diffusion Model, MDM）框架来定义模型分布，而非自回归的下一词预测。

前向扩散过程：

给定原始句子，LLaDA 随机采样一个时间步。
在时间步下，句子中的每个 token 都以概率被替换为特殊掩码 token [M]，或以概率保持不变，从而得到被噪声污染的句子。
这个过程是独立地对每个 token 进行操作，而非顺序地。

反向去噪过程：

模型从一个完全被 [M]token 掩盖的句子开始（相当于）。
通过迭代地预测这些被掩盖的 token 来重建原始句子，时间步从1逐步减小到0。
模型核心是一个掩码预测器，接收作为输入，同时预测所有被掩盖的 token。

训练目标：LLaDA 使用交叉熵损失进行训练，该损失仅在被掩码的 token 上计算。这个目标函数已被证明是模型分布负对数似然的变分上界，使其成为一个有原则的生成模型。

2.3. 实验结果

可扩展性（Scalability）：LLaDA 8B 模型在 2.3 万亿 token 上从零开始预训练，展示了与 LLaMA3 8B 等自回归模型相当的竞争力，尤其在 MMLU 和 GSM8K 等任务上表现出更强的可扩展性。

反向推理（Reversal Reasoning）：LLaDA 有效地解决了自回归模型中存在的“反向诅咒”问题，在正向和反向任务中表现出一致的零样本性能，在诗歌倒序完成任务中甚至超越了 GPT-40。这得益于其对 token 的统一处理，没有固有的单向归纳偏差。

三、LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

LLaDA-V 将纯扩散模型 LLaDA 的成功经验推广到多模态领域。尽管 LLaDA 在纯文本任务上的表现可能略逊于 LLaMA3-8B，但其独特的双向建模能力和数据可扩展性在多模态理解中具有潜在优势。LLaDA-V 旨在通过视觉指令微调（Visual Instruction Tuning）框架，有效扩展大型语言扩散模型以具备强大的多模态理解能力。

3.1. 架构与训练策略

LLaDA-V 建立在 LLaDA 的基础上，并引入以下关键组件和策略：

多模态架构：

语言塔(Language Tower)：沿用 LLaDA [42]，作为处理文本的基础。
视觉编码器(Vision Encoder)：引入SigLIP 2[44]等模型将图像转换为视觉表示。
MLP 连接器(MLP Connector)：将视觉特征投影到 LLaDA 的语言嵌入空间，实现有效的多模态对齐。

训练目标与多轮对话：

LLaDA-V 扩展了 LLaDA 的训练目标，以处理多轮多模态对话。其目标是预测响应中被掩码的 token，给定图像特征和提示。
通过这种方式，大型语言扩散模型被有效扩展到能够理解多模态输入。

注意力机制设计：

论文重点探索了语言塔中的注意力机制设计，特别是对比了对话因果注意力（Dialogue Causal Mask）和无掩码（No Mask，即双向注意力）两种策略。
对话因果掩码：允许在每个对话轮次内进行双向注意力，但保持轮次间的因果关系（即早期轮次不能访问后期轮次）。
无掩码（双向注意力）：允许所有 token 之间进行完全双向注意力，从而实现对整个对话上下文的全面理解。
实验发现：双向注意力机制在多个基准测试上取得了优异结果，因此 LLaDA-V 采用此策略。这与视频扩散模型中用于增强时间一致性的做法一致。

多阶段训练策略：采用三阶段训练范式，类似于 LLaVA-NeXT [54]：

阶段 1：语言-图像对齐（Language-Image Alignment）：训练 MLP 投影器，将视觉表示与 LLaDA 的词嵌入对齐，语言塔和视觉塔在此阶段冻结。
阶段 2：视觉指令微调（Visual Instruction Tuning）：在大规模指令数据上微调整个模型，发展多模态理解能力，包括单图像、多图像和视频输入。分为单图像训练和OneVision 训练。
阶段 3：多模态推理增强（Multimodal Reasoning Enhancement）：提升复杂任务的推理能力，包括推理训练（使用包含详细推理链的 QA 数据）和平衡推理训练（混合数据集，通过特殊标签鼓励直接回答或提供推理）。

3.2. 实验效果

LLaDA-V 在多模态基准测试中展现出令人鼓舞的性能：

数据可扩展性：LLaDA-V 在增加指令微调数据量时表现出更强的可扩展性，尤其在多学科知识和数学推理任务（如 MMMU、MMMU-Pro）上超越了自回归基线 LLaMA3-V。

基准测试：多学科知识和数学推理任务的基准测试结果。“Diffusion”在此处涵盖连续和离散扩散模型。值得注意的是，LLaDA-V优于所有其他混合和纯扩散MLLM，在9个基准测试中的6个上超过了LLaMA3-V。

四、MMaDA: Multimodal Large Diffusion Language Models

MMaDA（Multimodal Large Diffusion Language Models）是一个新颖的多模态扩散基础模型，旨在实现文本推理、多模态理解和文本到图像生成等多样化任务的卓越性能。MMaDA 的核心在于其统一的扩散架构、共享的概率公式和模态无关的设计，这使其能够无缝集成和处理不同数据类型。

4.1. 统一扩散基础架构

MMaDA 采用扩散模型作为其统一架构，将传统的生成器扩展为通用的任务解决器。通过共享的概率公式和模态无关的设计，MMaDA 消除了对模态特定组件的需求，确保了不同数据类型（文本、图像）的无缝集成和处理。同时，MMaDA采用 离散 tokenization 策略：对文本和图像数据都采用一致的离散 tokenization 策略，将原始图像像素转换为离散语义 token 序列（例如，512×512 图像转换为 32×32=1024 个离散 token），从而使模型在一个统一的掩码 token 预测目标下运行。

4.2. 混合长链式思考（Mixed Long-CoT）后训练

为了实现冷启动训练，MMaDA 引入了混合长链式思考（CoT）微调策略。该策略通过统一的 CoT 格式（|<special_token>| <reasoning_process> |<special_token>| <result >）来对不同模态（文本和视觉）的推理过程进行对齐，从而促进跨模态协同，并在最终输出生成前学习中间推理。数据集的构建注重多样性、复杂性和准确性，利用开源 LLM/VLM 生成推理轨迹，并通过 SOTA 模型进行验证筛选，确保高质量、长形式的 CoT 样本。

4.3. 统一强化学习（UniGRPO）

MMaDA 提出了 UniGRPO，一种针对扩散基础模型量身定制的统一策略梯度强化学习算法。该方法通过多样化的奖励建模来统一跨模态和推理范式的任务特定目标，从而增强模型执行复杂推理和保持生成结果事实一致性的能力。 UniGRPO 的核心优势：结构化噪声策略：统一采样掩码比例，确保模型暴露于从几乎完全掩码到几乎完全去噪的各种去噪阶段，以充分利用扩散模型的多步生成能力。高效对数似然近似：定义了扰动分布下的预期每 token 对数似然，并通过对掩码 token 求平均来近似序列级对数似然。 策略梯度目标：结合了裁剪替代奖励和 KL 散度正则化，通过组相对优势估计实现稳定且高效的训练。多样化奖励建模：根据任务类型（文本推理、多模态推理、文本到图像生成）设置不同的奖励函数（如正确性奖励、格式奖励、CLIP Reward 和 ImageReward），确保 RL 优化方向与任务目标一致。

4.2. 实验效果

MMaDA 在多项基准测试中展现了卓越的性能：

多模态理解：MMaDA 在 POPE、MME、Flickr30k、VQAv2、GQA 和 MMMU 等基准测试上取得了与专用理解模型(如 LLaVA-v1.5、InstructBLIP)相当甚至更优的性能。

文本到图像生成：在 CLIP Score 和 ImageReward 指标上，MMaDA 实现了最高的性能，这得益于 UniGRPO 训练阶段中明确对齐的奖励。在 GenEval 上，模型在组合性和对象计数方面表现出色。

文本推理：MMaDA 在 MMLU、ARC-C、TruthfulQA 等通用任务以及 GSM8K、MATH、GPQA 等数学任务上取得了与 Qwen2-7B 和 LLaMA3-8B 等强大基线模型相当的性能，并在数学基准测试上持续超越 LLaDA-8B。

五、总结

LLaDA、LLaDA-V 和 MMaDA 这三项研究共同描绘了扩散大模型在语言和多模态领域超越传统自回归范式的光明前景。它们不仅在性能上与强大的自回归模型相媲美，甚至在特定任务（如反向推理、数据可扩展性、多模态生成）上展现出独特优势。

参考文献

[1] Nie S, Zhu F, You Z, et al. Large language diffusion models[J]. arXiv preprint arXiv:2502.09992, 2025.

[2] You Z, Nie S, Zhang X, et al. Llada-v: Large language diffusion models with visual instruction tuning[J]. arXiv preprint arXiv:2505.16933, 2025.

[3] Yang L, Tian Y, Li B, et al. Mmada: Multimodal large diffusion language models[J]. arXiv preprint arXiv:2505.15809, 2025.

本期责任编辑：杨成

本期编辑：郭枫

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：杨成

编辑：郭枫

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：北邮 GAMMA Lab 刘泽弟刘泽弟《专题解读｜扩散大模型在语言与多模态领域的应用：超越自回归范式》