2026-03-11 02:23:08 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 小红书发布多模态推理大模型Vision-R1，利用模态桥接技术构建200K高质量思维链数据解决冷启动难题，并引入渐进式思维抑制训练PTST克服过度思考问题。实验显示其7B模型在MathVista准确率达73.5%逼近OpenAIO1，验证了该方法在提升复杂推理能力与降低数据成本方面的有效性，推动多模态智能向思维涌现演进。 综合评分： 90 文章分类： AI安全,产品介绍,安全招聘

cover_image

ICLR 2026｜小红书多模态推理大模型 Vision‑R1 ：实现图文内容的深度逻辑推理与理解

原创

REDtech REDtech

小红书技术REDtech

2026年3月10日 18:03 上海

Vision-R1 重磅登场：以 200K 条无人工标注的高质量多模态 CoT 冷启动数据打底，融合 GRPO 与渐进式思维抑制训练（PTST），有效解决多模态大模型“过度思考”难题，显著激发复杂推理能力。 7B 模型在 MathVista 达 73.5%，效果接近 OpenAI O1。

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

链接：https://arxiv.org/abs/2503.06749

在通向通用人工智能（Artificial General Intelligence, AGI）的道路上，复杂推理能力始终是大语言模型（Large Language Models, LLMs）的重要瓶颈，而这一挑战在引入视觉模态后变得更为艰巨。这存在以下几个问题：

大语言模型推理火热，但多模态推理仍是短板

近年来，纯文本领域推理方法（如“链式思考”、Tree-of-Thought 等）发展迅速，证明了在文本任务中，通过显式的多步推理，可极大提升模型在复杂问题上的表现。然而，这些方法大多只聚焦在文本输入上，很少考虑视觉信息。多模态大模型若只停留在“根据图像简单识别+给出答案”，常常难以在高难度推理场景（如数学场景的图文结合推理、几何题带图解等）表现优异。

直接用强化学习在多模态模型上激发“自发思考”并不容易

在纯文本模型上，已有工作（如 DeepSeek-R1）表明，利用强化学习去激发模型自我生成更复杂的推理链，确实有效。但想直接将这种强化学习方法“照搬”到多模态大模型，会面临数据稀缺、模型过度胡乱生成长推理链等问题，导致效果不佳。因此，需要一个辅助的冷启动初始化步骤来帮助模型先学会“如何思考”，然后再进行强化学习，以提升推理过程的正确性与稳健性。

直接强化学习难以激发推理能力

论文最先尝试了一个直觉做法：在没任何预热的情况下，直接对多模态模型进行强化学习训练，企图让模型自发生成复杂的推理过程。结果发现，模型难以从零开始形成准确且复杂的推理链，往往一味追求“产出长推理”却忽视了正确性，性能难以获得提升。

冷启动面临高质量数据匮乏

想要先做冷启动进行预热，想让多模态模型先学会“像人一样思考”，需要兼具视觉、语言乃至数学场景下的复杂推理示例，但纯人工大规模标注成本非常高。如何在极少或无人工干预的情况下，获得高质量、多样化的多模态推理数据，也是一个难题。

存在“过度思考”优化难题

如果在多模态模型上先通过冷启动学到一些复杂的推理模式，再做强化学习时，会出现另一类问题：模型往往倾向于生成过长的思考过程，其中充斥着错误或冗余的步骤，这种“思考过度”会使得训练过程变得不稳定，难以成功优化到正确且高效的推理模式。

我们的研究揭示了当前两大核心瓶颈：

数据之困：高质量多模态思维链数据极度稀缺，人工标注成本高昂且难以捕捉真实思维动态，这导致了冷启动数据难以获得的问题。
优化之难：直接对冷启动后的多模态大模型使用强化学习（RL）训练会导致“过度思考优化问题（Overthink Optimization Problem）”，即模型在早期训练时无法激活内生复杂推理能力，而长时间训练后又倾向于生成冗余重复的推理过程，这使得多模态大模型的泛化能力难以强化。

基于此，我们提出了 Vision-R1多模态推理大模型，以系统性创新突破了上述挑战。

无监督高质量思维链数据生成

团队创新性地提出了模态桥接（Modality Bridging）方法，首次实现多模态 CoT 数据的自动化构造流水线：

模态桥接：利用现有多模态大模型从图文对中生成含视觉描述的结构化“伪推理链”，再将问题对和”伪推理链”交给多模态大模型生成足够详细的文本描述，巧妙的将图片信息转变为文本信息以可以被 DeepSeek-R1 所捕捉。如图3所示，这一方式避免了描述信息不足导致 DeepSeek-R1 无法做出正确的推理。
高质量思维链获取：将第一步产生的足够详细的文本描述后输入 DeepSeek-R1 提取高质量 CoT。
后处理规则过滤：基于规则进行数据后处理，进一步提升质量。

如上图所示，该流水线产出 200K 高质量多模态 CoT 数据集 Vision-R1-cold，其推理步骤呈现人类特有的“质疑反思”的逻辑推理思考范式。该数据被用于进行 Vision-R1 的冷启动，使模型先学习复杂思考的形式。

渐进式思维优化

针对冷启动后续强化学习训练中的过度思考问题，创新性地提出渐进式思维抑制训练（Progressive Thinking Suppression Training, PTST）与硬格式结果奖励函数（Hard Formatting Result Reward Function, HFRRF）。

PTST 机制：如上图所示，仿照人类认知发展规律，在训练初期约束推理过程长度，使模型优先内化核心推理逻辑，学会正确的思考方式，再逐步扩展推理长度，提升复杂推理能力。
HFRRF 优化 GRPO：采用与 DeepSeek-R1 相同的分组相对策略优化（Group Relative Policy Optimization）的强化学习方法，并通过硬格式结果奖励（即同时满足格式正确和答案正确才可以获得奖励）引导模型学习正确推理，形成”关键节点验证”的推理范式。

上述策略使 7B 参数的 Vision-R1 在 10K RL 训练数据集上实现推理能力大幅增强，其推理效率较基线有着显著提升。

Vision-R1 的突破性不仅体现在方法创新上，更在系统化实验中获得了严谨验证。我们从三大维度来揭示其认知推理能力跃迁的内在机制：

数学推理：7B模型的”逆袭时刻”

如上表所示，Vision-R1-7B 在 MathVista 基准测试中取得 73.5% 的准确率，与 OpenAI O1 的差距缩小至 0.4%——这意味着仅用 7B 参数量即可比肩顶尖商业模型的数学推理水平。当 scaling 到 32B/72B 尺寸模型和更多数据，Vision-R1 在 scaling 中表现突出。更值得关注的是：

在MathVista的几何推理（Geometry Reasoning, GEO）、算术推理（Algebraic Reasoning, ALG）、几何问题求解（Geometry Problem Solving, GPS）等子任务中，Vision-R1-7B 以 80.3%、79.0%、83.2% 的准确率全面超越基座模型 Qwen-2.5-VL-7B。在 MathVerse 与 MM-Math 基准上，Vision-R1-7B 的 MM-Math 成绩仅次于参数量10倍的 Qwen-2.5-VL-72B。

思维链质量：揭开200K数据集的认知密码

为评估 Vision-R1-cold 数据集的质量，团队进行了数据质量分析：

对比 Mulberry (260K)、llava-cot (100K) 等数据集，Vision-R1-cold (200K) 的质疑（Questioning）、反思（Reflection）、检验（Inspection）等认知要素出现频率提升3-5倍（见表2）。

基于 Llama-3.2-11B-V-Instruct 的基座模型对比实验显示，使用 Vision-R1-cold 微调的模型在通用和数学 Benchmark 上相较于传统的“伪 CoT”数据集都实现了大幅的领先，证明其数据质量以及思维链结构更符合人类推理模式。

训练动力学：PTST 如何破解”过度思考”困局

通过可视化强化学习训练过程，我们发现：

思维压缩效应：应用 PTST 策略后，模型在初期训练阶段压缩了思考过程长度，而准确率有显著提升。
渐进泛化能力：随着训练推进，模型在保持核心推理逻辑的同时，鼓励模型进行复杂推理，逐步将思考长度扩展，最后做到具有复杂思维能力的同时，正确做出推理。

消融实验：冷启动+强化学习+PTST 的协同效应

为验证框架各组件贡献，我们对比了四种训练策略（见上表）：

Vision-R1-Zero（纯强化训练）：因缺乏高质量初始化数据，生成的思维链长度不足且结构简单，复杂任务准确率受限。
Vision-R1-CI（仅冷启动）：虽能生成长推理链，但冗余错误步骤占比较高，导致整体性能下降。
Vision-R1-Long（冷启动+强化学习，无 PTST ）：直接优化较为困难，准确率波动幅度较大。
Vision-R1（冷启动+强化学习+PTST）：通过 PTST 策略动态调节推理深度，在做到复杂推理的情况下，保证推理准确率。

实验证明：冷启动提供“认知种子”，PTST 实现“思维修剪”，二者协同使模型获得最优的推理效率-准确性平衡。这一发现为多模态大模型的强化训练提供了全新范式。

为验证 PTST 的作用，我们详细对比了几种训练策略。实验表明，Vision-R1 的渐进训练取得了最佳的效果，这一策略简单且有效。

方法创新：首创无监督多模态思维链生成与渐进式思维抑制训练（PTST），突破传统依赖人工标注数据与直接强化学习的双重瓶颈，实现复杂推理能力的自我涌现。
性能突破：仅 7B 参数的模型在数学推理任务中比肩 70B+级商业模型，验证“小模型+优算法”可超越参数规模限制。当 scaling 模型参数和数据规模，均取得显著的提升，方法的泛化性显著。
关键机制设计：冷启动+强化学习+PTST 协同作用，有效平衡了推理链复杂度与准确性，解决“不思考”和“过思考”的问题。
数据生产革命：自动化构建 200K 高质量 CoT 数据集，首次实现多模态推理认知数据的规模化生产，大量降低成本。
范式影响：推动多模态模型从“感知再现”迈向“思维涌现”，为通用人工智能的认知架构演进提供新路径。

启示录：当机器开始学会在视觉认知中自我质疑、动态修正，我们正见证着多模态智能从“感知再现”走向“思维涌现”的历史性拐点。Vision-R1 的突破预示着：通用人工智能的拼图上，又一块关键组件已悄然就位。

小红书大模型团队招人啦～

招聘大模型算法工程师/算法专家，预训练、SFT、RL、数据&评测、AI Infra，有相关实习经验、顶会论文、开源项目、竞赛奖项获得者优先，地点：北京/上海/杭州，浓厚的技术氛围，部分团队工作：业务统一后训练 RedOne/RedOne 2.0，小红书翻译 RedTrans，多模态推理 Vision-R1，多模态 Vision-DeepResearch，扩散大语言模型 RedLLM，情感陪聊 iPET等，社招/校招/实习均可。

投递邮箱：

[email protected]

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：小红书技术REDtech REDtech REDtech《ICLR 2026｜小红书多模态推理大模型 Vision‑R1 ：实现图文内容的深度逻辑推理与理解》