ICLR2026|小红书多模态推理大模型Vision‑R1:实现图文内容的深度逻辑推理与理解

admin 2026-03-11 02:23:08 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 小红书发布多模态推理大模型Vision-R1,利用模态桥接技术构建200K高质量思维链数据解决冷启动难题,并引入渐进式思维抑制训练PTST克服过度思考问题。实验显示其7B模型在MathVista准确率达73.5%逼近OpenAIO1,验证了该方法在提升复杂推理能力与降低数据成本方面的有效性,推动多模态智能向思维涌现演进。 综合评分: 90 文章分类: AI安全,产品介绍,安全招聘


cover_image

ICLR 2026|小红书多模态推理大模型 Vision‑R1 :实现图文内容的深度逻辑推理与理解

原创

REDtech REDtech

小红书技术REDtech

2026年3月10日 18:03 上海

Vision-R1 重磅登场:以 200K 条无人工标注的高质量多模态 CoT 冷启动数据打底,融合 GRPO 与渐进式思维抑制训练(PTST),有效解决多模态大模型“过度思考”难题,显著激发复杂推理能力。 7B 模型在 MathVista 达 73.5%,效果接近 OpenAI O1。

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

链接:https://arxiv.org/abs/2503.06749

在通向通用人工智能(Artificial General Intelligence, AGI)的道路上,复杂推理能力始终是大语言模型(Large Language Models, LLMs)的重要瓶颈,而这一挑战在引入视觉模态后变得更为艰巨。这存在以下几个问题:

大语言模型推理火热,但多模态推理仍是短板

近年来,纯文本领域推理方法(如“链式思考”、Tree-of-Thought 等)发展迅速,证明了在文本任务中,通过显式的多步推理,可极大提升模型在复杂问题上的表现。然而,这些方法大多只聚焦在文本输入上,很少考虑视觉信息。多模态大模型若只停留在“根据图像简单识别+给出答案”,常常难以在高难度推理场景(如数学场景的图文结合推理、几何题带图解等)表现优异。

直接用强化学习在多模态模型上激发“自发思考”并不容易

在纯文本模型上,已有工作(如 DeepSeek-R1)表明,利用强化学习去激发模型自我生成更复杂的推理链,确实有效。但想直接将这种强化学习方法“照搬”到多模态大模型,会面临数据稀缺、模型过度胡乱生成长推理链等问题,导致效果不佳。因此,需要一个辅助的冷启动初始化步骤来帮助模型先学会“如何思考”,然后再进行强化学习,以提升推理过程的正确性与稳健性。

直接强化学习难以激发推理能力

论文最先尝试了一个直觉做法:在没任何预热的情况下,直接对多模态模型进行强化学习训练,企图让模型自发生成复杂的推理过程。结果发现,模型难以从零开始形成准确且复杂的推理链,往往一味追求“产出长推理”却忽视了正确性,性能难以获得提升。

冷启动面临高质量数据匮乏

想要先做冷启动进行预热,想让多模态模型先学会“像人一样思考”,需要兼具视觉、语言乃至数学场景下的复杂推理示例,但纯人工大规模标注成本非常高。如何在极少或无人工干预的情况下,获得高质量、多样化的多模态推理数据,也是一个难题。

存在“过度思考”优化难题

如果在多模态模型上先通过冷启动学到一些复杂的推理模式,再做强化学习时,会出现另一类问题:模型往往倾向于生成过长的思考过程,其中充斥着错误或冗余的步骤,这种“思考过度”会使得训练过程变得不稳定,难以成功优化到正确且高效的推理模式。

我们的研究揭示了当前两大核心瓶颈:

  1. 数据之困:高质量多模态思维链数据极度稀缺,人工标注成本高昂且难以捕捉真实思维动态,这导致了冷启动数据难以获得的问题。
  2. 优化之难:直接对冷启动后的多模态大模型使用强化学习(RL)训练会导致“过度思考优化问题 (Overthink Optimization Problem)”,即模型在早期训练时无法激活内生复杂推理能力,而长时间训练后又倾向于生成冗余重复的推理过程,这使得多模态大模型的泛化能力难以强化。

基于此,我们提出了 Vision-R1多模态推理大模型,以系统性创新突破了上述挑战。

无监督高质量思维链数据生成

团队创新性地提出了模态桥接(Modality Bridging)方法,首次实现多模态 CoT 数据的自动化构造流水线:

  • 模态桥接:利用现有多模态大模型从图文对中生成含视觉描述的结构化“伪推理链”,再将问题对和”伪推理链”交给多模态大模型生成足够详细的文本描述,巧妙的将图片信息转变为文本信息以可以被 DeepSeek-R1 所捕捉。如图3所示,这一方式避免了描述信息不足导致 DeepSeek-R1 无法做出正确的推理。
  • 高质量思维链获取:将第一步产生的足够详细的文本描述后输入 DeepSeek-R1 提取高质量 CoT。
  • 后处理规则过滤:基于规则进行数据后处理,进一步提升质量。

如上图所示,该流水线产出 200K 高质量多模态 CoT 数据集 Vision-R1-cold,其推理步骤呈现人类特有的“质疑反思”的逻辑推理思考范式。该数据被用于进行 Vision-R1 的冷启动,使模型先学习复杂思考的形式。

渐进式思维优化

针对冷启动后续强化学习训练中的过度思考问题,创新性地提出渐进式思维抑制训练(Progressive Thinking Suppression Training, PTST)与硬格式结果奖励函数(Hard Formatting Result Reward Function, HFRRF)

  • PTST 机制:如上图所示,仿照人类认知发展规律,在训练初期约束推理过程长度,使模型优先内化核心推理逻辑,学会正确的思考方式,再逐步扩展推理长度,提升复杂推理能力。
  • HFRRF 优化 GRPO:采用与 DeepSeek-R1 相同的分组相对策略优化(Group Relative Policy Optimization)的强化学习方法,并通过硬格式结果奖励(即同时满足格式正确和答案正确才可以获得奖励)引导模型学习正确推理,形成”关键节点验证”的推理范式。

上述策略使 7B 参数的 Vision-R1 在 10K RL 训练数据集上实现推理能力大幅增强,其推理效率较基线有着显著提升。

Vision-R1 的突破性不仅体现在方法创新上,更在系统化实验中获得了严谨验证。我们从三大维度来揭示其认知推理能力跃迁的内在机制:

数学推理:7B模型的”逆袭时刻”

如上表所示,Vision-R1-7B 在 MathVista 基准测试中取得 73.5% 的准确率,与 OpenAI O1 的差距缩小至 0.4%——这意味着仅用 7B 参数量即可比肩顶尖商业模型的数学推理水平。当 scaling 到 32B/72B 尺寸模型和更多数据,Vision-R1 在 scaling 中表现突出。更值得关注的是:

在MathVista的几何推理(Geometry Reasoning, GEO)、算术推理(Algebraic Reasoning, ALG)、几何问题求解(Geometry Problem Solving, GPS)等子任务中,Vision-R1-7B 以 80.3%、79.0%、83.2% 的准确率全面超越基座模型 Qwen-2.5-VL-7B。在 MathVerse 与 MM-Math 基准上,Vision-R1-7B 的 MM-Math 成绩仅次于参数量10倍的 Qwen-2.5-VL-72B。

思维链质量:揭开200K数据集的认知密码

为评估 Vision-R1-cold 数据集的质量,团队进行了数据质量分析:

对比 Mulberry (260K)、llava-cot (100K) 等数据集,Vision-R1-cold (200K) 的质疑(Questioning)、反思(Reflection)、检验(Inspection)等认知要素出现频率提升3-5倍(见表2)。

基于 Llama-3.2-11B-V-Instruct 的基座模型对比实验显示,使用 Vision-R1-cold 微调的模型在通用和数学 Benchmark 上相较于传统的“伪 CoT”数据集都实现了大幅的领先,证明其数据质量以及思维链结构更符合人类推理模式。

训练动力学:PTST 如何破解”过度思考”困局

通过可视化强化学习训练过程,我们发现:

  • 思维压缩效应:应用 PTST 策略后,模型在初期训练阶段压缩了思考过程长度,而准确率有显著提升。
  • 渐进泛化能力:随着训练推进,模型在保持核心推理逻辑的同时,鼓励模型进行复杂推理,逐步将思考长度扩展,最后做到具有复杂思维能力的同时,正确做出推理。

消融实验:冷启动+强化学习+PTST 的协同效应

为验证框架各组件贡献,我们对比了四种训练策略(见上表):

  • Vision-R1-Zero(纯强化训练):因缺乏高质量初始化数据,生成的思维链长度不足且结构简单,复杂任务准确率受限。
  • Vision-R1-CI(仅冷启动):虽能生成长推理链,但冗余错误步骤占比较高,导致整体性能下降。
  • Vision-R1-Long(冷启动+强化学习,无 PTST ):直接优化较为困难,准确率波动幅度较大。
  • Vision-R1(冷启动+强化学习+PTST):通过 PTST 策略动态调节推理深度,在做到复杂推理的情况下,保证推理准确率。

实验证明:冷启动提供“认知种子”,PTST 实现“思维修剪”,二者协同使模型获得最优的推理效率-准确性平衡。这一发现为多模态大模型的强化训练提供了全新范式。

为验证 PTST 的作用,我们详细对比了几种训练策略。实验表明,Vision-R1 的渐进训练取得了最佳的效果,这一策略简单且有效。

  • 方法创新:首创无监督多模态思维链生成与渐进式思维抑制训练(PTST),突破传统依赖人工标注数据与直接强化学习的双重瓶颈,实现复杂推理能力的自我涌现。
  • 性能突破:仅 7B 参数的模型在数学推理任务中比肩 70B+级商业模型,验证“小模型+优算法”可超越参数规模限制。当 scaling 模型参数和数据规模,均取得显著的提升,方法的泛化性显著。
  • 关键机制设计:冷启动+强化学习+PTST 协同作用,有效平衡了推理链复杂度与准确性,解决“不思考”和“过思考”的问题。
  • 数据生产革命:自动化构建 200K 高质量 CoT 数据集,首次实现多模态推理认知数据的规模化生产,大量降低成本。
  • 范式影响:推动多模态模型从“感知再现”迈向“思维涌现”,为通用人工智能的认知架构演进提供新路径。

启示录:当机器开始学会在视觉认知中自我质疑、动态修正,我们正见证着多模态智能从“感知再现”走向“思维涌现”的历史性拐点。Vision-R1 的突破预示着:通用人工智能的拼图上,又一块关键组件已悄然就位。

小红书大模型团队招人啦~

招聘大模型算法工程师/算法专家,预训练、SFT、RL、数据&评测、AI Infra,有相关实习经验、顶会论文、开源项目、竞赛奖项获得者优先,地点:北京/上海/杭州,浓厚的技术氛围,部分团队工作:业务统一后训练 RedOne/RedOne 2.0,小红书翻译 RedTrans,多模态推理 Vision-R1,多模态 Vision-DeepResearch,扩散大语言模型 RedLLM,情感陪聊 iPET等,社招/校招/实习均可。

投递邮箱:

[email protected]


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:小红书技术REDtech REDtech REDtech《ICLR 2026|小红书多模态推理大模型 Vision‑R1 :实现图文内容的深度逻辑推理与理解》

常用隧道穿透技术-FRP 网络安全文章

常用隧道穿透技术-FRP

文章总结: 本文介绍了内网穿透技术概念及常用隧道类型,重点讲解了开源工具FRP的原理与实战应用。文章详细演示了在Windows环境下配置FRP服务端与客户端,建
评论:0   参与:  0