2026-03-13 00:39:53 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 美团搜推ASX团队预告ICLR2026论文分享会，发布6篇前沿成果。ResT优化工具调用模型训练；SRFT融合SFT与RL提升推理表现；ViPER驱动视觉语言模型感知自进化；STS预测模型迁移性；MAD-Logic增强逻辑推理；LogiConBench构建逻辑一致性基准。研究涵盖Agent训练与多模态感知，展示团队在AI核心技术突破并招募人才。 综合评分： 70 文章分类： AI安全,安全招聘

cover_image

报名｜ICLR 2026 美团论文精选及分享会（上）——搜推 ASX 专场

美团技术团队

2026年3月12日 19:58 北京

点亮👆“☆”星标，不错过推送内容~

ICLR（International Conference on Learning Representations）是机器学习和人工智能领域最具影响力的年度学术会议之一，与 NeurIPS、ICML 并列为AI领域的三大顶级会议，特别聚焦于表示学习与深度学习的理论、算法和应用研究。

🎯 活动预告：「ICLR 2026 美团搜推团队专场论文分享会」将于 3 月 26 日（周四）线上直播，我们邀请了 6 篇论文的作者，分享相关知识点和技术思考，详情请见文末（报名请点击这里）。

4 月 9 日，美团技术团队还有一场 ICLR 2026 的分享，敬请关注~

#

团队介绍

美团业务研发平台/搜推 ASX （Agentic System X）团队聚焦构建大模型为基础的 Agent 技术体系，在大模型后训练、Agentic 强化学习以及多模态理解等核心前沿方向持续深耕，已在 ICLR、NeurIPS、CVPR、AAAI 等 AI 领域的国际顶会发表数十篇高质量研究成果。

招聘岗位（社招）

一起看看该团队被 ICLR 2026 接收的论文吧~

01

ResT: Reshaping Token-Level Policy Gradients for Tool-Use Large Language Models

ResT：针对工具调用模型优化的 Token 级策略梯度方法

论文类型：Poster

论文下载：PDF

论文简介：以实际AI搜索业务模型训练中遇到的问题为启发，提出多轮拆分的工具调用过程监督训练策略，并通过引入字符级别的Critic监督信号，以修正原始GRPO算法平均化优势值。首先建立了工具调用任务中策略熵与训练稳定性之间的理论关联，揭示出结构化、低熵的token是影响工具调用模型奖励的关键因素。

基于此，本论文提出面向工具调用任务的重塑Token级别的策略梯度优化算法(Reshaped Token-level policy gradients，ResT）。ResT通过信息熵感知的Token级别的重加权控制策略梯度过程，在训练过程中逐步提升推理部分输出的权重占比。这种熵感知机制能够让LLM在RL训练中实现从结构正确性到语义推理的平稳过渡，并增强多轮工具调用任务的收敛稳定性。

在BFCL V3和API-Bank等公开Benchmark上的测试表明，ResT相比于当前基线方法取得了最优性能，较现有基线方法最高提升8.76%。基于Qwen3-4B基座训练的模型用ResT方法进行微调后，相比GPT-4o闭源思考类工具调用模型，在单轮任务中超越4.11%，在多轮任务中高出1.50%。目前，本文所提出的训练方法也成功应用到了小团算法自训练模型的迭代中，并在离线、在线的评测中拿到了实际收益。

SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

SRFT：单阶段监督强化LLM微调

论文类型：Poster

论文下载：PDF

论文简介：本文聚焦于推理类大语言模型后训练中“监督微调（SFT）与强化学习（RL）如何更优结合”的关键问题。论文从熵与分布变化角度系统分析发现：SFT会对策略分布产生“粗粒度、全局性”的概率重塑，而RL更像“细粒度、选择性”的局部修正；同时，训练熵可作为衡量两者协同与模型可塑性的有效指示器。

基于该洞察，论文提出单阶段方法SRFT（Supervised Reinforcement Fine-Tuning），在同一训练过程中同时利用高质量示范数据与自探索rollout：对示范样本同时施加SFT与离策略RL目标，并用重要性采样缓解行为策略不匹配；对自探索样本将正负奖励项拆解，并对正样本引入基于熵的自适应权重以避免过早熵塌缩、保持探索。

实验基于Qwen2.5-Math-7B，在AIME24、AMC、MATH500、Minerva、Olympiad等五个数学推理基准上取得约59.1平均分，较强基线提升显著，并在ARC-C、GPQA-D、MMLU-Pro等OOD测试上进一步验证了泛化优势，表明熵感知的单阶段SFT+RL融合能更高效稳定地提升推理能力。

ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model

ViPER：驱动视觉语言模型实现自主感知进化

论文类型：Poster

论文下载：PDF

论文简介：我们提出了一种新颖的双阶段任务，将视觉感知学习构建为从粗到精的渐进过程。基于这一任务框架，我们开发了ViPER框架，通过自我批判与自我预测实现迭代演进。

通过将图像级与实例级重建与双阶段强化学习策略协同整合，ViPER构建了一个闭环训练范式，使内部合成的数据直接驱动感知能力的提升。应用于QwenVL系列模型后，ViPER产生了Qwen-Viper系列模型。该模型在涵盖多种任务的七项综合基准测试中平均提升1.7%，在细粒度感知任务上最高提升达6.0%。Qwen-Viper在不同视觉语言场景中持续展现卓越性能，同时保持泛化能力。除了实现感知能力的自我进化，ViPER为生成与理解之间的互促关系提供了具体实证，这为开发更自主、更强大的视觉语言模型实现了重要突破。

SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training

基于SAE可解释特征的大语言模型后训练迁移能力预测

论文类型：Poster

论文下载：PDF

论文简介：近年来，预训练大语言模型在多种任务上取得了显著的成功。除了自监督预训练的关键作用外，其在下游任务中的有效性还高度依赖于后续的后训练过程。在后训练阶段，模型会根据特定任务的数据和目标进行训练。然而，这一过程不可避免地会导致模型偏移，进而影响其在不同领域的性能。

针对这种偏移在不同下游领域如何互相影响，目前仍然缺乏深入的理解。为揭示这一黑箱过程，我们提出了基于稀疏自编码器（Sparse Autoencoders, SAEs）的迁移能力评分（SAE-basedTransferability Score, STS），从而实现对后训练迁移性的预测。以监督微调为例，STS能够识别SAE表示中的偏移维度，并计算其与下游领域的相关性，从而在微调前实现对迁移能力的可靠估计。

通过对多个模型和领域的大量实验，STS在预测监督微调的迁移能力方面表现出高度准确性，其与实际性能变化的皮尔逊相关系数超过0.75。此外，我们还尝试将STS扩展到强化学习后训练中。总的来说，我们认为STS作为一个可解释工具，可以为大型语言模型的后续训练策略提供明确的指导。

MAD-Logic: Multi-Agent Debate Enhances Symbolic Translation and Reasoning

MAD-Logic: 基于多智能体论辩的大模型符号翻译与逻辑推理能力提升

论文类型：Poster

论文下载：PDF

论文简介：LLM 在处理复杂逻辑推理问题时往往表现不佳。现有的提升方法可简要归纳为两类：(1) 将自然语言问题翻译为符号语言表示，进而通过调用符号求解器进行推理；(2) 利用LLM基于提示工程或微调在自然语言下直接进行推理。此前的方法主要集中于基于上述途径之一，并使用单一智能体来执行逻辑问答任务。然而，我们指出这两种方法都存在不可忽视的局限性。

例如，基于符号语言的方法极容易受到翻译错误的影响，导致求解器调用失败；而基于自然语言的方法则极依赖大模型自身的性能，且易产生幻觉等问题。基于对符号语言与自然语言推理之间、以及不同符号语言表示之间互补性的认识，我们针对复杂逻辑推理问题，提出了一种稀疏高效的多智能体辩论（Multi-agent Debate）方法，旨在融合各种方法的优势，主要体现在两个方面：（1）翻译阶段：多个智能体将自然语言翻译成多种不同的符号语言，并通过辩论修正翻译结果。（2）推理阶段：基于符号语言和自然语言进行推理的多个智能体进行多轮辩论和自我修正，将多智能体趋同的答案作为最终输出。

此外，针对多智能体辩论效率低下的问题，我们引入了自适应稀疏通信机制，根据智能体的置信度和信息增益剪枝掉不必要的信息交互。在多个合成与真实基准上的广泛实验表明，我们的方法在控制计算成本的同时，大幅提升了大模型的逻辑问答性能。

LogiConBench: Benchmarking Logical Consistencies of LLMs

LogiConBench: 关于大模型逻辑推理一致性的评测基准构建

论文类型：Poster

论文下载：PDF

论文简介：逻辑一致性（Logical consistency）要求对于不同问题，大语言模型（LLMs）的回答之间互不矛盾，符合逻辑推理规则。逻辑一致性是实现可靠逻辑推理的基础，当前的 LLMs 即便在简单的自然语言推断任务中也往往难以维持这种一致性。然而，现有评测LLM逻辑一致性的基准缺乏可扩展性、多样性且挑战性不足，甚至最先进的模型在这些基准上的准确率已超过 95%。

为弥补这一缺陷，我们构建了评测LLMs逻辑一致性的评测基准LogiConBench ，该基准首次具备以下特性：(1) 提出并定义了评测逻辑一致性的不同任务与指标，（2）能够生成基于无限的逻辑推理有效式的样本，并提供具有显式推理路径的可控深度图；(3) 对最先进的 LLMs 依然极具挑战性，准确率低于50%。具体而言，LogiConBench 自动生成逻辑关系图，其中节点表示命题符号，边表示推理关系。基于这些逻辑图，该基准采样命题列表，提取推理路径，确定所有符合一致性的标签列表，并将其转换为多样化的自然语言样本。

本文发布的LogiConBench是包含 28 万个样本的语料库，但事实上该样本生成框架具备扩展性，可生成无限量的数据。为了增强评估的显著性，我们在三个不同难度的任务上对 14 个前沿 LLMs 进行了评估，结果发现其中的枚举任务依然极具挑战性，其最高准确率仅为 34%。我们的代码和数据已开源。

活动预告

识别图上二维码或点击这里报名

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：美团技术团队《报名｜ICLR 2026 美团论文精选及分享会（上）——搜推 ASX 专场》