2026-06-19 05:41:51 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 美团技术团队ASX团队将举办搜索推荐ASX专场活动，分享ACL’26等顶会收录的32篇论文中的6篇研究成果。重点介绍强化学习、奖励建模、智能体搜索和评测基准等前沿技术，包括CBS算法提升RL训练效率、ResRL优化LLM推理、CDRRM改进奖励建模可解释性、LocalSearchBench构建本地生活服务搜索基准、DiningBench饮食领域VLM评测以及Mem²Evolve自进化智能体框架。活动于6月25日举行，提供论文下载和互动交流机会。 综合评分： 86 文章分类： AI安全,威胁情报,解决方案,安全培训,漏洞预警

cover_image

报名｜美团&顶会论文分享：搜索推荐ASX专场

美团技术团队

2026年6月18日 10:24 北京

在小说阅读器读本章

去阅读

点亮👆“☆”星标，不错过推送内容~

🎯 活动预告：

6 月 25 日（周四）下午，我们将进行搜索推荐ASX专场的分享——ACL’26 会议论文以及前沿技术实践，技术方向覆盖强化学习、奖励建模框架、智能体搜索、评测基准、自进化框架等领域，欢迎一起交流学习，文末附议程。

2026年，美团技术团队数十篇论文被 ACL、SIGIR、ICML、KDD 等顶会收录，我们近期将精选 32 篇文章，分成 5 大专场进行解读。

ACL’26 两期专场已结束，视频沉淀见这里，还有 3 场等你参与👇🏻

报名请点击这里 <<

—— 报名 1 次即可听 5 场前沿分享 ——

#

团队介绍

美团业务研发平台/搜推 ASX （Agentic System X）团队聚焦构建大模型为基础的 Agent 技术体系，在大模型后训练、Agentic 强化学习以及多模态理解等核心前沿方向持续深耕，已在 ICLR、NeurIPS、CVPR、AAAI 等 AI 领域的国际顶会发表数十篇高质量研究成果。

一起看看该团队近期被 ACL/ICML/KDD 2026 接收的论文吧~

01

Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards

上下文轨迹老虎机：面向可验证奖励的强化学习

论文下载：PDF

论文简介：现有基于规则奖励的强化学习后训练通常直接使用最近一轮 rollout 进行策略优化，其中，低质量样本会引入噪声，高质量样本又常在单次使用后被丢弃，导致训练不稳定、样本利用不足。本文提出在线样本调度算法 CBS，将样本选择建模为上下文多臂老虎机问题，把每个候选样本视为 arm，并以训练后带来的性能增益作为奖励；通过轻量神经网络预测样本价值，并结合在线反馈动态调度。实验表明，CBS 可与多种策略优化方法结合，在 6 个数学推理数据集上稳定提升性能和训练效率。

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

ResRL：通过负样本投影残差强化学习提升大语言模型推理能力

论文下载：PDF

论文简介：本文提出ResRL，一个负样本强化学习的新算法，旨在解决RLVR 提升LLM推理能力却损伤了输出多样性的问题。我们发现根因是惩罚负样本时误伤了正负样本共享的有效语义。ResRL 用 SVD 正确子空间 +投影残差,让惩罚只打在”真正的错误方向”上——数学超 NSR 9.4%、代码刷新 CodeForces SOTA、ALFWorld 超 PPO 7.8%，且 Pass@1 与 Pass@k 兼得。

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

CDRRM：对比驱动的评分准则生成以实现可靠且可解释的奖励建模

论文下载：PDF

论文简介：本文提出CDRRM，一个对比驱动的评分准则生成与奖励建模框架，旨在提升LLM对齐中奖励模型的可靠性、可解释性与数据效率。传统奖励模型是“黑箱”且依赖昂贵标注；现有准则方法存在冗余与偏见。CDRRM采用“对比-聚合”流程：先对比好/差回答定位关键差异，再聚合为简洁的任务相关准则，指导评判模型。实验表明，CDRRM在三个基准上达最先进水平，缓解话痨、位置等偏见，且仅用3千样本让未微调模型超越全量微调基线，兼具高效与可解释性。

LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services

LocalSearchBench：真实本地生活服务中的智能体搜索基准评测

论文下载：PDF

论文简介：本文针对本地生活服务领域智能体搜索的研究空白，构建LocalSearchBench评测基准。该基准涵盖国内 9 座城市、6 大服务品类，包含超 134 万商户数据与 900 道用户多跳问答任务，同时配套交互环境 LocalPlayground 与商户检索工具 LocalRAG。实验测评 16 款主流大语言推理模型后发现，当前模型在此类任务表现不佳，最优模型 DeepSeek-V3.2 答题正确率仅 35.60%，普遍存在信息完整性、可信度不足等问题。研究还剖析了模型工具调用、多跳推理等典型缺陷，为本地生活服务场景下智能体搜索的模型训练和基准测试提供了重要支撑。

DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

DiningBench：饮食领域感知与推理的层次化多视角基准

论文下载：PDF

论文简介：本论文提出 DiningBench，一个面向饮食领域的层次化多视角 VLM 评测基准，旨在弥补现有数据集任务单一、视角有限和营养标注不足的问题。该基准包含细粒度分类、营养估计和视觉问答三类任务，覆盖 3,021 道菜品和多视角图像。通过评测 29 个主流VLM模型，揭示现有模型在细粒度识别、营养推理和多视角融合上的不足。

Mem²Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation

Mem²Evolve: 通过协同进化能力扩展与经验蒸馏实现自进化智能体

论文下载：PDF

论文简介：本文提出 Mem²Evolve，一个面向大语言模型智能体的自进化框架，通过 Asset Memory 与 Experience Memory 双记忆机制，协同实现能力扩展与经验积累。该框架可在任务执行中动态复用或创建工具与专家智能体，并从成功和失败轨迹中蒸馏可迁移经验。实验覆盖 6 类任务、8 个基准，结果表明 Mem²Evolve 显著优于普通 LLM 及单一进化策略，展现出更强的持续学习与任务泛化能力。

活动预告

识别图上二维码或点击这里报名

❤️❤️❤️ 如果这篇文章对你有帮助，欢迎大家帮忙点赞、评论，分享给更多的小伙伴。⬇️

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：美团技术团队《报名｜美团&顶会论文分享：搜索推荐ASX专场》