2026-03-29 23:54:45 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文档介绍了美团ICLR2026论文分享会下半场的五篇精选论文。AMemGym解决长程对话评测偏差，PosterCraft实现高质量海报生成，VitaBench构建真实场景智能体评测基准，ReMemR1优化长文本推理，MoE研究揭示关键超级专家。内容聚焦大模型记忆、评测与生成前沿方向，揭示模型短板并提出创新方案，具高学术价值。 综合评分： 70 文章分类： AI安全,软文广告

cover_image

报名｜ICLR 2026 美团学术论文精选及分享会（下）

美团技术团队

2026年3月26日 19:59 北京

点亮👆“☆”星标，不错过推送内容~

ICLR（International Conference on Learning Representations）是机器学习和人工智能领域最具影响力的年度学术会议之一，与 NeurIPS、ICML 并列为AI领域的三大顶级会议，特别聚焦于表示学习与深度学习的理论、算法和应用研究。

🎯 活动预告：我们刚刚直播了 ICLR 2026 论文分享会 ASX 专场的6篇论文解读，论文下载地址、直播沉淀的PPT和视频见下方。

4 月 9 日（周四）下午，我们将继续分享 ICLR 5篇论文（Main Conference）相关知识点和技术思考，报名请点击这里，文末还有详细信息。

上期论文下载：ICLR 2026 美团论文精选及分享会（上）——搜推 ASX 专场

上期直播沉淀：美团技术沙龙论文分享会：ICLR 2026 美团搜推 ASX 专场

01

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations

AMemGym: 长程对话中的交互式记忆评测

论文类型：ICLR Main Conference

论文下载：PDF

论文简介：记忆是Agent实现泛化与适应动态环境的基础，也是通往AGI最具潜力的路径之一。然而，记忆的优化与评测均面临长程依赖建模的挑战：长程依赖数据的长尾稀缺性导致优化与评测的高成本。传统记忆评测方法为节约成本通常复用静态长文本问答（Long-context QA）数据，考察Agent对固定外部长输入的理解能力。这种评测方式偏离了真实多轮交互中记忆的动态特性，我们称之为离策略评测（off-policy evaluation）。在多轮长对话场景中，同策略评测（on-policy evaluation）则需要额外建模记忆读写对Agent输出、外部输入以及下一轮记忆读写的循环递归影响，对应更高的评测复杂度与成本。AMemGym通过结合用户模拟器与关联结构化数据，保证可靠性的同时有效控制了评测成本。

我们的对比研究表明，基于静态数据的离策略评测结果难以提供真实有效的对比与优化信号，尤其在复杂Agent系统中，存在显著的重用偏差（reuse bias）。此外，AMemGym 通过对记忆生命周期进行分解，提供了更细粒度的诊断与归因信号。同时，它可作为针对记忆机制的持续学习模拟环境，为验证长对话场景下的个性化能力自提升（self-improvement）算法提供了可靠的测试平台。

PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

PosterCraft：统一框架下高质量美感海报生成的重构与探索

论文类型：ICLR Main Conference

论文下载：PDF

论文简介：PosterCraft聚焦“高审美海报生成”这一更具挑战的设计任务：不仅需要高精度文字渲染，还要在抽象背景、版式布局与整体风格一致性之间实现统一。

为摆脱以往依赖模块化管线与固定版式规划的上限，作者提出统一生成框架，通过级联训练流程逐步释放基础模型能力：先用大规模Text-Render-2M进行文本渲染优化，再在HQ-Poster-100K上进行区域感知的高质量海报微调以平衡文本/非文本区域风格，随后基于偏好数据Poster-Preference-100K进行审美-文本强化学习，最后引入Poster-Reflect-120K与联合视觉-语言反馈实现迭代精修与更强一致性。

实验表明，该方法在文字准确性、布局连贯性与整体视觉吸引力上显著优于开源基线，并接近主流闭源系统的质量水平。该项目也开源至MeiGen-AI仓库：PosterCraft。

VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications

VitaBench：基于真实生活场景的交互式大模型智能体评测基准

论文类型：ICLR Main Conference

论文下载：PDF

论文简介：现有智能体评测基准与真实生活场景之间存在显著鸿沟：工具生态过于简单、信息密度不足、交互动态性缺失。我们提出 VitaBench，以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体，首次将智能体任务复杂度系统拆解为推理、工具、交互三大维度进行量化建模。

VitaBench 构建了包含 66 个真实工具的交互式评测环境与有向依赖图，避免了传统基准依赖冗长 Policy 文档的局限，让模型通过工具描述自主推理领域逻辑。基准共包含 400 项任务（300 项单场景 + 100 项跨场景），每个任务配备差异化用户画像与行为属性，并通过基于 LLM 的用户模拟器动态驱动交互。针对长轨迹评估，我们提出基于 Rubric 的滑动窗口评估器，将任务目标拆解为原子化评估准则，实现细粒度的行为覆盖与可解释评估。

对 20 余款主流模型的评测结果显示：即便是最强的 o3（high）模型，跨场景任务成功率也仅为 30%。错误分析表明，推理错误占主导，揭示了当前智能体在多维信息整合、策略调度与自我反思方面的根本性短板。

Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents

面向长上下文大模型智能体的可回访记忆

论文类型：ICLR Main Conference

论文下载：PDF

论文简介：在长文本问答任务中，查询的关键证据往往散落于百万级的 Token 之中，这给大语言模型带来了严峻的挑战。现有研究通常为大语言模型引入记忆缓存机制，通过线性扫描文档来动态更新记忆，这类方法亦被称为“边读边记”（memorize while reading）法。尽管该方法具有出色的扩展效率，却面临着潜在证据被过早剔除、记忆覆盖导致信息丢失，以及强化学习信号稀疏等诸多弊端。

为攻克上述难题，我们提出了 ReMemR1 方法。该模型将记忆检索机制巧妙融入记忆更新过程，赋予智能体选择性调取历史记忆的能力，从而实现非线性推理。为进一步提升训练效果，我们设计了一种多层级奖励机制，将最终答案奖励与密集的步骤级信号相结合，以此引导模型对记忆的有效利用。上述创新齐头并进，有效缓解了信息衰减问题，提升了监督效能，并为复杂的多跳推理提供了有力支持。

大量实验表明，ReMemR1 在长文本问答任务上显著优于现有最佳（SOTA）基线模型，且带来的额外计算开销微乎其微，充分证实了其能够以极小的边际成本换取稳健的长文本推理能力。我们的代码已开源至GitHub：ReMemR1。

Unveiling Super Experts in Mixture-of-Experts Large Language Models

揭示混合专家大语言模型中的超级专家

论文类型：ICLR Main Conference

论文下载：PDF

论文简介：本研究首次发现并系统地研究了在混合专家大语言模型前向推理中发挥关键作用的一类特殊专家。这类专家在开源混合专家大语言模型中普遍存在，尽管其数量极其有限，但对其进行剪枝会导致模型性能显著下降（例如，在 6,144 个专家中仅剪掉 3 个，就会导致 Qwen3-30B-A3B 生成重复且无信息量的输出）。我们将这些专家称为“超级专家”（Super Experts，SE）。我们的全面分析对 SE 提供了逐步深入的理解：

SE的特征是在 down_proj 输出中出现罕见但极端的激活异常，这会在解码器层之间的隐藏状态中引发大规模激活。此外，SE 的分布具有模型特异性，与数据无关，并且不受训练后处理过程的影响。
通过对 SE 进行剪枝，我们评估了其在多种任务中的重要性，揭示了其对模型整体性能的显著影响，尤其是在数学推理任务中。
我们进一步研究了为何压缩 SE会产生如此显著的影响。结果表明，在混合专家大语言模型中，SE 是 Transformer 中系统性异常机制的主要来源，而对其进行压缩会深刻扰乱该机制，最终导致注意力汇（Attention Sinks）的崩溃。

活动预告

识别图上二维码或点击这里报名

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：美团技术团队《报名｜ICLR 2026 美团学术论文精选及分享会（下）》