文章总结: 北京邮电大学VCIS实验室两篇论文被KBS和AAMAS录用。论文一提出RainbowArena工具包,支持桌游环境下的强化学习与大模型多智能体对抗训练与评估。论文二揭示了LLM浏览代理过度依赖网络工具的三种故障模式,并提出DPO、AR及HQD三种缓解策略,有效提升了工具使用效率。 综合评分: 85 文章分类: AI安全
北京邮电大学 | VCIS实验室两篇论文被KBS和AAMAS录用
信息网络安全杂志
2026年1月26日 17:26 上海
近日,VCIS实验室共两篇论文被高水平期刊和会议录用。
期刊、会议介绍
知识库系统(Knowledge-Based Systems,简称KBS)是爱思唯尔(Elsevier)出版的国际性学术期刊。作为人工智能与知识工程领域享有盛誉的权威期刊之一,该期刊专注于基于知识和基于其他人工智能技术的研究,发表该领域的原创、创新和创造性成果。KBS属于中科院SCI期刊分区计算机科学类一区TOP期刊,最新影响因子已达7.6。
国际智能体和多智能体系统会议(International Conference on Autonomous Agents and Multi-agent Systems,简称AAMAS),是由非营利组织国际智能体与多智能体系统基金会(International Foundation for Autonomous Agents and Multiagent Systems,简称IFAAMAS)主办的年度国际学术会议。其是中国计算机学会(CCF)推荐的B类国际学术会议,也被认为是人工智能领域中研究智能体和多智能体系统最大和最有影响力的国际学术会议之一。第25届AAMAS于5月25日至29日在塞浦路斯帕福斯召开。
论文一
“RainbowArena: A multi-agent toolkit for reinforcement learning and large language models in tabletop games” (RainbowArena:面向桌游的强化学习与大模型多智能体toolkit),VCIS实验室三年级博士研究生刘英卓为论文一作。
作者:刘英卓、刘硕迪、唐洪松、马玉冰、李紫康、张俊格、项刘宇、何召锋*
论文介绍
本文提出了面向桌游的强化学习与大模型多智能体toolkit,并从三个角度阐述了研究动机:
(1)与传统的牌类或棋类游戏相比,桌游支持更加灵活的玩家人数,拥有更复杂的观测空间与动作空间,更贴近真实多智能体环境。但目前,桌游在人工智能领域仍鲜有系统性的研究。(2)现有的多智能体博弈对抗平台很少能够同时支持强化学习和大模型两类智能体。(3)现有的多智能体博弈对抗平台大多只关注了两个智能体之间的对抗,而不是对于多个智能体的评估和排名。本文提出了面向桌游的强化学习与大模型多智能体toolkit。
图1与现有Toolkit的对比
在RainbowArena中,本文实现了一个包含各种桌游的游戏环境以增加研究者们对于该类游戏的关注,同时也为多人博弈提供了一个良好的测试平台。其次,RainbowArena实现了对强化学习和大模型两类智能体的支持,为强化学习智能体设计了一个通用且高效的自博弈训练框架,为大模型智能体设计了统一prompt框架。另外,RainbowArena实现了Elo,TrueSkill,Nash Clustering三种智能体能力评估方法以在不同角度评估各智能体的表现。
图2 RainbowArena整体框架图
基于RainbowArena,本文对各种典型的强化学习算法,自博弈训练方法以及大语言模型进行了对比,并进一步研究在桌游这类复杂博弈对抗问题中,大模型智能体与强化学习智能体之间的能力差距。
图3 强化学习方法对比****
图4LLM对比
图5自博弈方法对比
图6强化学习和LLM对比****
论文二
“The Web Tool Trap: Understanding and Mitigating Over-Reliance in LLM Browsing Agents”(网络工具陷阱:理解和缓解LLM浏览代理中的过度依赖),VCIS实验室三年级硕士研究生郭嘉伟为论文一作。
作者:郭嘉伟、聂宏杰、臧乾博、杨澍、刘硕迪、茹一伟、项刘宇、王帝、何召锋*
论文介绍
能够通过浏览互联网收集知识的大语言模型(LLM)智能体正变得越来越有用和重要。然而,这些代理如何有效地利用网络工具?当它们过度依赖外部搜索功能时会发生什么?本文引入了 BrowseBench,并首次系统地研究了浏览智能体对网络工具的过度依赖模式。通过对10个代表性的LLM进行跨多个领域和查询类型的受控实验,本文确定了表征这种依赖性的三种关键故障模式。
本文的研究揭示了浏览智能体行为中的故障模式:首先,代理对其训练知识表现出过度保守的态度,不必要地搜索它们已经拥有的完善信息,而不是依赖其内部知识。其次,代理采用不一致的信息标准,质疑它们自身可靠的训练数据,同时不加批判地接受从网络检索的内容,只要它看起来内部连贯,而不顾及潜在的不一致或偏见。第三,代理对网络工具的功能表现出过度自信,试图将复杂的多步骤查询压缩成单一的搜索操作,但这些操作最终会系统性地失败,这表明缺乏合理的搜索规划和分解策略。这些矛盾导致信息处理效率低下,浪费资源,同时可能得出错误的结论。
为了应对这些挑战,我们提出了三种缓解策略:直接偏好优化(DPO),使模型能够学习细致入微的搜索决策边界;注意力细化(AR),帮助代理专注于检索内容中的相关信息;以及分层查询分解(HQD),以改进多轮工具协调和查询分解。我们的实验表明,这些干预措施显著减少了过度依赖行为。这些结果表明,虽然当前浏览代理对网络工具的过度依赖可能会放大错误,但精心设计的训练策略可以显著改善其工具使用模式,这对于在实际应用中部署工具增强型 LLM 具有重要意义。
图7 浏览代理行为概述:正常工具使用与三种过度依赖故障模式
往期精彩回顾
从竞赛“练兵场”到人才“孵化器”: 湖南大学、复旦大学、四川大学、西安邮电大学引领塑造网络安全新生力 “五色石”计划下,东南大学网络安全人才培养模式创新“密码”揭秘
“网安+法学”双学位 | 看南开大学、东南大学、重庆邮电大学在新赛道上加速跑
“实战派”网安人才培养新范式,看上海交大、暨南大学、湖南大学如何转变模式锻造网安实战人才
守护语音安全: 华中科技大学CPSS团队如何打造Anti-Deepfake系统斩获创意作品赛冠军?
信息网络安全
《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 《北京邮电大学 | VCIS实验室两篇论文被KBS和AAMAS录用》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论