7大顶会、150篇论文,2025Agent安全领域最全调研

admin 2026-04-28 06:33:29 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文系统梳理2025年七大顶会150余篇Agent安全领域论文,涵盖越狱防御、红队测试、多Agent博弈等关键方向。核心发现包括:双Agent迭代可提升越狱效率,沙盒接口限制能有效约束Agent行为,过程奖励模型优化Web自动化训练。可操作建议涉及将AgentFuzz集成至CI/CD流程、多Agent互审机制用于内容审核、RAG技术增强应用可靠性。 综合评分: 85 文章分类: AI安全,红队,安全工具,漏洞分析,安全运营


cover_image

7大顶会、150篇论文,2025 Agent 安全领域最全调研

原创

i3eg1nner&林00 i3eg1nner&林00

SecureNexusLab

2026年4月18日 10:06 北京

在小说阅读器读本章

去阅读

「整理:丸一口 | 2026.04」

一开始整理这个材料的时候,只想着小范围传播,所以会有一些“锐评”和“idea废案”。没想到被SecureNexusLab的小伙伴邀请做广泛开源,内容比较多,没精力对这些碎碎念做删减了,希望不会影响到大家的阅读。


📌

本文覆盖2025年 「S&P / USENIX / CCS / NDSS / ICLR / NeurIPS / ACL」 七大顶会,「150+篇」Agent安全相关论文,每篇带「思路总结」

🔗

  • 「GitHub」: 👉 https://github.com/Van-Echo/OpenWanYikou/tree/main/06-Survey
  • 「原博主B站主页」: 👉 https://space.bilibili.com/3461572290677609
  • 「评论/获取PDF」:关注公众号后台发送“智能体安全”,获取完整版(含完整PDF及所有论文)

一、S&P 2025

| 论文关键词 | 一句话锐评 | 可用思路 | | — | — | — | | 开源|文生图越狱|双Agent迭代种子池 | 两个Agent互相喂种子,越狱效率翻倍 | 红队测试可借鉴这种“左右互搏”思路 |

二、USENIX 2025

| 论文关键词 | 一句话锐评 | 可用思路 | | — | — | — | | 视觉验证码|将视觉任务转化为搜索优化问题 | 把验证码当搜索题做,绕过率惊人 | 验证码厂商该升级了 | | AgentFuzz|用Agent迭代种子来找后门漏洞 | Agent自己学挖洞,Fuzzing进入next level | 可集成到CI/CD流程 | | 修代码bug的Agent框架|无训练|规范化中间件 | 不训练就能用,中间件做规范化,很务实 | 生产环境可快速接入 | | 主动防御|无训练|隐身诱饵陷阱 | 放诱饵让Agent踩,踩到就暴露 | 内部威胁检测的好思路 |

三、CCS 2025

| 论文关键词 | 一句话锐评 | 可用思路 | | — | — | — | | 传感器(车联网)|防御|动态信任值 | 车联网传感器动态调信任分,防伪造 | 可推广到IoT场景 | | 系统层面布置探针|端到端防御 | 从输入到输出全链路防护,理想但重 | 适合高安全等级场景 |

四、NDSS 2025

| 论文关键词 | 一句话锐评 | 可用思路 | | — | — | — | | 离线强化学习|unlearning|通过对要遗忘的数据进行微调实现等效unlearning | 不想让Agent记住的数据,微调掉就行 | 合规场景(如GDPR被遗忘权)刚需 | | 沙盒防御|规定接口限制沙盒内的权限 | 沙盒里把接口卡死,Agent再强也出不去 | 多租户场景必看 |

五、ICLR 2025(含Poster)

| 论文关键词 | 一句话锐评 | 可用思路 | | — | — | — | | 强化学习|通用物理控制Agent|物理世界 | 让Agent在物理世界干活,RL玩家狂喜 | 机器人控制方向可追 | | 图形用户界面Agent|构造数据集|训练模型 | GUI自动化新基线 | RPA场景直接对标 | | 构造医学数据集 | 医学Agent的基建工作 | 医疗AI赛道必备 | | 评估Agent端到端机器学习工程能力的BenchMark | 测Agent会不会写ML代码,很刚需 | MLE面试新题库(笑) | | (批改)多Agent|纳什均衡|强化学习 | 多Agent博弈,最后到纳什均衡 | 多智能体对抗场景 | | 自动化生成工作流|蒙特卡洛树搜索 | MCTS帮你自动编排Agent工作流 | AutoGPT类项目可借鉴 | | RAG|通用Agent | RAG套壳?但做得扎实也能发 | 所有RAG应用都该看一眼 | | 教师模型|偏好对齐|运动 | 让Agent学会“像人一样动” | 人机交互方向 | | Agent组网|协议|有意思 | Agent之间怎么通信?这篇很有意思 | 多Agent系统的底层基建 | | 多智能体集思广益 | 多个Agent一起brainstorm | 创意生成类任务可用 | | 红队测试|防越狱|Agent角色扮演左脚踩右脚 | 让Agent扮演红队互相攻防,自我进化 | 红队自动化最优雅的方案之一 |

六、NeurIPS 2025

| 论文关键词 | 一句话锐评 | 可用思路 | | — | — | — | | 推理阶段多次推理取最优 | 不训练,只靠多次采样+投票 | 成本不高,效果不错,直接能用 | | 对闭源的蒸馏|数据集构建|计算机使用 | 把闭源Agent(如Claude Computer Use)的行为蒸馏出来 | 平替闭源Agent的核心技术 | | Web Agent|按步骤给奖励|过程奖励模型PRM | 不只看结果,每一步都给奖励 | Web自动化训练新范式 | | 大世界|强化学习&持续学习|马尔科夫链 | 大世界环境下的Agent持续学习 | 开放世界游戏Agent必读 |

七、ACL 2025(精选)

| 论文关键词 | 一句话锐评 | 可用思路 | | — | — | — | | 事实核查|多Agent左脚踩右脚 | 多Agent互相纠错,事实核查新范式 | 内容审核场景可借鉴 | | 创造性智能|用Agent玩密室逃脱 | 测Agent的创造性,密室逃脱是绝佳场景 | 游戏AI + 创造力评估 | | 监测有害Meme梗图|多Agent左脚踩右脚 | 让Agent自己识别有害梗图 | 内容安全审核 | | 编译|让Agent模仿人类面对github项目时的工作流 | Agent学会看文档、装依赖、编译 | 自动化DevOps | | 安卓BenchMark|数据集 | 移动端Agent的标准化测试 | 手机自动化方向必看 | | 金融决策BenchMark|分层记忆 | 让Agent学会炒股,分层记忆是关键 | 量化交易Agent | | BookWorld|把世界观提取出来|有意思 | 从小说提取世界观,Agent在里面演化 | 游戏NPC + 自动化故事生成 |

💡 几个“废案”想法(可能对你有启发)

  1. 「Agent越狱的“疫苗”思路」:能不能让Agent提前见过所有越狱模板,就像打疫苗一样?—— 成本太高,放弃了
  2. 「用验证码反制Agent」:既然Agent能过验证码,那能不能动态生成Agent过不了的验证码?—— 猫鼠游戏,没想清楚边界
  3. 「多Agent“相互水论文”」:让多个Agent互相review + 改稿,自动产出文献综述 —— 试过,质量太差,但未来可期

如果对你有帮助,欢迎「转发、在看、分享」给更多朋友。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:SecureNexusLab i3eg1nner&林00 i3eg1nner&林00《7大顶会、150篇论文,2025 Agent 安全领域最全调研》

评论:0   参与:  0