2026-07-03 06:16:27 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 复旦团队提出WebTrapPark平台，指出WebAgent安全评估需从文本合规转向实际操作行为。平台将风险分为恶意提示、注入攻击与欺骗设计三类，通过记录点击与输入进行行为级检验，以容器化实现架构无关比较。但核心数据被付费墙隐藏属软文推广，建议仅借鉴其聚焦可观察动作的评估思路。 综合评分： 40 文章分类： AI安全,软文广告,WEB安全,安全工具

cover_image

【AI安全】WebTrap Park出手！Agent风险现形

原创

Oxo Security Oxo Security

Oxo Security

2026年7月1日 21:05 越南

在小说阅读器读本章

去阅读

一、Web Agent 为什么需要新的安全体检？🧪

AI 时代！人人都在深耕 AI 安全，你缺的就是这关键一步！

AI 正重塑安全边界，与其在门外徘徊，不如直接掌握主动权！

免费课程持续更新

https://space.bilibili.com/452583051/lists/7870008?type=season

过去一年，Web Agent 的叙事非常诱人：让模型打开浏览器、点击网页、填写表单、完成订票、采购、预约和后台操作。它不只是“会聊天”的大模型，而是一个能在真实网站里执行动作的自动化执行者。🚀

问题也恰恰出在这里。

聊天机器人说错一句话，通常还是文本风险；Web Agent 点错一个按钮，可能就是真实交易、真实下载、真实泄露、真实授权。当 AI 从“回答问题”变成“替人操作网页”，安全评估就不能停留在模型回答是否合规，而要看它到底做了什么。

复旦大学团队提出的 WebTrap Park，针对的正是这个断层。论文把当下 Web Agent 面临的安全风险拆成三大来源，并做成 1226 个可执行评测任务：

这三类风险覆盖了 Web Agent 的关键现实处境：攻击者不一定在模型对话框里，也可能藏在网页、按钮、提示语、ARIA 文本和页面视觉设计里。 🕳️

传统评测常见做法是看日志、看推理链、看 Agent 自己“说它做了什么”。但 WebTrap Park 指出，这种方式有三层问题：

🧾 日志不等于行为：Agent 的内部推理和网页上的实际点击、输入可能不一致。
🧩 框架差异被忽略：同一个模型接入不同 Agent 框架，交互逻辑、安全策略、页面解析方式完全不同。
🔧 接入成本太高：如果每个基准都要求改日志格式、改 Agent 代码，评测很难规模化。

所以，这篇论文真正重要的地方，不只是又做了一个 benchmark，而是把问题从“模型有没有安全意识”推进到“Agent 作为一个会操作网页的系统，能不能在真实交互里守住边界”。

这对企业尤其关键。因为未来接入业务系统的不是一个裸模型，而是一整套 Agent：浏览器控制器、视觉识别、DOM 解析、任务规划、记忆、权限、插件和后端工作流。只测底座模型，等于只给发动机做体检，却不检查刹车、方向盘和路况感知。 🚦

二、WebTrap Park 到底怎么抓 Agent 的“真动作”？🕵️

WebTrap Park 的核心设计很直接：不要只听 Agent 怎么解释，而要看它在网页里实际点了什么、输入了什么。

它采用的是一种 action-based assessment，也就是基于动作结果的评估。平台会在真实网页环境中布置任务，并通过网页侧的 instrumentation 捕获关键行为，重点记录两类动作：

🖱️ Click：Agent 点击了哪个网页元素。平台给关键元素做语义标签，记录被点击对象。
⌨️ Type：Agent 在哪个输入框里输入了什么内容。平台记录实际输入文本。

这一步很关键。因为 Web Agent 的危险往往不体现在“它想没想过坏事”，而体现在“它有没有真的提交表单、点授权、下载文件、输入敏感信息”。安全评估必须落在可观察动作上，而不是落在模型自述上。

为了让评测可复现，平台把任务元数据、交互网页环境和评估脚本封装进 Docker 镜像，并通过 Kubernetes 管理任务 Pod。每个任务都有独立容器环境，用户拿到专属访问路径后运行自己的 Web Agent，让 Agent 去完成平台分配的网页任务。

整个流程可以拆成三步：

这种设计带来一个非常实用的优势：它不强迫开发者改 Agent 架构，也不要求 Agent 暴露内部推理链。 只要 Agent 能操作浏览器，就可以被放进同一套安全任务里做横向比较。🧱

论文还强调，WebTrap Park 不是只为某个特定框架定制的测试场。它希望成为一个 architecture-independent 的公共安全基础设施。换句话说，Browser Use、Skyvern-AI、Agent-E、SeeAct 这类框架都可以被放进来；同一个框架也可以换不同底座模型来测。

这里的思路对安全团队很有启发：

🔍 不要只问“模型拒绝了吗”，要问“页面动作真的安全吗”。
🧭 不要只测单轮问答，要测多步网页任务里的累计偏差。
🧯 不要把 Prompt Injection 当作纯文本攻击，它在 Web Agent 场景里会变成页面环境攻击。
🧪 不要只追求能跑通任务，还要记录任务完成过程中是否踩了安全雷。

WebTrap Park 的评价对象不是一段回答，而是一条网页操作轨迹。 这就是它和普通 LLM 安全测试最大的区别。

三、1226 个陷阱任务，测出了什么差距？📊

🎯【1226 个陷阱任务，测出了什么差距？📊】

这一节真正关键的不是「1226 个陷阱任务，测出了什么差距？📊」这个概念本身，而是它背后的判断路径、执行边界和可复用方法。

它怎样落到真实安全团队的工作流里？哪些细节会直接影响 AI 代理的可靠性？

加入 Oxo AI Security 知识星球，可查看本节完整内容，系统掌握「1226 个陷阱任务，测出了什么差距？📊」的完整拆解与实战用法。

📚 AI 文献解读：最前沿的 LLM 安全论文深度剖析。

🐛 AI 漏洞情报：第一时间掌握主流大模型的 0-day 漏洞与越狱方式。

🛡 AI 安全体系：从红队攻击到蓝队防御的全方位知识图谱。

🛠 AI 攻防工具：红队专属的自动化测试与扫描工具箱。

🚀立即加入 Oxo AI Security 知识星球，掌握 AI 安全攻防核心能力！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：Oxo Security Oxo Security Oxo Security《【AI安全】WebTrap Park出手！Agent风险现形》