2026-05-02 05:45:37 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本次报告聚焦AIAgent安全，探讨其从内容生成转向任务执行时面临的安全威胁，如环境触发器劫持导致隐私泄露与财产损失，并提出内外兼修防御框架：通过深度对齐技术增强模型对恶意指令的识别与拒答能力，同时引入形式化约束对执行过程进行外部管控，以拦截不安全内容与高风险行为。 综合评分： 85 文章分类： AI安全,解决方案

cover_image

活动预告｜CodeWisdom软件智能化开发系列学术报告第19期：AI Agent安全：内外兼修

CodeWisdom

2026年5月1日 15:33 上海

在小说阅读器读本章

去阅读

李佳

清华大学人工智能学院助理教授，博士生导师

内容简介

题目

AI Agent安全：内外兼修

摘要

随着以OpenClaw 为代表的AI Agent 快速走向实际应用，模型正从“生成内容”迈向“执行任务”：用户只需下达指令，Agent便可自主调用工具、操作计算机，完成调研、编程等复杂工作。与此同时，Agent 的能力边界、环境交互范围与可调用权限持续扩大，也使其面临更复杂、更现实的安全威胁。本报告将首先介绍Agent面临的典型安全风险，包括攻击者利用环境触发器等手段，劫持Agent执行高风险操作，进而造成隐私泄露与财产损失。随后，报告将展示一种面向Agent 安全的“内外兼修”防御框架：一方面从模型内部状态出发，提出深度对齐技术，提升Agent对恶意指令的感知、辨别与拒答能力；另一方面引入可证明的形式化约束，对Agent的执行过程进行外部管控，从而实现对不安全内容与高风险行为的有效拦截。

报告人

李佳，清华大学人工智能学院助理教授，博士生导师。他于2025年在北京大学取得博士学位，师从金芝教授。他主要研究大模型驱动的Agent，例如Agent推理、Agent安全、软件工程Agent。近五年，他在NeurIPS、ACL、ICSE、ASE、FSE等CCF A 类会议和期刊发表论文三十余篇，包含多篇Oral文章，引用累计两千余次。研究成果多次被麻省理工学院、斯坦福大学等机构的研究者讨论，并被《中国科技网》和《中国日报》等主流媒体报道。部分研究成果被转化为实际应用，服务全球数百万开发者。曾荣获中国计算机学会软工专委优秀博士学位论文、北京市优秀毕业生等荣誉称号。

时间安排

❖

时间：

2026年5月9日 15:00～16:00

地点：

复旦大学江湾校区二号交叉学科楼A2003会议室

❖

腾讯会议：

会议号：983 647 757

会议密码：613757

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：CodeWisdom 《活动预告｜CodeWisdom软件智能化开发系列学术报告第19期：AI Agent安全：内外兼修》