活动预告|CodeWisdom软件智能化开发系列学术报告第19期:AIAgent安全:内外兼修

admin 2026-05-02 05:45:37 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本次报告聚焦AIAgent安全,探讨其从内容生成转向任务执行时面临的安全威胁,如环境触发器劫持导致隐私泄露与财产损失,并提出内外兼修防御框架:通过深度对齐技术增强模型对恶意指令的识别与拒答能力,同时引入形式化约束对执行过程进行外部管控,以拦截不安全内容与高风险行为。 综合评分: 85 文章分类: AI安全,解决方案


cover_image

活动预告|CodeWisdom软件智能化开发系列学术报告第19期:AI Agent安全:内外兼修

CodeWisdom

2026年5月1日 15:33 上海

在小说阅读器读本章

去阅读

李佳

清华大学人工智能学院助理教授,博士生导师

内容简介

题目

AI Agent安全:内外兼修

摘要

随着以OpenClaw 为代表的AI Agent 快速走向实际应用,模型正从“生成内容”迈向“执行任务”:用户只需下达指令,Agent便可自主调用工具、操作计算机,完成调研、编程等复杂工作。与此同时,Agent 的能力边界、环境交互范围与可调用权限持续扩大,也使其面临更复杂、更现实的安全威胁。本报告将首先介绍Agent面临的典型安全风险,包括攻击者利用环境触发器等手段,劫持Agent执行高风险操作,进而造成隐私泄露与财产损失。随后,报告将展示一种面向Agent 安全的“内外兼修”防御框架:一方面从模型内部状态出发,提出深度对齐技术,提升Agent对恶意指令的感知、辨别与拒答能力;另一方面引入可证明的形式化约束,对Agent的执行过程进行外部管控,从而实现对不安全内容与高风险行为的有效拦截。

报告人

李佳,清华大学人工智能学院助理教授,博士生导师。他于2025年在北京大学取得博士学位,师从金芝教授。他主要研究大模型驱动的Agent,例如Agent推理、Agent安全、软件工程Agent。近五年,他在NeurIPS、ACL、ICSE、ASE、FSE等CCF A 类会议和期刊发表论文三十余篇,包含多篇Oral文章,引用累计两千余次。研究成果多次被麻省理工学院、斯坦福大学等机构的研究者讨论,并被《中国科技网》和《中国日报》等主流媒体报道。部分研究成果被转化为实际应用,服务全球数百万开发者。曾荣获中国计算机学会软工专委优秀博士学位论文、北京市优秀毕业生等荣誉称号。

时间安排

时间:

2026年5月9日 15:00~16:00

地点:

复旦大学江湾校区二号交叉学科楼A2003会议室

腾讯会议:

会议号:983 647 757

会议密码:613757


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:CodeWisdom 《活动预告|CodeWisdom软件智能化开发系列学术报告第19期:AI Agent安全:内外兼修》

评论:0   参与:  0