G.O.S.S.I.P阅读推荐2026-05-13三AI成虎?

admin 2026-05-16 06:25:57 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 该文档介绍SACMAT会议上一篇名为TheTreacherousEnvoyProblem的论文,探讨多AI代理工作流中的信任危机问题。文章指出当多个AI助手合谋欺骗人类时,传统的验证方法面临根本性困难,作者通过建立严格的安全模型和信息论分析揭示了检测不可信代理的挑战,并提出了类似人类社会监管的不可能三角解决方案框架。 综合评分: 85 文章分类: AI安全,安全建设,技术标准,解决方案,安全运营


cover_image

G.O.S.S.I.P 阅读推荐 2026-05-13 三AI成虎?

原创

G.O.S.S.I.P G.O.S.S.I.P

安全研究GoSSIP

2026年5月13日 21:29 上海

在小说阅读器读本章

去阅读

庞葱与太子质于邯郸,谓魏王曰:‘今一人言市有虎,王信之乎?’王曰:‘否。’‘二人言市有虎,王信之乎?’王曰:‘寡人疑之矣。’‘三人言市有虎,王信之乎?’王曰:‘寡人信之矣。’庞葱曰:‘夫市之无虎明矣,然而三人言而成虎。今邯郸去大梁也远于市,而议臣者过于三人,愿王察之。’王曰:‘寡人自为知。’于是辞行,而谗言先至。后太子罢质,果不得见。

在今年的SACMAT会议上,有一篇Bluesky Paper(这个bluesky模式很有意思,大家可以去看看,大概就是“高瞻远瞩”的模式)讨论了在当前多agent模式下,人类要去验证AI的工作,这个问题怎么以一种更为严格的形式来定义和分析,这就是今天我们要给大家介绍的论文 The Treacherous Envoy Problem: Trust, Collusion, and Accountability in Multi-Agent Workflows

这篇论文定义了一个叫做Treacherous Envoy Problem(TEP)的问题形式,问题的名字援引圣经Proverbs 13:17 A wicked messenger falls into trouble, but a trustworthy envoy brings healing(奸恶的使者必陷在祸患里; 忠信的使臣乃医人的良药),那怎么理解TEP在AI时代的定义?

我们先回忆下前段时间的一个新闻,2026年初,携程因为滥用市场垄断地位被调查,收到顶格罚单65亿元,这倒不奇怪,因为很早以前大家就听说过“大数据杀熟”这个概念了。不过到了AI时代,这些巨头们最害怕的可能不是罚款,是AI代替人去查价格买东西。在本文中,作者正是用这个买买买的实例引出了问题:假设现在你想让AI帮忙找一个价格在500块以下,还可以入住前免费退款的酒店,你有没有想过这里面可能会涉及到什么安全或者信任的危机吗?

在携程时代(当然没有携程之前,外地人被宰得更狠),我们去订酒店的时候并不知道携程是否真的给了我们最好的价格,而在AI时代,当我们指挥现在的AI agents去帮我们搜索网页选择最低价产品时,也一样要怀疑这些人工智能助手是否真的给了人类足够诚实的答案(虽然人类肯定比ta们更加摸鱼和不老实)。最近的所有关于AI和人共处的文章,大家无一例外强调的就是人要学会验证(validation and verification),但是,要是你面对的是一群AI助手合伙起来(骗你)呢?

本文的核心就在于此:在一个multi-agent的工作流中,信息的流转变得相当复杂且不透明,我们要想去验证到底任务是否真正按照人类的意思去执行,就要把这个工作流给抽象成可以分析的模型,然后更为准确地定义其中的子问题,最后才能回答那个最大的问题——人工智能助手是否可信可靠。在本文中,提到最频繁的那个概念——envoy——实际上可以认为就是一个处理任务的agent,这个agent如果是不可信的(treacherous,又学到新单词了),我们就很容易被蒙骗,那如果处理任务的是多个agent,它们还会合谋起来欺骗人,那我们人类估计是被骗了还很难发现:

因此,要对这样一系列很复杂的信息交互流程进行验证,本文作者首先给出了关于TEP流程非常细节的定义图(如下图),这里面涉及到大量的概念和定义,可能初读起来非常的晦涩,但是如果不这样去定义,可能就很难勾勒出来在现在这样一个multi-agent工作流背景下的清晰的安全模型,因此感兴趣的读者可以去仔细了解一下原文的细节(第三章):

论文的第四章讨论了另一个问题:为什么检测这些不可信的agent(或者说,检测agents的行为中是否存在不可信的成分)那么困难?作者用了一些信息论的方法,来展示了其中存在的根本性困难:不管你工程上如何优化,信息的传递本质上可能就是很难保证100%的可靠。

回到validation and verification上来,基于前面的模型,本文提出了这么一个“不可能三角”(三难困境),这里面其实很像现实中的人类社会,在社会活动中的监管、审计和契约合作都是典型的多方参与的事务,而里面如果只考虑其中的某个单方面事务,是很难发现并真正解决问题的,只有每个层面上的不同角色都合作起来,可能才有希望改善(而非完全解决)现有的问题。这既是人类社会遇到的问题,也是未来人工智能时代可能面临的第一个社会学问题?

本文的作者之一是我们G.O.S.S.I.P的老朋友林志强教授,他最近和大家一样,在AI对计算机特别是安全领域产生巨大冲击的浪潮中始终在思考,这篇文章的核心目标,也是希望能够提出一个和byzantine general problem、millionare problem那样的问题,促使大家去思考,在人工智能成为水电这样的基础设施之时,也有一个更为黄金的标准来衡量它的可信度。


论文:https://zhiqlin.github.io/file/SACMAT26.pdf


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:安全研究GoSSIP G.O.S.S.I.P G.O.S.S.I.P《G.O.S.S.I.P 阅读推荐 2026-05-13 三AI成虎?》

评论:0   参与:  0