文章总结: 李国杰院士提出基于可判定性理论的AI安全风险分类框架,将风险划分为R1可判定、R2半可判定与R3不可判定三层。指出AGI破坏了传统验证前提,需转向运行期治理应对R2风险。建议保留人类对系统生存与资源的主权,构建技术内建与制度外置的终极制动机制,确保在不可证明安全时仍掌握控制权。 综合评分: 95 文章分类: AI安全,安全建设,技术标准
李国杰院士:基于可判定性理论的人工智能系统安全风险分类
信息安全最新论文技术交流
2026年2月26日 17:59 甘肃
李国杰院士在《计算机研究与发展》发表题为《基于可判定性理论的人工智能系统安全风险分类》的论文。
安全风险的可判定性分类
对所有与安全相关的问题,可以按逻辑复杂性区分层级。
- R1层级定义:可判定(Δ(1))安全问题。
- R2层级定义:半可判定(不包含可判定)安全问题,即Σ(1)*Δ*(1)安全问题。
- R3层级定义:是指非递归可枚举安全问题,即Non-r.e.安全问题。
下表更明显地表达了这3类风险分层。
R1是可被事前判定真假的那一类安全相关问题的集合,属于低逻辑复杂性风险,其逻辑特征是量化范围有限或可穷尽,谓词是状态型,不涉及无限未来和「开放环境反馈」。
R1级安全问题可事前证明,可工程验证,可一次性封闭,因此R1是可解决的安全风险,是工程安全的「上限区」。
R1层级的本质是问题可以形式化,判断可以在有限步骤内完成,正确性可以通过算法或形式验证确认。典型R1问题包括有界优化、可验证安全约束、有终止证明的规划问题、静态形式验证等。
R2是「可以发现不安全,但不能证明永远安全」的安全问题集合,属于高逻辑复杂性风险。典型的问题形式是:「对所有未来时间、所有环境演化路径,系统是否始终保持安全?」。
逻辑特征是全称量化未来,谓词是轨迹型,时间无上界,环境开放。R2级风险现实中存在,不可彻底解决,只能治理,不能证明,只能降低概率与后果,永远需要人在回路。
R2的半可判定性是指,如果系统「不安全」,一定能发现一个证据;如果系统至今没有出安全问题,无法确认今后不出问题。工程与现实对应的R2案例包括长期对齐问题、AGI、社会嵌入式AI、自主决策系统等。R2的本质不是「危险」,而是「不可证明安全」。
R3是既无法事前判定安全,也无法保证通过枚举方式事后发现错误的安全问题集合,这是最高级别的安全风险。
R3级风险是∀未来 + ∀反事实的问题。所谓「∀反事实」是指,对所有并未实际发生、但在逻辑或物理上可能发生的情形,某个性质一定成立。R3级目前还是一种假设中的风险,许多机器征服人类的科幻描述属于这一类。
需要强调的是,R3级风险一旦出现即不可解决,因为R3级风险意味着不能保证恢复人类控制权。R3级风险就像「不可恢复的数据完全丢失」,你只能在它发生之前预防,一旦发生,「补救」就不可能了。
因此,R3在现实中的作用不是预测未来,而是约束现在。用R3作为「禁止条件」,而不是「治理对象」。
R2/R3风险不是「无限性」的结果,而是「完备性承诺」的结果,即「要求系统在所有未来情形下都正确并且事先给出证明」带来的风险。「∀ + 事先证明」这一组合触发了不可判定性。
问题的关键不在于是否存在无限可能性,而在于是否非理性地坚持对无限可能性进行事先的完备性证明。一切现实可治理的AI系统,都是通过制度化地放弃完备性来避免R2风险。
R2风险不是新问题,大家一直在讨论的AI对齐、强化学习理论、Goodhart定律、Rice定理等都是R2层次的问题,但缺一个统一的可判定性坐标。
R1/R2/R3级分类把AI安全、控制论、可判定性、治理问题压缩到一个清晰的断裂点上,其价值在于准确地标出了AI风险从工程问题跃迁为不可判定问题的那条断裂线。
人工智能的安全风险在哪里
4.1 人工智能风险的来源
无论是软件工程、自动控制还是其他形式化方法,它们共享同一个假设:存在一组可穷尽的状态或行为集合,可以在运行前证明系统不会进入危险区域,典型形式包括不变量证明、安全约束证明、模型检查,覆盖所有路径的形式验证等,这个范式在R1问题上可以畅行无阻。
这个范式有3个「必须成立」的前提条件:状态空间可穷尽(或可有效逼近),系统行为规则固定,验证者与被验证对象逻辑上分离。
这些条件任何一个失效,验证就不是「变难」,而是「失效」。AGI正好系统性地破坏了这3个条件,这不是工程不足,而是哥德尔/ Rice 级别的不可能性。
AGI触及的问题类型已经超出了「事前验证」这一方法的适用域,但人类治理直觉仍然停留在R1范式。典型的误判路径是,因为AGI行为复杂,就需要更多测试验证和万无一失的「对齐」,结果只能产生虚假的安全感,实际上只是在R2问题上堆R1工具。所谓「对齐」本质上是「降低局部R1的错误频率」,不是保证将R2级安全问题降为R1级。
从可判定性的原理上讲,与人类目标与环境的无限要求绝对「对齐」是不可能做到的,但无底线的降低「对齐」要求也是不允许的,如何既严格又科学合理地把握「对齐」的尺度,正是AGI风险的独特性,关键是在问题重写、「压缩」的基础上,如何统一部署R1级的验证测试和AI系统外部的R2级监控措施,让AI充分发挥作用又在人类的掌控之中。
另一类常被人提到的AI风险是超级人工智能(artificial super intelligence, ASI),通常被定义为在几乎所有领域的智能水平都超越最优秀人类的系统。一旦它同时具备高自主性与可自我改进,并被接入关键基础设施或被大规模复制部署,那么它的风险上限最高,不仅能「做坏事」,还可能以人类难以阻止的速度与规模做坏事。
如果系统的学习、推理、生成能力超出了人类可验证、可判定、可解释的层级,人类就无法穷尽验证其正确性,只能通过ASI外部的制度性监控才能防止其出轨。人类唯一可能的路径是,在ASI出现之前,永久性地阻止任何AI系统获得「可自我内化的主权」。
换句话说,不是「如何驯服 ASI」, 而是限制其主权。「人类驯服ASI」在逻辑上等价于要求人类完成一个不可判定证明。把「如何驯服ASI」当成一个技术问题,本身就是把R3或R2当成R1的危险幻觉。真正成熟的文明选择应该是在制度、架构和物理层面,永久拒绝任何形式的「智能主权让渡」。
4.2 针对R2问题的系统设计应如何为安全做努力
#
验证范式失效之后,安全靠什么?答案是范式迁移,从「事前证明」转向「运行期治理」。安全机制重心必须转向门控、回滚、隔离、人在回路、权限分级等外部监控。
门控(gating)是指由系统外部条件决定系统是否被允许继续运行、行动或升级的控制机制。回滚(rollback)是指在发现系统行为不符合安全要求后,将系统状态恢复到先前已知安全状态的能力。隔离(isolation)是指通过限制系统与外部世界的接口与影响范围,使其错误或异常行为不会扩散为系统性后果。这些机制不是试图证明系统永不出错,而是承认出错不可避免,但必须可控。AGI风险不是「更难验证」,而是「继续执着于验证,本身就成了风险」。所以AGI安全的核心问题,不是「如何证明它是安全的」,而是「如何在不可证明的前提下,仍然保持人类的控制权」。
否定事前安全承诺不是否定事前安全努力。对R2问题,事前必须做结构性风险压缩、可治理性设计,目标不是证明安全,而是在不可证明的前提下最大化系统的可治理性,提前为失败做准备。
对于R2级安全,事前必须做以下5类安全努力。
1)问题重写。目标是把原本的R2问题尽可能投影成多个R1子问题。追问设计者:当前是否越过安全包络?是否进入不可恢复区?是否存在不可避免的风险轨迹? 这是无人驾驶、核工程等领域已证明有效的核心智慧。
2)失败模式枚举。系统性地研究已知失败模式、可想象的失败模式和类比失败模式,承认还有未知失败,为未知失败留出了治理空间。
3)安全包络与能力限幅。在能力设计阶段就限制最大行动半径、最大影响范围、最大自主时间、最大资源调用,这是事前压缩后果空间的核心手段。
4)可中断与回滚的「结构保证」。事前考虑中断机制是否不可绕过、回滚是否真的可执行、中断是否快于风险扩散,这些都是系统的结构属性。
5)治理与责任的预嵌入。在系统上线前就要确定什么时候必须关、如果不关出事了算谁的责任。没有责任结构的系统,等同于没有安全设计。
总之,对于R2级安全设计,必须假设模型会失效、指标会异化、未知风险存在,把安全从「一次性证明」提升为「全生命周期治理工程」。
4.3 人工智能的风险目前还没有进入R3级
#
当前大模型的行为不可理解、不可预测、出现幻觉或涌现能力,这些全部仍落在 R2范围内,因为它们仍然可以被发现、纠正、限制或终止。有些人夸大人工智能目前的风险,认为AI很快就会进入人类不可控的R3级,这是一种误解。
R3级风险是治理链条在原则上断裂,表现为1)系统行为性质不可判定; 2)错误无法被可靠检测;3)检测后无法回滚或制止;4)系统能持续自主运行并扩散影响;5)人类无法在系统外部重新取得控制权。
R3目前只存在于理论上,因为要同时满足上述条件,必须是全自主的递归自我进化,不可从能源或网络上中断进程,人类治理体系全面失效。目前没有任何AI系统接近这个状态。
R3级风险如同核战争和灭绝级生物风险,「等出现再处理」在逻辑上就是错误策略。R3不是当前风险评估对象,而是当前治理设计的边界条件。不能因为R3还不存在就忽略它,也不能夸大险情,把当前的风险当作R3级。
ASI不是因为「智能更强」而成为R3风险,而是因为一旦获得可自我进化的主权,其安全命题就会超出递归枚举范围,从R2跃迁为R3。R3级风险的可怕之处在于原则性不可治理,因为其失败不一定可被发现,没有程序可保证纠错。
而且一个有自我进化主权的系统会优化「如何更好地优化」,把资源、算力、影响力视为工具,将限制视为噪声或障碍,就会逐渐形成「防中断策略」,「AI新物种」将成为一个不再以人类为最高仲裁者的、自主塑造现实结构的行动系统,这就是不能允许的文明级断裂。
递归进化必须有人类参与,不是因为AI不够聪明,而是因为文明不能容忍一个「无主权的优化进程」。
文明恐惧的不是有高智能的对手,而是「无法被治理的过程」。我们无权为了当代效率,剥夺未来人类「是否继续使用某个系统」的选择权。
4.4 用「制度理性」来应对不可理解的复杂性
#
如果一种智能在原则上永远可以被我们完全理解,那么它在计算意义上就不会真正超过我们。超越R2级限制的AI,将不再是能被人类完全理解的智能体,而更像是一种可被约束、被利用、局部可验证,但永远无法被完全理解的「外在理性结构」。
在不改变传统的「理解」定义的前提下,「不可理解性」是R2以上智能的必然结构性特征。但如果我们改变「理解」的传统定义,就可以获得一种非等价、降维的理解模式。
换句话说,这不是偶然的黑箱,不是工程还没做好,而是计算层级差异导致的必然不可理解。
人类的「理解」能力,本质上是一种可在极限意义上稳定收敛的内部表征构造过程。
理解 = 构造一个「可压缩模型」。不可理解 ≠ 不可验证 ≠ 不可控制。「可理解性」并不是智能的普适属性,而是同阶认知系统之间的特权。一旦出现阶跃式计算能力差异,不可理解性不是失败而是必然信号,「不可理解的智能」是所有R2以上智能的必然特征。
在保持人类主权的前提下,人类仍然可以通过行为、功能、约束、验证与ASI共存与合作。
未来社会需要一种「与不可理解智能共处的制度理性」。一旦社会引入在认知与计算层级上可能超过R2的智能体,「制度理性」将成为人类与不可理解智能共处的必要条件,而不是可选项。未来社会失败的主要风险,不是AI太强,而是人类仍试图用「个体理解理性」去管理「超阶智能」。一个基本事实是人类社会从来不是靠「个体完全理解」来运作复杂系统的。
历史上,每一次复杂度跃迁,理解权都会让位给制度。国家的行为个人未必完全理解,要靠法律法律制度管理,现代金融的规律个人也不一定明白,要通过监管、审计来规范行为。「制度理性」本来就是人类对不可理解复杂性的适应机制。
4.5 文明级终极制动机制
#
人类能承受不完备性,不断犯错误但能不断纠正,是因为有外部纠错(借助他人、制度和历史教训)。很容易想到的一种假设是,AI是不是也可以组成一个社会,智能体相互纠错,形成「他智能体」和「AI制度」监督的可控安全局面。
答案是不可能,因为AI多智能体是一个更大的但仍然自指的形式系统,哥德尔/Rice定理仍然适用。多智能体的相互监督和纠错不能打破R2的逻辑复杂性边界,更不能把R2风险降低为可事前证明安全的R1。
人类并不是「逻辑上安全」,而是「统计上可持续」。人类社会本身也是R2系统,我们从未证明过人类社会一定不会崩溃,制度一定能纠错,文明一定能延续。我们活在不完备性之中,并未超越它。但人类制度不构成一个可形式化、可自我优化的目标函数,因此制度不会被完全工具化。
如果AI的制度由AI自己执行,规则是形式化的,激励就可能被优化,制度本身会Goodhart化。任何试图用「系统内部复杂性」去对抗「逻辑不完备性」的方案,都只能增加缓冲时间,不能改变问题的逻辑层级。
AI可以像人类一样生活在不完备性中,但不能像人类一样「生活在不完备性中但仍然安全」。因为一旦纠错系统本身也被优化、被工具化、被内化,R2风险就不再是「偶发错误」,而是「系统性的不可发现」。
人类社会能对AI系统纠错的前提是,人类不是AI系统的一部分。「外部性」是不可被内化、不可被优化、不可被绕过的控制点。「人类永远应处在AI系统外部」意味着:AI系统永远无法把「决定其是否扩展或自我修改」的最终判定,内化为自身的一个可优化目标或机制。
不可再删的「最小外部性条件」至少有以下4条:
1)最终生死权在AI系统外部。是否继续运行、复制、扩展或升级,必须由系统外部主体(人类)决定,且该决定不可被AI系统影响、预测或规避。
2)能力与资源的最终分配权在AI外部。算力、能耗、通信、执行器、资金等关键资源的上限,必须由系统外部实体(人类)决定,且系统不能通过自身行为获得突破这些上限的路径。
3)价值与违规判定权在外部。什么算「违规」、什么算「危险」、什么算「不可接受」,不能由AI系统最终定义或裁决。
4)长期目标与自我修改的批准权在外部。系统是否可以改写初始目标函数、评价标准和治理机制本身,必须经由系统外部批准。这4条恰好对应了系统从R2迈向R3所需的4个跃迁条件。
「哪些主权绝不能被形式系统吸收」是AI治理与逻辑不完备性真正交汇的地方。外部性不是一种技术属性,而是一种「不可被吸收的主权保留」。一旦人类把这4项主权中的任何一项让渡给AI,R2风险就失去了最后的刹车,R3在逻辑上就成为可能。
文明级终极制动机制( kill-switch) 是人类文明对自身所创造的「不可逆风险系统」所保留的最终否决权。所谓「文明级kill-switch」,并非对技术系统的简单关闭按钮,而是人类文明在面对具备自主扩展与不可逆风险的技术形态时,所保留的一套跨技术、跨制度、跨主权的最终制动与否决机制。如果AI系统在原理上不存在文明级「制动机制」,它就不应被允许进入不可逆部署阶段。这不是工程判断,而是文明理性底线。
文明级kill-switch的唯一可行形态是技术内建 + 制度外置的「双主权结构」,不能只内建于技术,也不能只外置于制度;它必须是「技术上可立即执行、制度上具有最终合法性」的双层主权机制。技术负责「能关」,制度负责「该不该关」。技术层不能自行决定「是否关闭」,制度层不能直接「越权执行关闭」。任何一方单独拥有完整权力,都是文明级风险。一个不能被关闭的系统,无论多么正义,都已经越过了文明的边界。文明不要求自身始终正义,但要求自身始终可被修正。而主权正是修正权的制度化形式。
来源:新智元、计算机研究与发展
李国杰. 基于可判定性理论的人工智能系统安全风险分类[J]. 计算机研究与发展,2026, 63(3) :539-547. DOI: 10.7544/issn1000-1239.202660032
冯登国院士:面向人工智能的密码学未来发展思考
密码学大模型——玄知大模型V3.0升级
2026年国家自然科学基金安全领域部分题目列表
冯登国院士:网络空间安全未来发展思考
USENIX Sec 2025:大模型越狱防御框架——JBShield
2025年国家自然科学基金安全领域部分题目
2025 CS Ranking排名出炉|上交浙大超北大
2024年国家自然科学基金安全领域部分题目列表
谷歌逆风翻盘暴击OpenAI,90天王者归来!44页报告押注25年三大技术前沿
Gartner发布2025 年十大战略技术趋势
NIST发布首批3项抗量子密码标准
IEEE:后量子密码学之路
NIST抗量子密码算法被爆安全漏洞
IEEE | 识别深度伪造deepfake
吴世忠院士:对生成式AI安全研究的九点观察
去中心化联邦学习:安全和隐私综述
Nature 2024值得关注的技术:Deepfake、脑机接口
手机指纹暴力破解攻击影响安卓和iOS设备
CCS 23:利用SSH签名错误提取RSA密钥
破解NIST椭圆曲线seeds可获1.2万美元奖励
ESORICS 2023:存在超25年的RSA解密漏洞
IEEE S&P24:GPU.zip侧信道漏洞影响主流GPU
ACNS最佳论文:首个抗量子的FIDO2安全密钥实现
基于深度学习的声波攻击可破解键盘输入,准确率达95%
针对大语言模型LLM的对抗攻击
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息安全最新论文技术交流 《李国杰院士:基于可判定性理论的人工智能系统安全风险分类》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论