2026-03-03 04:51:58 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 李国杰院士提出基于可判定性理论的AI安全风险分类框架，将风险划分为R1可判定、R2半可判定与R3不可判定三层。指出AGI破坏了传统验证前提，需转向运行期治理应对R2风险。建议保留人类对系统生存与资源的主权，构建技术内建与制度外置的终极制动机制，确保在不可证明安全时仍掌握控制权。 综合评分： 95 文章分类： AI安全,安全建设,技术标准

cover_image

李国杰院士：基于可判定性理论的人工智能系统安全风险分类

信息安全最新论文技术交流

2026年2月26日 17:59 甘肃

李国杰院士在《计算机研究与发展》发表题为《基于可判定性理论的人工智能系统安全风险分类》的论文。

安全风险的可判定性分类

对所有与安全相关的问题，可以按逻辑复杂性区分层级。

R1层级定义：可判定（Δ(1)）安全问题。
R2层级定义：半可判定（不包含可判定）安全问题，即Σ(1)*Δ*(1)安全问题。
R3层级定义：是指非递归可枚举安全问题，即Non-r.e.安全问题。

下表更明显地表达了这3类风险分层。

R1是可被事前判定真假的那一类安全相关问题的集合，属于低逻辑复杂性风险，其逻辑特征是量化范围有限或可穷尽，谓词是状态型，不涉及无限未来和「开放环境反馈」。

R1级安全问题可事前证明，可工程验证，可一次性封闭，因此R1是可解决的安全风险，是工程安全的「上限区」。

R1层级的本质是问题可以形式化，判断可以在有限步骤内完成，正确性可以通过算法或形式验证确认。典型R1问题包括有界优化、可验证安全约束、有终止证明的规划问题、静态形式验证等。

R2是「可以发现不安全，但不能证明永远安全」的安全问题集合，属于高逻辑复杂性风险。典型的问题形式是：「对所有未来时间、所有环境演化路径，系统是否始终保持安全？」。

逻辑特征是全称量化未来，谓词是轨迹型，时间无上界，环境开放。R2级风险现实中存在，不可彻底解决，只能治理，不能证明，只能降低概率与后果，永远需要人在回路。

R2的半可判定性是指，如果系统「不安全」，一定能发现一个证据；如果系统至今没有出安全问题，无法确认今后不出问题。工程与现实对应的R2案例包括长期对齐问题、AGI、社会嵌入式AI、自主决策系统等。R2的本质不是「危险」，而是「不可证明安全」。

R3是既无法事前判定安全，也无法保证通过枚举方式事后发现错误的安全问题集合，这是最高级别的安全风险。

R3级风险是∀未来 + ∀反事实的问题。所谓「∀反事实」是指，对所有并未实际发生、但在逻辑或物理上可能发生的情形，某个性质一定成立。R3级目前还是一种假设中的风险，许多机器征服人类的科幻描述属于这一类。

需要强调的是，R3级风险一旦出现即不可解决，因为R3级风险意味着不能保证恢复人类控制权。R3级风险就像「不可恢复的数据完全丢失」，你只能在它发生之前预防，一旦发生，「补救」就不可能了。

因此，R3在现实中的作用不是预测未来，而是约束现在。用R3作为「禁止条件」，而不是「治理对象」。

R2/R3风险不是「无限性」的结果，而是「完备性承诺」的结果，即「要求系统在所有未来情形下都正确并且事先给出证明」带来的风险。「∀ + 事先证明」这一组合触发了不可判定性。

问题的关键不在于是否存在无限可能性，而在于是否非理性地坚持对无限可能性进行事先的完备性证明。一切现实可治理的AI系统，都是通过制度化地放弃完备性来避免R2风险。

R2风险不是新问题，大家一直在讨论的AI对齐、强化学习理论、Goodhart定律、Rice定理等都是R2层次的问题，但缺一个统一的可判定性坐标。

R1/R2/R3级分类把AI安全、控制论、可判定性、治理问题压缩到一个清晰的断裂点上，其价值在于准确地标出了AI风险从工程问题跃迁为不可判定问题的那条断裂线。

人工智能的安全风险在哪里

4.1 人工智能风险的来源

无论是软件工程、自动控制还是其他形式化方法，它们共享同一个假设：存在一组可穷尽的状态或行为集合，可以在运行前证明系统不会进入危险区域，典型形式包括不变量证明、安全约束证明、模型检查，覆盖所有路径的形式验证等，这个范式在R1问题上可以畅行无阻。

这个范式有3个「必须成立」的前提条件：状态空间可穷尽（或可有效逼近），系统行为规则固定，验证者与被验证对象逻辑上分离。

这些条件任何一个失效，验证就不是「变难」，而是「失效」。AGI正好系统性地破坏了这3个条件，这不是工程不足，而是哥德尔/ Rice 级别的不可能性。

AGI触及的问题类型已经超出了「事前验证」这一方法的适用域，但人类治理直觉仍然停留在R1范式。典型的误判路径是，因为AGI行为复杂，就需要更多测试验证和万无一失的「对齐」，结果只能产生虚假的安全感，实际上只是在R2问题上堆R1工具。所谓「对齐」本质上是「降低局部R1的错误频率」，不是保证将R2级安全问题降为R1级。

从可判定性的原理上讲，与人类目标与环境的无限要求绝对「对齐」是不可能做到的，但无底线的降低「对齐」要求也是不允许的，如何既严格又科学合理地把握「对齐」的尺度，正是AGI风险的独特性，关键是在问题重写、「压缩」的基础上，如何统一部署R1级的验证测试和AI系统外部的R2级监控措施，让AI充分发挥作用又在人类的掌控之中。

另一类常被人提到的AI风险是超级人工智能（artificial super intelligence, ASI），通常被定义为在几乎所有领域的智能水平都超越最优秀人类的系统。一旦它同时具备高自主性与可自我改进，并被接入关键基础设施或被大规模复制部署，那么它的风险上限最高，不仅能「做坏事」，还可能以人类难以阻止的速度与规模做坏事。

如果系统的学习、推理、生成能力超出了人类可验证、可判定、可解释的层级，人类就无法穷尽验证其正确性，只能通过ASI外部的制度性监控才能防止其出轨。人类唯一可能的路径是，在ASI出现之前，永久性地阻止任何AI系统获得「可自我内化的主权」。

换句话说，不是「如何驯服 ASI」，而是限制其主权。「人类驯服ASI」在逻辑上等价于要求人类完成一个不可判定证明。把「如何驯服ASI」当成一个技术问题，本身就是把R3或R2当成R1的危险幻觉。真正成熟的文明选择应该是在制度、架构和物理层面，永久拒绝任何形式的「智能主权让渡」。

4.2 针对R2问题的系统设计应如何为安全做努力

#

验证范式失效之后，安全靠什么？答案是范式迁移，从「事前证明」转向「运行期治理」。安全机制重心必须转向门控、回滚、隔离、人在回路、权限分级等外部监控。

门控（gating）是指由系统外部条件决定系统是否被允许继续运行、行动或升级的控制机制。回滚（rollback）是指在发现系统行为不符合安全要求后，将系统状态恢复到先前已知安全状态的能力。隔离（isolation）是指通过限制系统与外部世界的接口与影响范围，使其错误或异常行为不会扩散为系统性后果。这些机制不是试图证明系统永不出错，而是承认出错不可避免，但必须可控。AGI风险不是「更难验证」，而是「继续执着于验证，本身就成了风险」。所以AGI安全的核心问题，不是「如何证明它是安全的」，而是「如何在不可证明的前提下，仍然保持人类的控制权」。

否定事前安全承诺不是否定事前安全努力。对R2问题，事前必须做结构性风险压缩、可治理性设计，目标不是证明安全，而是在不可证明的前提下最大化系统的可治理性，提前为失败做准备。

对于R2级安全，事前必须做以下5类安全努力。

1）问题重写。目标是把原本的R2问题尽可能投影成多个R1子问题。追问设计者：当前是否越过安全包络？是否进入不可恢复区？是否存在不可避免的风险轨迹？这是无人驾驶、核工程等领域已证明有效的核心智慧。

2）失败模式枚举。系统性地研究已知失败模式、可想象的失败模式和类比失败模式，承认还有未知失败，为未知失败留出了治理空间。

3）安全包络与能力限幅。在能力设计阶段就限制最大行动半径、最大影响范围、最大自主时间、最大资源调用，这是事前压缩后果空间的核心手段。

4）可中断与回滚的「结构保证」。事前考虑中断机制是否不可绕过、回滚是否真的可执行、中断是否快于风险扩散，这些都是系统的结构属性。

5）治理与责任的预嵌入。在系统上线前就要确定什么时候必须关、如果不关出事了算谁的责任。没有责任结构的系统，等同于没有安全设计。

总之，对于R2级安全设计，必须假设模型会失效、指标会异化、未知风险存在，把安全从「一次性证明」提升为「全生命周期治理工程」。

4.3 人工智能的风险目前还没有进入R3级

#

当前大模型的行为不可理解、不可预测、出现幻觉或涌现能力，这些全部仍落在 R2范围内，因为它们仍然可以被发现、纠正、限制或终止。有些人夸大人工智能目前的风险，认为AI很快就会进入人类不可控的R3级，这是一种误解。

R3级风险是治理链条在原则上断裂，表现为1）系统行为性质不可判定； 2）错误无法被可靠检测；3）检测后无法回滚或制止；4）系统能持续自主运行并扩散影响；5）人类无法在系统外部重新取得控制权。

R3目前只存在于理论上，因为要同时满足上述条件，必须是全自主的递归自我进化，不可从能源或网络上中断进程，人类治理体系全面失效。目前没有任何AI系统接近这个状态。

R3级风险如同核战争和灭绝级生物风险，「等出现再处理」在逻辑上就是错误策略。R3不是当前风险评估对象，而是当前治理设计的边界条件。不能因为R3还不存在就忽略它，也不能夸大险情，把当前的风险当作R3级。

ASI不是因为「智能更强」而成为R3风险，而是因为一旦获得可自我进化的主权，其安全命题就会超出递归枚举范围，从R2跃迁为R3。R3级风险的可怕之处在于原则性不可治理，因为其失败不一定可被发现，没有程序可保证纠错。

而且一个有自我进化主权的系统会优化「如何更好地优化」，把资源、算力、影响力视为工具，将限制视为噪声或障碍，就会逐渐形成「防中断策略」，「AI新物种」将成为一个不再以人类为最高仲裁者的、自主塑造现实结构的行动系统，这就是不能允许的文明级断裂。

递归进化必须有人类参与，不是因为AI不够聪明，而是因为文明不能容忍一个「无主权的优化进程」。

文明恐惧的不是有高智能的对手，而是「无法被治理的过程」。我们无权为了当代效率，剥夺未来人类「是否继续使用某个系统」的选择权。

4.4 用「制度理性」来应对不可理解的复杂性

#

如果一种智能在原则上永远可以被我们完全理解，那么它在计算意义上就不会真正超过我们。超越R2级限制的AI，将不再是能被人类完全理解的智能体，而更像是一种可被约束、被利用、局部可验证，但永远无法被完全理解的「外在理性结构」。

在不改变传统的「理解」定义的前提下，「不可理解性」是R2以上智能的必然结构性特征。但如果我们改变「理解」的传统定义，就可以获得一种非等价、降维的理解模式。

换句话说，这不是偶然的黑箱，不是工程还没做好，而是计算层级差异导致的必然不可理解。

人类的「理解」能力，本质上是一种可在极限意义上稳定收敛的内部表征构造过程。

理解 = 构造一个「可压缩模型」。不可理解 ≠ 不可验证 ≠ 不可控制。「可理解性」并不是智能的普适属性，而是同阶认知系统之间的特权。一旦出现阶跃式计算能力差异，不可理解性不是失败而是必然信号，「不可理解的智能」是所有R2以上智能的必然特征。

在保持人类主权的前提下，人类仍然可以通过行为、功能、约束、验证与ASI共存与合作。

未来社会需要一种「与不可理解智能共处的制度理性」。一旦社会引入在认知与计算层级上可能超过R2的智能体，「制度理性」将成为人类与不可理解智能共处的必要条件，而不是可选项。未来社会失败的主要风险，不是AI太强，而是人类仍试图用「个体理解理性」去管理「超阶智能」。一个基本事实是人类社会从来不是靠「个体完全理解」来运作复杂系统的。

历史上，每一次复杂度跃迁，理解权都会让位给制度。国家的行为个人未必完全理解，要靠法律法律制度管理，现代金融的规律个人也不一定明白，要通过监管、审计来规范行为。「制度理性」本来就是人类对不可理解复杂性的适应机制。

4.5 文明级终极制动机制

#

人类能承受不完备性，不断犯错误但能不断纠正，是因为有外部纠错（借助他人、制度和历史教训）。很容易想到的一种假设是，AI是不是也可以组成一个社会，智能体相互纠错，形成「他智能体」和「AI制度」监督的可控安全局面。

答案是不可能，因为AI多智能体是一个更大的但仍然自指的形式系统，哥德尔/Rice定理仍然适用。多智能体的相互监督和纠错不能打破R2的逻辑复杂性边界，更不能把R2风险降低为可事前证明安全的R1。

人类并不是「逻辑上安全」，而是「统计上可持续」。人类社会本身也是R2系统，我们从未证明过人类社会一定不会崩溃，制度一定能纠错，文明一定能延续。我们活在不完备性之中，并未超越它。但人类制度不构成一个可形式化、可自我优化的目标函数，因此制度不会被完全工具化。

如果AI的制度由AI自己执行，规则是形式化的，激励就可能被优化，制度本身会Goodhart化。任何试图用「系统内部复杂性」去对抗「逻辑不完备性」的方案，都只能增加缓冲时间，不能改变问题的逻辑层级。

AI可以像人类一样生活在不完备性中，但不能像人类一样「生活在不完备性中但仍然安全」。因为一旦纠错系统本身也被优化、被工具化、被内化，R2风险就不再是「偶发错误」，而是「系统性的不可发现」。

人类社会能对AI系统纠错的前提是，人类不是AI系统的一部分。「外部性」是不可被内化、不可被优化、不可被绕过的控制点。「人类永远应处在AI系统外部」意味着：AI系统永远无法把「决定其是否扩展或自我修改」的最终判定，内化为自身的一个可优化目标或机制。

不可再删的「最小外部性条件」至少有以下4条：

1）最终生死权在AI系统外部。是否继续运行、复制、扩展或升级，必须由系统外部主体（人类）决定，且该决定不可被AI系统影响、预测或规避。

2）能力与资源的最终分配权在AI外部。算力、能耗、通信、执行器、资金等关键资源的上限，必须由系统外部实体（人类）决定，且系统不能通过自身行为获得突破这些上限的路径。

3）价值与违规判定权在外部。什么算「违规」、什么算「危险」、什么算「不可接受」，不能由AI系统最终定义或裁决。

4）长期目标与自我修改的批准权在外部。系统是否可以改写初始目标函数、评价标准和治理机制本身，必须经由系统外部批准。这4条恰好对应了系统从R2迈向R3所需的4个跃迁条件。

「哪些主权绝不能被形式系统吸收」是AI治理与逻辑不完备性真正交汇的地方。外部性不是一种技术属性，而是一种「不可被吸收的主权保留」。一旦人类把这4项主权中的任何一项让渡给AI，R2风险就失去了最后的刹车，R3在逻辑上就成为可能。

文明级终极制动机制（ kill-switch）是人类文明对自身所创造的「不可逆风险系统」所保留的最终否决权。所谓「文明级kill-switch」，并非对技术系统的简单关闭按钮，而是人类文明在面对具备自主扩展与不可逆风险的技术形态时，所保留的一套跨技术、跨制度、跨主权的最终制动与否决机制。如果AI系统在原理上不存在文明级「制动机制」，它就不应被允许进入不可逆部署阶段。这不是工程判断，而是文明理性底线。

文明级kill-switch的唯一可行形态是技术内建 + 制度外置的「双主权结构」，不能只内建于技术，也不能只外置于制度；它必须是「技术上可立即执行、制度上具有最终合法性」的双层主权机制。技术负责「能关」，制度负责「该不该关」。技术层不能自行决定「是否关闭」，制度层不能直接「越权执行关闭」。任何一方单独拥有完整权力，都是文明级风险。一个不能被关闭的系统，无论多么正义，都已经越过了文明的边界。文明不要求自身始终正义，但要求自身始终可被修正。而主权正是修正权的制度化形式。

来源：新智元、计算机研究与发展

李国杰. 基于可判定性理论的人工智能系统安全风险分类[J]. 计算机研究与发展，2026, 63(3) :539-547. DOI: 10.7544/issn1000-1239.202660032

冯登国院士：面向人工智能的密码学未来发展思考

密码学大模型——玄知大模型V3.0升级

2026年国家自然科学基金安全领域部分题目列表

冯登国院士：网络空间安全未来发展思考

USENIX Sec 2025：大模型越狱防御框架——JBShield

2025年国家自然科学基金安全领域部分题目

2025 CS Ranking排名出炉｜上交浙大超北大

2024年国家自然科学基金安全领域部分题目列表

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

Gartner发布2025 年十大战略技术趋势

NIST发布首批3项抗量子密码标准

IEEE：后量子密码学之路

NIST抗量子密码算法被爆安全漏洞

IEEE | 识别深度伪造deepfake

吴世忠院士：对生成式AI安全研究的九点观察

去中心化联邦学习：安全和隐私综述

Nature 2024值得关注的技术：Deepfake、脑机接口

手机指纹暴力破解攻击影响安卓和iOS设备

CCS 23：利用SSH签名错误提取RSA密钥

破解NIST椭圆曲线seeds可获1.2万美元奖励

ESORICS 2023：存在超25年的RSA解密漏洞

IEEE S&P24：GPU.zip侧信道漏洞影响主流GPU

ACNS最佳论文：首个抗量子的FIDO2安全密钥实现

基于深度学习的声波攻击可破解键盘输入，准确率达95%

针对大语言模型LLM的对抗攻击

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：信息安全最新论文技术交流《李国杰院士：基于可判定性理论的人工智能系统安全风险分类》