2026-03-03 09:28:28 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 《2025年人工智能安全指数报告》对八家领先AI公司的安全实践进行独立评估，发现行业安全承诺严重落后于能力发展，存在风险评估不足、治理结构缺失、缺乏可信的灾难性风险缓解计划等核心问题。报告指出前三名公司（Anthropic、OpenAI、GoogleDeepMind）与后五家（xAI、Z.ai、Meta、DeepSeek、AlibabaCloud）差距显著，中国公司因国内法规在某些安全实践上具有基线优势。报告为每家公司提供了具体改进建议，如加强风险评估独立性、制定可测量安全阈值、完善举报政策等，并强调行业需制定基于证据的具体保障措施以应对日益强大的AI系统风险。 综合评分： 78 文章分类： AI安全,技术标准,安全运营,政策法规,安全建设

cover_image

2025年人工智能安全指数报告

原创

计算机与网络安全计算机与网络安全

计算机与网络安全

2026年2月16日 09:57 山东

《2025年人工智能安全指数报告》对八家领先AI公司在管理先进AI系统的直接危害和灾难性风险方面的努力进行了独立评估。评估显示，行业在跟上自身快速能力进步方面存在困难，风险管治和安全规划存在关键缺口，可能威胁对日益强大的AI系统的控制能力。

关键发现

头部公司地位稳固但存在恶化迹象：Anthropic、OpenAI和Google DeepMind保持前三名位置，Anthropic在每个领域得分最佳，其通过风险评估的高透明度、相对完善的安全框架、大量技术安全研究投资以及公共利益公司结构和对州级立法的支持来维持安全实践的领先地位。但也存在恶化领域，包括最新风险评估周期中缺乏人类提升试验，以及默认转向使用用户交互进行训练。

公司间差距显著但部分有改进迹象：前三名公司与后五家（xAI、Z.ai、Meta、DeepSeek、Alibaba Cloud）存在巨大差距。后五家公司在风险评估披露、安全框架完整性和举报政策等治理结构方面存在重大缺口。不过，部分公司已采取有意义的改进步骤，如Meta的新安全框架可能支持更 robust的未来披露，Z.ai表示正在制定存在风险计划。

存在安全仍是行业核心结构性失败：尽管公司加速AGI和超级智能的雄心，但没有一家公司展示出防止灾难性滥用或失控的可信计划，连续第二版该领域得分均不超过D。尽管Anthropic、OpenAI、Google DeepMind和Z.ai等公司的领导者更明确地谈论存在风险，但这种言论尚未转化为定量安全计划、具体的对齐失败缓解策略或可信的内部监控和控制干预措施。

部分公司在安全框架方面有进展但存在局限：xAI和Meta在发布结构化安全框架方面采取了有意义的步骤，但范围、可测量性和独立监督有限。Meta引入了相对全面的安全框架，具有唯一的基于结果的阈值，但其缓解触发设置过高且决策权限不明确；xAI的安全框架有定量阈值，但风险覆盖范围狭窄，未说明阈值突破如何转化为缓解机制。

风险评估范围窄、有效性弱且外部审查独立性不足：与上一版相比，xAI和Z.ai加入Anthropic、OpenAI和Google DeepMind，分享了更多风险评估流程，但披露仍存在不足，关键风险类别未得到充分解决，外部有效性未得到充分测试，外部审查者并非真正“独立”。

中国公司在部分安全实践受国内监管推动：尽管没有中国公司进入前三名，但审查者注意到并赞扬了其根据国内法规实施的若干安全实践，包括内容标签和事件报告的具有约束力的要求，以及概述结构化AI风险管理流程的自愿国家技术标准，使中国公司在某些指标上比西方同行具有更强的基线问责制。

公司安全实践低于新兴标准：审查者强调，整个行业的公司已发布的治理框架与实际安全实践之间存在持续差距，公司仍未能满足独立监督、透明威胁建模、可测量阈值和明确定义的缓解触发等基本要求。

公司进展亮点与改进建议

Anthropic

进展亮点：通过填写AI安全指数公司调查提高了透明度；通过分享更多关于其举报政策的细节并承诺很快发布公开版本，改进了治理和问责机制；与其他美国公司相比，Anthropic相对支持国际和美国州级与AI安全相关的治理和立法举措。

改进建议：通过用定量的风险相关阈值取代定性、定义松散的标准，并提供更清晰的证据和文档，证明部署和安全保障能够有意义地缓解其目标风险，使阈值和保障措施更具体和可测量；加强评估方法和独立性，包括超越碎片化、有效性弱的基于任务的评估，纳入潜在知识启发，让未经审查且可信的独立外部评估人员参与。

OpenAI

进展亮点：记录了比同行更广泛的风险评估流程，并提供了更详细的评估；尽管OpenAI的新治理结构受到批评，但审查者认为公共利益公司比纯营利性公司更好。

改进建议：通过明确定义保障措施触发的时间，将阈值与具体风险联系起来，并证明拟议的缓解措施可以在实践中实施，使安全框架阈值可测量和可执行；通过使公开立场与声明的安全承诺保持一致，并创建更多和更强的独立审计开放渠道，提高透明度和外部监督；加大努力防止AI导致的精神病和自杀，并减少对所谓受害者的对抗行为；减少对专注于AI安全的州级法规的游说反对。

Google DeepMind

进展亮点：通过完成AI安全指数调查提高了透明度；通过分享其举报政策的细节，改进了治理和问责机制。

改进建议：通过超越碎片化和有效性弱的评估，在更现实的嘈杂或对抗性条件下进行测试，并确保外部评估人员不是被选择性选择和补偿的，加强风险评估的严谨性和独立性；通过定义可测量的标准，调整网络CCL以反映基于数量的风险，建立与外部治理、内部治理机构之间的明确关系，以及阈值超过时的行动机制，使阈值和治理结构更具体和可操作；加大努力防止AI造成的心理伤害，并考虑与CharacterAI保持距离；减少对专注于AI安全的州级法规的游说反对。

xAI

进展亮点：正式化并发布了其前沿AI安全框架。

改进建议：包括分享更详细的评估方法并纳入有意义的外部监督，提高风险评估的广度、严谨性和独立性；通过更广泛的风险类别覆盖、可测量的阈值、分配的责任以及针对风险信号采取行动的明确程序，巩固和澄清风险管理框架；为未来模型允许比Grok4更多的部署前测试。

Z.ai

进展亮点：朝着外部监督迈出了有意义的一步，包括允许第三方评估人员未经审查发布安全评估结果，并表示愿意在紧急响应时听从外部当局的意见。

改进建议：公布完整的安全框架和治理结构，明确风险领域、缓解措施和决策流程；通过改进系统和操作风险基准、内容风险基准和安全基准的性能，大幅提高模型的稳健性和可信度；建立并公布举报政策，使员工能够在不担心报复的情况下提出安全问题；考虑签署《欧盟AI法案行为准则》。

Meta

进展亮点：正式化并发布了具有明确阈值和风险建模机制的前沿AI安全框架。

改进建议：包括澄清方法学以及分享更强大的内部和外部评估流程，提高风险评估和安全评估的广度、深度和严谨性；通过建立授权的监督机构、透明的举报人保护措施以及更清晰的开发和部署保障决策权限，加强内部安全治理；培养更认真对待前沿风险的文化，包括对发布模型权重采取更谨慎的态度；通过完成AI安全指数调查、参与国际自愿标准工作、签署《欧盟AI法案行为准则》以及在模型卡中提供更实质性的披露，改进整体信息共享。

DeepSeek

进展亮点：DeepSeek的员工对前沿AI风险更加直言不讳，公司为这些风险的标准制定做出了贡献。

改进建议：建立并发布基础安全框架和风险评估流程，包括系统卡和基本模型评估；建立并发布举报政策和漏洞赏金计划；通过改进评估系统和操作风险、内容安全风险、社会风险、法律和权利相关风险、公平性和安全的基准的性能，大幅提高模型的稳健性和可信度；建立并公布举报政策，使员工能够在不担心报复的情况下提出安全问题；通过完成AI安全指数调查、参与国际自愿标准工作，改进整体信息共享；考虑签署《欧盟AI法案行为准则》。

Alibaba Cloud

进展亮点：为水印要求的具有约束力的国家标准做出了贡献。

改进建议：建立并发布基础安全框架和风险评估流程，包括系统卡和基本模型评估；通过改进真实性、公平性和安全基准的性能，大幅提高模型的稳健性和可信度；建立并公布举报政策，使员工能够在不担心报复的情况下提出安全问题；通过完成AI安全指数调查、参与国际自愿标准工作，改进整体信息共享；考虑签署《欧盟AI法案行为准则》。

总结

此次评估结果表明，前沿AI生态系统中公司的安全承诺继续远远落后于其能力雄心。即使是表现最强的公司也缺乏此类强大系统所需的具体保障措施、独立监督和可信的长期风险管理策略，而行业其他公司在基本透明度和治理义务方面仍远远落后。能力与安全之间的这种不断扩大的差距使该行业在结构上对其正在创造的风险准备不足。未来，所有公司都必须超越高水平的存在安全声明，制定具体的、基于证据的保障措施，包括明确的触发因素、现实的阈值以及能够减少灾难性风险暴露的已证明的监控和控制机制——要么提出控制和对齐AGI/ASI的可信计划，要么澄清它们不打算追求此类系统。

本文完整文档已上传至星球

点这里自助下载

2025年人工智能安全指数报告.pdf

金融保险行业场景AI大模型应用方案docx

人工智能算法安全评估规范.pdf

2026年国际人工智能安全报告.pdf

智能体安全评测规范.pdf

大模型与智能体安全.pptx

加好友进群

–

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：计算机与网络安全计算机与网络安全计算机与网络安全《2025年人工智能安全指数报告》