五角大楼启动“神秘仓库”项目,为AI上战场立规矩

admin 2026-03-12 23:04:15 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文章介绍了五角大楼’神秘仓库’项目,旨在建立供应商中立的AI评估基础设施,为军事AI应用设立’安检门’。项目包含评估工具开发和基准方法论两大方向,强调在恶劣条件下测试AI可靠性、人机协作效能和对抗性测试。文章指出AI军事化需建立科学评估体系,对中国具有启示意义。 综合评分: 80 文章分类: AI安全,安全建设,解决方案,政策法规


cover_image

五角大楼启动“神秘仓库”项目,为AI上战场立规矩

原创

网空闲话 网空闲话

网空闲话plus

2026年3月12日 06:40 北京

当美军中央司令部司令在“史诗狂怒行动”中高调宣扬人工智能将决策时间从“数小时压缩至几秒”时,一个根本性问题也随之浮出水面:这些在战场上大显神威的AI系统,究竟是否可靠?能否在极端条件下稳定运行?当美军同时使用帕兰蒂尔、Anthropic、OpenAI等多个供应商的算法时,军方如何确保评判标准的统一与公正?如果AI系统在实战中“失灵”,责任该由谁承担?

2026年3月11日,五角大楼国防创新部门(DIU)与国家情报总监办公室(ODNI)联合发布了一份名为“MYSTIC DEPOT”(神秘仓库)的项目招标书,正式向业界寻求答案。这个带有冷战色彩的项目,旨在为美国战争部(DoW,即国防部的新代称)和情报界打造一套“供应商中立”的AI评估基础设施,为算法大规模进入战场之前,设立一道至关重要的“安检门”。

技术狂奔时代的“质检”焦虑

随着生成式人工智能和智能体技术的爆发式发展,五角大楼高层——国防部长皮特·赫格塞斯和首席技术官埃米尔·迈克尔——正在敦促各部门加速将AI整合到作战及后台职能中。然而,技术的飞速迭代带来了新的治理难题:军方采购AI系统时,依赖供应商提供的测试数据,但这些测试往往针对供应商自身模型优化,缺乏统一的、可复现的第三方验证。

招标文件开篇即点明核心痛点:“随着人工智能能力的飞速发展,政府需要能够跟上步伐的评估基础设施,以便在新模型发布时,能根据任务特定基准对其进行持续评估。”

更复杂的是,未来的战争形态将是“人机协作”。评估不能只看AI单打独斗的能力,更要衡量“人类+AI”组成的团队是否比单纯的人类或单纯的AI能取得更好的任务成果。同时,AI系统正在从被动的模型进化为主动的智能体——它们会使用工具、访问系统、执行多步骤任务。评估必须从单纯的“模型输出”,扩展到对“智能体行为”的全面考量,包括任务完成是否正确、安全,工具使用是否得当,以及行为是否具备可审计性。

“神秘仓库”项目,正是在这一背景下应运而生。它不仅是技术测试工具,更是五角大楼为AI军事化应用设立的一套“游戏规则”。

“神秘仓库”解剖:两大核心工作方向

根据招标公告,“神秘仓库”项目包含两大工作方向(LOE),供应商可选择参与其中一个或全部。项目通过商业解决方案开放(CSO)合同机制发布,响应截止日期为2026年3月24日。

LOE 1:评估工具——AI的“万能插座”与“压力测试仪”

这一方向寻求的是一个“评估工具”,即一套集成了执行环境、工具和方法论的统一基础设施。它就像一个“万能插座”,能够连接任何供应商的任何模型,并对其进行标准化测试。

这套工具必须具备以下关键能力:

  • 模块化接口:能够连接不同类型的AI系统,无论是大语言模型还是专用算法,采用“即插即用”的架构。
  • 执行引擎:协调复杂评估流程,在不同模型和环境配置下运行测试。
  • 人因评估集成:支持领域专家介入审查,量化对比“纯人工”“纯AI”和“人机协作”三种模式下的人类工作量、可用性和任务绩效。这是对“人机团队”效能的直接度量。
  • 恶劣条件模拟:这是最贴近实战的功能之一。工具需能在受控环境中模拟“作战压力和网络降级”,以测试AI在“任务关键型受限、降级、间歇性或有限”(DDIL)环境下的生存能力和表现。换句话说,它要测试AI在被干扰、断网或带宽受限时,会不会“死机”或“失控”。
  • 智能体评估:跟踪AI智能体的每一步操作、每一次工具调用,确保多步骤任务执行的准确性和安全性,并保留完整的审计追踪。
  • 对抗性AI测试:支持自动化红队演练,能够自动执行对抗性提示和攻击模式,评估AI在面对恶意诱导时的鲁棒性。工具应能对各类攻击类别的鲁棒性进行评分,并以开放格式导出结果。
  • 多模态输入:支持视频、音频等跨模态数据的处理与比对。
  • 架构要求:采用模块化设计,支持独立升级和组件添加;支持容器化部署,适配政府标准编排平台;能够在非密环境、密级云环境和物理隔离环境(air-gapped)中部署,无需根本性架构变更。

LOE 2:基准开发与方法论——为“好”下定义

如果说LOE 1是“考场”,那么LOE 2就是“考卷”。这一方向寻求供应商为“非密、机密、绝密”不同层级的工作流程开发相应的测试基准,并提供可供政府审查和采纳的方法论。

基准开发的方法论必须严谨,涵盖从需求到落地的全过程:

  • 需求获取:明确特定任务场景下,究竟需要AI具备什么能力。
  • 任务分解:将复杂能力拆解为可量化的评估任务。
  • 输入设计:构建反映真实作战条件的场景,确保测试的“代表性”(反映真实作战条件)和“操作性真实感”(反映人机协作任务中的真实工作流程)。
  • 评分标准:定义什么是“好”,构建易于决策者理解且可操作的评分体系。
  • 基线建立:评估开源/开放权重模型以建立性能基线,确保公平性,不偏袒特定架构或供应商。
  • 验证:确认基准满足有效性(衡量预期能力)、可靠性(多次运行结果一致)和区分度(清晰区分不同性能水平)的标准。
  • 抗作弊设计:设计得难以通过“应试技巧”而非真实能力提升来优化分数。
  • 维护机制:基准需要随着任务需求和模型能力的变化而更新,以保持长期效用。
  • 培训材料:供应商还需提供方法论指南、实操示例、常见陷阱清单、质量保证清单和培训课程,确保政府人员能够在没有供应商持续支持的情况下独立开发和维护基准。

供应商资质要求

考虑到项目涉及国家安全,招标文件对供应商资质提出了明确要求:

  • 需符合10 U.S.C. 4022规定的其他交易协议(OTA)授标资格
  • 拥有AI评估、安全测试和基准创建方面的成熟经验
  • 优先考虑具备以下资质的供应商:发表过评估方法论或基准设计的相关研究;对行业标准框架有贡献;与前沿AI实验室有过评估合作;拥有持有有效涉密资质(至少机密级,绝密/敏感 compartmented 信息优先)的人员;在国防部或情报界环境中有过评估基础设施部署经验;熟悉情报界分析手法或国防部条令;拥有人类绩效测量评估协议设计经验。

后续生产:从原型到全面铺开

“神秘仓库”项目的野心远不止于原型开发。招标文件明确指出,根据10 U.S.C. 4022(f)条款,一旦原型验证成功完成,将可能直接进入后续生产阶段,且不再进行竞争性招标。后续生产合同可能“远大于原型合同”,具体包括:

  • 在不同密级和环境中的大规模部署;
  • 针对更多任务领域的基准套件扩展;
  • 持续的维护、安全更新和能力增强;
  • 对政府评估人员的培训和支持。

这意味着,“神秘仓库”将成为五角大楼和情报界未来所有AI项目采购前的“必经关卡”。任何想要挤进军用市场的AI供应商——无论是帕兰蒂尔、Anthropic、OpenAI,还是其他新兴公司——都必须先通过这套体系的检验,才能获得“上岗资格”。

结论:算法战争的“安检门”与对中国的启示

当“史诗狂怒行动”向世界展示了AI驱动战争的惊人效率时,“神秘仓库”项目则揭示了其背后冷静的另一面:如何确保这种力量不被滥用,不在关键时刻失效,不因供应商的差异而产生不可预测的风险。

五角大楼显然意识到,在拥抱“机器速度”的同时,必须建立起与之匹配的“评估速度”和“治理框架”。“神秘仓库”正是这样一个“安全阀”——它不负责发明新的算法,而是为所有即将上战场的算法立下规矩:必须可靠、可控、可验证。

对于中国而言,这一项目的启示是深远的。首先,AI军事化应用已从“有没有”进入“好不好”的阶段,建立自主的、科学的AI评估体系迫在眉睫。没有标准,就无法衡量优劣;没有评估,就无法控制风险。其次,评估体系必须“供应商中立”,避免被单一企业绑定,确保国家安全命脉掌握在公共机构而非商业公司手中。再次,人机协作的效能评估应成为重点——未来的战争不是AI取代人,而是AI赋能人,如何量化这种赋能,是必须攻克的课题。最后,对抗性测试和恶劣条件模拟应当前置——不能等到战场上网络中断、遭遇干扰时才发现AI“水土不服”。

在未来的算法战争中,谁拥有最聪明的AI固然重要,但更重要的是,谁能确保自己的AI在炮火连天、网络中断的恶劣环境中,依然做出正确的判断。从这个意义上说,“神秘仓库”或许比任何一款尖端武器都更具战略价值。它正在为一个由数据和智能驱动的国防新时代,浇筑地基。而对于中国来说,类似的“地基工程”,此刻同样应该提上议事日程。

参考资源

1、https://defensescoop.com/2026/03/11/ai-system-testing-dod-intelligence-agencies/

2、DIU Submission – MYSTIC DEPOT: Vendor-Agnostic AI Evaluation Infrastructure


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:网空闲话plus 网空闲话 网空闲话《五角大楼启动“神秘仓库”项目,为AI上战场立规矩》

    暗网快讯【20260312】061期 网络安全文章

    暗网快讯【20260312】061期

    文章总结: 本文是暗网快讯第061期,汇总全球24起网络安全事件。主要涵盖印尼、以色列等多国政府与企业的大规模数据泄露,涉及银行、交通等行业。同时通报了BASH
    评论:0   参与:  0