2025-12-25 03:04:54 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文基于Llama3等大模型训练案例，分析了大规模GPU集群面临的可靠性危机。指出硬件故障如GPU掉卡、ECC错误及网络问题导致训练频繁中断。为应对挑战，文章提出了硬件验证、实时故障检测及检查恢复三种策略，并呼吁业界建立有效训练时间等共识标准以提升基础设施稳定性。 综合评分： 88 文章分类： AI安全,安全建设

cover_image

从 Llama 3 的训练了解大规模 AI 基础设施的可靠性

原创

Avenger

威胁棱镜

2025年12月23日 09:01 北京

工作来源

DSN 2025

Large-Scale AI Infra Reliability: Challenges, Strategies, and Llama 3 Training Experience

工作背景

规模效应带来了可靠性危机，大模型的训练要用到成千上万个 GPU 组成的庞大集群，例如 Llama 3 405B 模型就是 Meta 在一万六千张 GPU 的集群上训练的。GPU 集群要高度互联且同步运行，单卡故障可能影响整体的训练任务。在各家的信息披露中，网络故障也是被提到的主要问题之一。

Meta 在 16384 张 H100 GPU 上训练 405B 的 Llama 3 时，54 天里遇到 466 次故障中断。其中最常见的问题就是 GPU 故障：

阿里巴巴在 H800 GPU 上进行训练，消耗资源最多的 5% 任务失败率高达 43.4%，最常见的问题是 NCCL Timeout：

工作准备

Llama 3 在一万六千余张 H100 GPU 上进⾏训练，每个 GPU 配备 80GB HBM3 显存，使⽤ Meta 的 Grand Teton AI 平台。每台服务器配备 8 个 GPU 和 2 个 CPU。在同⼀台服务器内，8 个 GPU 通过 NVLink 连接。

工作评估

硬件中断的趋势和总体中断的趋势高度吻合，硬件故障是导致训练中断的主要原因。（注：异常尖峰是可修复的软件问题）

用于训练的服务器中平均每日每千台服务器中断 4.5 次，硬件导致的中断占 50%。

GPU 相关的问题最常见的是“掉卡（GPU 从总线上消失）”、“ECC 内存错误”、“时钟频率节流（单个 GPU 时钟被压制后拖慢所有 GPU）”，其他错误感兴趣的读者请移步原文。

可靠性增强的三种策略：

1、硬件验证：在训练任务开始前或系统空闲时，通过一系列测试来主动发现有问题的硬件，防患于未然。Google 在 TPU 上会执行检查，微软开发了基准测试集合，字节跳动会执行轻量级诊断测试。

2、故障检测：在任务运行时，快速、实时地检测硬件故障，以便尽快恢复。使用 NVIDIA DCGM 工具集来监控 GPU 的温度、功耗、内存使用等，各家也在开发各种工具检测缓解静默数据损坏/SDC 等错误。

3、检查恢复：定期保存训练状态（检查点），在发生故障后可以从最近的检查点恢复，而不是从头开始。微软 DeepSpeed、字节跳动 MegaScale 都使用所有节点同步暂停保存状态的方式，而 Acme 采用各节点独立保存检查点的方式。

工作思考

在超大规模集群上训练大模型，对可靠性提出了巨大挑战。各家的监控指标不同，Meta 内部发现有效训练时间（ETT）和 Goodput 这类指标更有用，业界也急需建立一套共识标准。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：威胁棱镜 Avenger《从 Llama 3 的训练了解大规模 AI 基础设施的可靠性》