文章总结: 本文基于Llama3等大模型训练案例,分析了大规模GPU集群面临的可靠性危机。指出硬件故障如GPU掉卡、ECC错误及网络问题导致训练频繁中断。为应对挑战,文章提出了硬件验证、实时故障检测及检查恢复三种策略,并呼吁业界建立有效训练时间等共识标准以提升基础设施稳定性。 综合评分: 88 文章分类: AI安全,安全建设
从 Llama 3 的训练了解大规模 AI 基础设施的可靠性
原创
Avenger
威胁棱镜
2025年12月23日 09:01 北京
工作来源
DSN 2025
Large-Scale AI Infra Reliability: Challenges, Strategies, and Llama 3 Training Experience
工作背景
规模效应带来了可靠性危机,大模型的训练要用到成千上万个 GPU 组成的庞大集群,例如 Llama 3 405B 模型就是 Meta 在一万六千张 GPU 的集群上训练的。GPU 集群要高度互联且同步运行,单卡故障可能影响整体的训练任务。在各家的信息披露中,网络故障也是被提到的主要问题之一。
Meta 在 16384 张 H100 GPU 上训练 405B 的 Llama 3 时,54 天里遇到 466 次故障中断。其中最常见的问题就是 GPU 故障:
阿里巴巴在 H800 GPU 上进行训练,消耗资源最多的 5% 任务失败率高达 43.4%,最常见的问题是 NCCL Timeout:
工作准备
Llama 3 在一万六千余张 H100 GPU 上进⾏训练,每个 GPU 配备 80GB HBM3 显存,使⽤ Meta 的 Grand Teton AI 平台。每台服务器配备 8 个 GPU 和 2 个 CPU。在同⼀台服务器内,8 个 GPU 通过 NVLink 连接。
工作评估
硬件中断的趋势和总体中断的趋势高度吻合,硬件故障是导致训练中断的主要原因。(注:异常尖峰是可修复的软件问题)
用于训练的服务器中平均每日每千台服务器中断 4.5 次,硬件导致的中断占 50%。
GPU 相关的问题最常见的是“掉卡(GPU 从总线上消失)”、“ECC 内存错误”、“时钟频率节流(单个 GPU 时钟被压制后拖慢所有 GPU)”,其他错误感兴趣的读者请移步原文。
可靠性增强的三种策略:
1、硬件验证:在训练任务开始前或系统空闲时,通过一系列测试来主动发现有问题的硬件,防患于未然。Google 在 TPU 上会执行检查,微软开发了基准测试集合,字节跳动会执行轻量级诊断测试。
2、故障检测:在任务运行时,快速、实时地检测硬件故障,以便尽快恢复。使用 NVIDIA DCGM 工具集来监控 GPU 的温度、功耗、内存使用等,各家也在开发各种工具检测缓解静默数据损坏/SDC 等错误。
3、检查恢复:定期保存训练状态(检查点),在发生故障后可以从最近的检查点恢复,而不是从头开始。微软 DeepSpeed、字节跳动 MegaScale 都使用所有节点同步暂停保存状态的方式,而 Acme 采用各节点独立保存检查点的方式。
工作思考
在超大规模集群上训练大模型,对可靠性提出了巨大挑战。各家的监控指标不同,Meta 内部发现有效训练时间(ETT)和 Goodput 这类指标更有用,业界也急需建立一套共识标准。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:威胁棱镜 Avenger《从 Llama 3 的训练了解大规模 AI 基础设施的可靠性》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论