Meta在训练Llama 3时频繁遇到问题:每3小时,拥有16384块H100 GPU的训练集群就会出现一次故障。
编辑日期:2024年07月28日
由于系统的庞大规模和任务的高度同步性,任何一个显卡的故障都可能会导致整个训练过程中断,进而需要从头开始。即便存在这样的风险,Meta团队依然保持了超过90%的有效训练时间。
请注意,在54天的预训练期间,总共发生了466次工作中断,其中包括47次计划内中断和419次意外中断。计划内中断是由自动化维护引起的,而意外中断主要源于硬件问题。GPU问题是最主要的故障原因,占意外中断的58.7%。其中仅有三次事件需要大量的人工干预,其余均由自动化系统处理。
在419次意外中断中,有148次(占30.1%)是由各种GPU故障(包括NVLink故障)引发的,而由GPU的HBM3内存故障导致的则有72次(占17.2%)。有趣的是,在54天内仅有两例CPU故障。41.3%的意外中断是由多种因素导致的,其中包括软件错误、网络线缆及网络适配器问题。
为了提升效率,Meta团队研发了一系列工具和优化策略,其中包括减少任务启动与检查点的时间、运用PyTorch的NCCL飞行记录器来诊断性能问题、识别拖慢进度的显卡等。同时,Meta也注意到环境因素所带来的影响,比如中午时分温度变化对GPU性能产生的微小影响,以及大量GPU同时运作给数据中心的电力系统带来的巨大负担。
然而,随着人工智能模型的参数数量不断增长,所需的计算资源也相应增加。以xAI计划中使用10万张H100显卡组成的集群为例,故障率可能会大幅度上升,这将给未来的人工智能训练带来更大的挑战。
大家在看
AI安装教程
AI本地安装教程
微软AI大模型通识教程
微软AI大模型通识教程
AI大模型入门教程
AI大模型入门教程
Python入门教程
Python入门教程
Python进阶教程
Python进阶教程
Python小例子200道练习题
Python小例子200道练习题
Python练手项目
Python练手项目
Python从零在线练习题
Python从零到一60题