国产全方位GPU集群现已到来！由“中国版英伟达”精心打造

编辑日期：2024年07月05日

国产GPU打造的超级万卡集群现已问世！

源自金磊的报道，出自凹非寺，

量子位 | 微信公众号 QbitAI

见证历史时刻，全国产GPU构建的完整功能集群降临！

这款GPU全面支持CUDA，开创国内先河。

这个超级工程汇聚了过万个高性能GPU，其计算能力究竟达到何种惊人程度？

不再保留悬念，直接告诉你答案：

总计算力破万P，专门针对拥有万亿级别参数的庞大复杂模型进行训练。

其独特之处不仅限于规模，还包括众多引人注目的方面：

在中国，摩尔线程被誉为“中国的英伟达”，其最新的智算中心全方位解决方案夸娥（KUAE）已实现重大升级，展现出全新的应用模式。今年初至今，国内计算能力的竞争日益激烈，众多行业巨头纷纷宣布构建万卡级别的GPU集群，形成了一场壮观的“集体竞赛”。

然而，国产GPU在万卡级别的应用实属罕见。如今，随着以生成式AI为主流的大模型盛行，Scaling Law的效应依然显著，GPT-4这样的模型训练需要高达25000个GPU。同时，大模型的架构不再局限于Transformer，正向着多元化发展；AI、3D和HPC等技术领域的交融也在加速推进。

这些变化对计算能力的需求提出了更高、更复杂且更多元的挑战。万卡GPU集群已成为大模型开发者的基本配置，有力地推动了国产GPU步入“万卡时代”。正如摩尔线程的创始人兼CEO张建中所言：

我们正身处生成式人工智能的黄金时期，技术的交织催生出智慧的爆发，GPU成为了驱动新技术浪潮的关键动力。

夸娥万卡智算集群作为摩尔线程全面AI战略的重要组成部分，能为各行业的数字化转型提供强大的计算力支持。摩尔线程致力于解决最具挑战性的问题，协助国家和行业克服大规模计算能力的短缺难题。

摩尔线程在不久前公开了千卡集群的消息，那么它是如何迅速跻身“万卡俱乐部”的先驱者呢？

在探讨实现途径之前，我们首先需要明确标准：究竟怎样的万卡集群才能被视为高效实用？

针对这一问题，张建中根据当前的形势分析，提出了一条适用于现今计算能力需求的“实用公式”：

实用 = 规模宏大 + 计算普适 + 生态融合

全新夸娥（KUAE）万卡集群具备五大显著特性。首要特征是其惊人的超大规模计算能力，单个集群已超越一万卡，浮点运算性能高达10艾克斯（10Exa-Flops）。此外，它在GPU内存和传输速度上也表现出色，内存容量及卡间、节点间的总带宽均达到PB级别，实现了计算力、内存和带宽的综合协同优化，从而显著提升集群计算效能。

其次，高效能的关键在于有效的计算效率（MFU）。作为评估大型模型训练效率的标准，夸娥（KUAE）万卡集群通过深度优化系统软件、框架和算法，MFU值最高可达60%，确保了大型模型训练的高效运行。这其中包括采用尖端技术提升计算与通信效率，以及支持灵活的并行策略和显存管理，以适应不同应用需求。

对于长期稳定运行的需求，夸娥（KUAE）万卡集群表现卓越，平均无故障运行时间超过15天，最长可持续稳定训练大型模型30天以上，力求实现每周99%的训练有效性。这一高标准的可靠性得益于摩尔线程的自主创新，包括多级可预测和可诊断的可靠性机制。

最后，集群的普适性和生态系统兼容性至关重要。夸娥（KUAE）万卡集群致力于提供广泛适用性和良好的生态环境，以满足多样化的用户需求。

据悉，夸娥（KUAE）万卡集群是针对通用计算任务精心设计的，它能够有效地为各种架构和模态的大型模型如LLM、MoE、多模态及Mamba等提供性能优化和加速服务。

此外，该系统采用了高性能且易于上手的MUSA编程语言，完全与CUDA兼容。借助自动迁移工具Musify，能够实现模型的“Day0”快速迁移，确保无缝对接现有生态系统，进而助力客户迅速开展业务部署。

诚然，摩尔线程成功突破了万卡集群的壁垒，但这并非易事，正如张建中所言，从千卡跃升至万卡，挑战的复杂性呈指数级增长，其难度堪比征服珠穆朗玛峰。在这个过程中，需要解决超大规模网络互联的重重难关，包括参数面、数据面、业务面和管理面的网络部署。尤其是参数面网络，对万卡集群的要求极为苛刻。此外，集群的计算效率也是一个挑战，因为集群规模扩大并不直接等同于算力线性增长，还受限于芯片效能、内存访问速度、卡间通信带宽以及分布式并行策略等因素。同时，还要确保训练的稳定性、故障诊断、生态迁移和通用计算适应性。这一切都表明，这是一个牵一发而动全身的复杂工程。

那么，为何摩尔线程执意要迎接这样的挑战呢？答案在于当前AI模型以“一日千里”的速度迭代，现有的千卡集群已无法满足需求。因此，拥有万卡集群成为主流大模型开发者保持竞争优势的关键。为了跟上模型快速更新的步伐，他们通常每两周就要进行一次迭代。摩尔线程的目标是构建一个万卡集群为基础的全方位解决方案，打造一个大模型训练的超级工厂，以匹配这种飞速变化的算力需求。

至于摩尔线程如何实现这一壮举，这并非一朝一夕之功。它背后是长期的努力和积累，逐步克服了技术上的重重难关。

早在2022年，团队已确定构建集群的宏伟蓝图和策略，这主要源于A100算力短缺，中国市场迫切需求替代方案。在GPU性能领域，摩尔线程是唯一能与英伟达相抗衡的国内厂商。

2023年大模型的盛行进一步证实了这一集群策略的明智性。正如黄仁勋在推出B200时所说，“我们需要更强大的GPU，若无法增大单片GPU，那就组合多个，形成更大的虚拟GPU”。

摩尔线程为此做了充分的准备，如今回顾，其当初的策略和抉择无疑具有远见卓识。至于市场接纳度，一张图表在这次活动中揭示了一切。