跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

国产全方位GPU集群现已到来!由“中国版英伟达”精心打造

编辑日期:2024年07月05日

国产GPU打造的超级万卡集群现已问世!

源自金磊的报道,出自凹非寺,

量子位 | 微信公众号 QbitAI

见证历史时刻,全国产GPU构建的完整功能集群降临!

这款GPU全面支持CUDA,开创国内先河。

img

这个超级工程汇聚了过万个高性能GPU,其计算能力究竟达到何种惊人程度?

不再保留悬念,直接告诉你答案:

总计算力破万P,专门针对拥有万亿级别参数的庞大复杂模型进行训练。

img

其独特之处不仅限于规模,还包括众多引人注目的方面:

img

在中国,摩尔线程被誉为“中国的英伟达”,其最新的智算中心全方位解决方案夸娥(KUAE)已实现重大升级,展现出全新的应用模式。今年初至今,国内计算能力的竞争日益激烈,众多行业巨头纷纷宣布构建万卡级别的GPU集群,形成了一场壮观的“集体竞赛”。

然而,国产GPU在万卡级别的应用实属罕见。如今,随着以生成式AI为主流的大模型盛行,Scaling Law的效应依然显著,GPT-4这样的模型训练需要高达25000个GPU。同时,大模型的架构不再局限于Transformer,正向着多元化发展;AI、3D和HPC等技术领域的交融也在加速推进。

这些变化对计算能力的需求提出了更高、更复杂且更多元的挑战。万卡GPU集群已成为大模型开发者的基本配置,有力地推动了国产GPU步入“万卡时代”。正如摩尔线程的创始人兼CEO张建中所言:

我们正身处生成式人工智能的黄金时期,技术的交织催生出智慧的爆发,GPU成为了驱动新技术浪潮的关键动力。

夸娥万卡智算集群作为摩尔线程全面AI战略的重要组成部分,能为各行业的数字化转型提供强大的计算力支持。摩尔线程致力于解决最具挑战性的问题,协助国家和行业克服大规模计算能力的短缺难题。

img

摩尔线程在不久前公开了千卡集群的消息,那么它是如何迅速跻身“万卡俱乐部”的先驱者呢?

在探讨实现途径之前,我们首先需要明确标准:究竟怎样的万卡集群才能被视为高效实用?

针对这一问题,张建中根据当前的形势分析,提出了一条适用于现今计算能力需求的“实用公式”:

实用 = 规模宏大 + 计算普适 + 生态融合

img

全新夸娥(KUAE)万卡集群具备五大显著特性。首要特征是其惊人的超大规模计算能力,单个集群已超越一万卡,浮点运算性能高达10艾克斯(10Exa-Flops)。此外,它在GPU内存和传输速度上也表现出色,内存容量及卡间、节点间的总带宽均达到PB级别,实现了计算力、内存和带宽的综合协同优化,从而显著提升集群计算效能。

其次,高效能的关键在于有效的计算效率(MFU)。作为评估大型模型训练效率的标准,夸娥(KUAE)万卡集群通过深度优化系统软件、框架和算法,MFU值最高可达60%,确保了大型模型训练的高效运行。这其中包括采用尖端技术提升计算与通信效率,以及支持灵活的并行策略和显存管理,以适应不同应用需求。

对于长期稳定运行的需求,夸娥(KUAE)万卡集群表现卓越,平均无故障运行时间超过15天,最长可持续稳定训练大型模型30天以上,力求实现每周99%的训练有效性。这一高标准的可靠性得益于摩尔线程的自主创新,包括多级可预测和可诊断的可靠性机制。

最后,集群的普适性和生态系统兼容性至关重要。夸娥(KUAE)万卡集群致力于提供广泛适用性和良好的生态环境,以满足多样化的用户需求。

据悉,夸娥(KUAE)万卡集群是针对通用计算任务精心设计的,它能够有效地为各种架构和模态的大型模型如LLM、MoE、多模态及Mamba等提供性能优化和加速服务。

img

此外,该系统采用了高性能且易于上手的MUSA编程语言,完全与CUDA兼容。借助自动迁移工具Musify,能够实现模型的“Day0”快速迁移,确保无缝对接现有生态系统,进而助力客户迅速开展业务部署。

img

img

诚然,摩尔线程成功突破了万卡集群的壁垒,但这并非易事,正如张建中所言,从千卡跃升至万卡,挑战的复杂性呈指数级增长,其难度堪比征服珠穆朗玛峰。在这个过程中,需要解决超大规模网络互联的重重难关,包括参数面、数据面、业务面和管理面的网络部署。尤其是参数面网络,对万卡集群的要求极为苛刻。此外,集群的计算效率也是一个挑战,因为集群规模扩大并不直接等同于算力线性增长,还受限于芯片效能、内存访问速度、卡间通信带宽以及分布式并行策略等因素。同时,还要确保训练的稳定性、故障诊断、生态迁移和通用计算适应性。这一切都表明,这是一个牵一发而动全身的复杂工程。

那么,为何摩尔线程执意要迎接这样的挑战呢?答案在于当前AI模型以“一日千里”的速度迭代,现有的千卡集群已无法满足需求。因此,拥有万卡集群成为主流大模型开发者保持竞争优势的关键。为了跟上模型快速更新的步伐,他们通常每两周就要进行一次迭代。摩尔线程的目标是构建一个万卡集群为基础的全方位解决方案,打造一个大模型训练的超级工厂,以匹配这种飞速变化的算力需求。

至于摩尔线程如何实现这一壮举,这并非一朝一夕之功。它背后是长期的努力和积累,逐步克服了技术上的重重难关。

早在2022年,团队已确定构建集群的宏伟蓝图和策略,这主要源于A100算力短缺,中国市场迫切需求替代方案。在GPU性能领域,摩尔线程是唯一能与英伟达相抗衡的国内厂商。

2023年大模型的盛行进一步证实了这一集群策略的明智性。正如黄仁勋在推出B200时所说,“我们需要更强大的GPU,若无法增大单片GPU,那就组合多个,形成更大的虚拟GPU”。

摩尔线程为此做了充分的准备,如今回顾,其当初的策略和抉择无疑具有远见卓识。至于市场接纳度,一张图表在这次活动中揭示了一切。

img

概括地说,摩尔线程的历史轨迹清晰地显示出它始终引领并创新着国产GPU的进步;这一次,它再次不出所料地赢得了“国内首例”的荣誉。至于全新升级的万卡方案能否抓住高端计算力市场的机遇,这将由市场来验证。

img

img

近年来,英伟达的数据中心业务呈现出强劲的增长态势,逐步接替专业可视化业务,成为公司收入的第二大支柱,并且与游戏业务的营收差距日益减小。

img

令人意外的是,RTX 4090 的性能价格比竟显得更为优越。

img

一场必胜的诉讼

img

img

使肖像雕塑流露出生动的表情,仿佛在眨眼示意

以上全文,欢迎继续阅读学习

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析