谢赛宁的研究团队成功克服了高斯散射内存限制,实现了并行计算方案,从而能够运用多块显卡进行同步训练。
编辑日期:2024年07月10日
谢赛宁团队与NYU系统实验室携手打破了高斯喷溅模型训练的内存障碍!
他们创新性地实施了并行策略,开发出适用于多张显卡的高斯喷溅模型训练方法,从而摆脱了单卡内存的束缚。
采用这种技术,在4块显卡上训练可实现超过3.5倍的加速;若扩展至32块显卡,速度更可额外提升6.8倍。
该团队推出的Grendel分布式训练系统,由清华姚班校友赵和旭担任主要作者。借助多卡训练,不仅提升了速度,还在大范围、高清晰度场景下突破了内存限制,生成更多高质量的高斯3D效果。
谢赛宁本人以一个表情包表达了这一成就的重要性:(哭泣的脸)—— 不!无法扩大3D高斯喷溅的规模,因为对计算力和内存的需求太过庞大。 GPU则以沉默回应,仿佛在微笑。
网友们戏谑道,这下黄老板的股票恐怕又要上涨了。
多卡并行技术突破了单卡计算力和内存的瓶颈,使Grendel能胜任处理大规模、高复杂度场景的渲染任务,支持更多的高斯粒子数量。
在Rubble的超高清4K环境和MatrixCity的1080p复杂世界中,Grendel运用高达4000万及2400万个高斯粒子,创造出逼真的渲染图像,细节丰富且连贯一致。即使在镜头逐渐逼近的动态视图中,Grendel的表现依然出色。
在Mip360和TT&DB的数据集中,经过4块显卡批量训练后的渲染效果(以PSNR衡量)几乎等同于单卡训练,这证实了Grendel在多卡并行处理中的高效性能。同时,它在这两个数据集上实现了3至4倍的速度增益,兼顾了效率和质量。
特别是在处理4K场景时,单卡训练往往速度缓慢且易遭内存限制,而Grendel的多卡并行策略则显著提升了训练速度,实现了质的飞跃。
此外,Grendel通过扩大批量处理大小和实施动态负载均衡,有效利用多GPU资源,减少了计算资源的浪费。在Mip-NeRF360数据集上,通过增加批量和优化负载,Grendel将4卡并行的加速效果从2倍提升至接近4倍,展现出强大的性能优化能力。
Grendel是如何突破挑战的呢?
首先,我们要理解为什么以往没有多卡解决方案。高斯散射的计算特性与众不同,它由多个阶段组成,每个阶段的并行处理程度不一,需要不断切换。这与常规神经网络模型的一致性并行处理大相径庭,而且高斯散射并不依赖神经网络。因此,传统的针对神经网络训练的多卡并行技术(如数据并行和模型并行)无法直接应用到3D高斯散射中。此外,高斯散射训练中的多粒度交互需要大量数据交换,增加了并行化的复杂性。
Grendel为解决这些问题,将3D高斯散射的训练过程分解为三个关键步骤:高斯变换、渲染和损失计算。它采用了混合粒度的并行方法,根据不同训练阶段的特点选择合适的并行级别。在高斯变换和渲染阶段之间,Grendel利用稀疏的全对全通信,将GPU节点上的高斯粒子有选择地传输到负责渲染的其他GPU节点。由于每个像素块仅依赖于其区域内的一小部分高斯粒子,Grendel凭借空间局部性原则,仅传输相关粒子,有效减少了通信量。
研究团队在谢赛宁的带领下,成功突破了高斯散射内存限制。系统在每个GPU计算节点上,利用损失函数计算渲染流程中各项参数的梯度,并通过反向传播技术更新高斯粒子的各种属性。
接下来,系统整合所有GPU计算出的梯度,形成总体梯度,以此来更新高斯粒子的属性。此过程不断循环,直至模型达到收敛状态或完成预设的训练次数。
为了解决渲染阶段的资源分配不均问题,Grendel实现了动态负载均衡策略。在训练期间,系统监测每个像素块的渲染耗时,预测并调整负载分布,力求使GPU节点的处理时间保持均衡。
为了提升GPU效率和训练效率,Grendel支持批量训练,允许在单次迭代中并行处理多个输入图像,并依据批量大小动态调节学习率,确保训练的稳定性和有效收敛。
该研究的主要作者赵和旭,是纽约大学的计算机博士生,同时也是清华大学姚班的校友,专注于分布式机器学习领域。他在清华大学期间,曾加入孙茂松教授的NLP实验室,受到刘知远副教授的指导。此外,他还曾对一个分布式机器学习的通信问题进行优化,相关成果被MLsys2023接收。
其他三位华人合著者中,翁颢洋与赵和旭同为姚班出身;陆达瀚是纽约大学的博士生,师从谢赛宁;而李昂博士,浙大校友,目前在美国PNNL实验室工作。
赵和旭在纽约大学的指导老师,包括李金阳教授和Aurojit Panda助理教授,以及著名学者、ResNeXt的原始作者、DiT(Sora核心架构)合著者谢赛宁助理教授,都对该项目提供了指导。
谢赛宁领导的科研团队已成功突破高斯散射内存限制。相关论文可在此链接查阅:https://arxiv.org/abs/2406.18533,项目详细信息可在官方网站浏览:https://daohanlu.github.io/scaling-up-3dgs/,源代码已发布于GitHub:https://github.com/nyu-systems/Grendel-GS。
技术演示显示,只需30秒,一张图像即可转化为高质量3D模型。该技术尤其关注多模态数据的处理,确保实时应用的流畅性。此外,它还具备模型对比和单模型交互的功能。这一创新引发了网友热议,有人畅想能借此轻松制作个性化的3D手办。该技术实现了2D数据向3D场景的精确转换,兼顾控制性和几何一致性。