谢赛宁的研究团队成功克服了高斯散射内存限制，实现了并行计算方案，从而能够运用多块显卡进行同步训练。

编辑日期：2024年07月10日

谢赛宁团队与NYU系统实验室携手打破了高斯喷溅模型训练的内存障碍！

他们创新性地实施了并行策略，开发出适用于多张显卡的高斯喷溅模型训练方法，从而摆脱了单卡内存的束缚。

采用这种技术，在4块显卡上训练可实现超过3.5倍的加速；若扩展至32块显卡，速度更可额外提升6.8倍。

该团队推出的Grendel分布式训练系统，由清华姚班校友赵和旭担任主要作者。借助多卡训练，不仅提升了速度，还在大范围、高清晰度场景下突破了内存限制，生成更多高质量的高斯3D效果。

谢赛宁本人以一个表情包表达了这一成就的重要性：（哭泣的脸）—— 不！无法扩大3D高斯喷溅的规模，因为对计算力和内存的需求太过庞大。 GPU则以沉默回应，仿佛在微笑。

网友们戏谑道，这下黄老板的股票恐怕又要上涨了。

多卡并行技术突破了单卡计算力和内存的瓶颈，使Grendel能胜任处理大规模、高复杂度场景的渲染任务，支持更多的高斯粒子数量。

在Rubble的超高清4K环境和MatrixCity的1080p复杂世界中，Grendel运用高达4000万及2400万个高斯粒子，创造出逼真的渲染图像，细节丰富且连贯一致。即使在镜头逐渐逼近的动态视图中，Grendel的表现依然出色。

在Mip360和TT&DB的数据集中，经过4块显卡批量训练后的渲染效果（以PSNR衡量）几乎等同于单卡训练，这证实了Grendel在多卡并行处理中的高效性能。同时，它在这两个数据集上实现了3至4倍的速度增益，兼顾了效率和质量。

特别是在处理4K场景时，单卡训练往往速度缓慢且易遭内存限制，而Grendel的多卡并行策略则显著提升了训练速度，实现了质的飞跃。

此外，Grendel通过扩大批量处理大小和实施动态负载均衡，有效利用多GPU资源，减少了计算资源的浪费。在Mip-NeRF360数据集上，通过增加批量和优化负载，Grendel将4卡并行的加速效果从2倍提升至接近4倍，展现出强大的性能优化能力。

Grendel是如何突破挑战的呢？

首先，我们要理解为什么以往没有多卡解决方案。高斯散射的计算特性与众不同，它由多个阶段组成，每个阶段的并行处理程度不一，需要不断切换。这与常规神经网络模型的一致性并行处理大相径庭，而且高斯散射并不依赖神经网络。因此，传统的针对神经网络训练的多卡并行技术（如数据并行和模型并行）无法直接应用到3D高斯散射中。此外，高斯散射训练中的多粒度交互需要大量数据交换，增加了并行化的复杂性。

Grendel为解决这些问题，将3D高斯散射的训练过程分解为三个关键步骤：高斯变换、渲染和损失计算。它采用了混合粒度的并行方法，根据不同训练阶段的特点选择合适的并行级别。在高斯变换和渲染阶段之间，Grendel利用稀疏的全对全通信，将GPU节点上的高斯粒子有选择地传输到负责渲染的其他GPU节点。由于每个像素块仅依赖于其区域内的一小部分高斯粒子，Grendel凭借空间局部性原则，仅传输相关粒子，有效减少了通信量。

研究团队在谢赛宁的带领下，成功突破了高斯散射内存限制。系统在每个GPU计算节点上，利用损失函数计算渲染流程中各项参数的梯度，并通过反向传播技术更新高斯粒子的各种属性。

接下来，系统整合所有GPU计算出的梯度，形成总体梯度，以此来更新高斯粒子的属性。此过程不断循环，直至模型达到收敛状态或完成预设的训练次数。

为了解决渲染阶段的资源分配不均问题，Grendel实现了动态负载均衡策略。在训练期间，系统监测每个像素块的渲染耗时，预测并调整负载分布，力求使GPU节点的处理时间保持均衡。

为了提升GPU效率和训练效率，Grendel支持批量训练，允许在单次迭代中并行处理多个输入图像，并依据批量大小动态调节学习率，确保训练的稳定性和有效收敛。

该研究的主要作者赵和旭，是纽约大学的计算机博士生，同时也是清华大学姚班的校友，专注于分布式机器学习领域。他在清华大学期间，曾加入孙茂松教授的NLP实验室，受到刘知远副教授的指导。此外，他还曾对一个分布式机器学习的通信问题进行优化，相关成果被MLsys2023接收。

其他三位华人合著者中，翁颢洋与赵和旭同为姚班出身；陆达瀚是纽约大学的博士生，师从谢赛宁；而李昂博士，浙大校友，目前在美国PNNL实验室工作。

赵和旭在纽约大学的指导老师，包括李金阳教授和Aurojit Panda助理教授，以及著名学者、ResNeXt的原始作者、DiT（Sora核心架构）合著者谢赛宁助理教授，都对该项目提供了指导。

谢赛宁领导的科研团队已成功突破高斯散射内存限制。相关论文可在此链接查阅：https://arxiv.org/abs/2406.18533，项目详细信息可在官方网站浏览：https://daohanlu.github.io/scaling-up-3dgs/，源代码已发布于GitHub：https://github.com/nyu-systems/Grendel-GS。

技术演示显示，只需30秒，一张图像即可转化为高质量3D模型。该技术尤其关注多模态数据的处理，确保实时应用的流畅性。此外，它还具备模型对比和单模型交互的功能。这一创新引发了网友热议，有人畅想能借此轻松制作个性化的3D手办。该技术实现了2D数据向3D场景的精确转换，兼顾控制性和几何一致性。