小而强大,NVIDIA通过剪枝、蒸馏技术推出Llama-3.1-Minitron 4B AI模型。
编辑日期:2024年08月17日
Llama-3.1-Minitron 4B 模型是基于 Llama-3.1-Minitron 8B 模型,通过蒸馏方式获得的。在此过程中,英伟达采用了在深度和宽度上进行结构化剪枝的技术。
注:剪枝是一种技术,通过移除网络中相对不重要的层或神经元来减少模型的大小和复杂度,同时保持其原有的性能。
英伟达通过从模型中移除16层进行了深度剪枝,从而将8B模型缩减至4B模型。此外,还采用了一种技术来进行宽度剪枝,即通过削减嵌入维度和MLP中间层来进行修剪。
除了进行剪枝之外,Nvidia 还运用了经典蒸馏技术来提升 Llama-3.1-Minitron 4B 的效率。
知识蒸馏是一种过程,其中,较小的模型(即学生)被训练来模仿一个较大且更复杂模型(即教师)的行为。通过这种方法,较小的模型保留了原模型大部分的预测能力,同时运行更快速,也更节省资源。
英伟达将此技术与蒸馏技术和剪枝技术结合使用,以确保重新训练的4B模型具有出色的性能,并能在更大规模的模型中得到良好应用。