DeepMind的最新策略使得训练时间大幅缩短至原来的1/13，同时计算需求下降了90%，实现了高效能训练。

编辑日期：2024年07月10日

深度学习模型的数据筛选迎来创新突破！

DeepMind团队推出了一项名为JEST的新技术，它能将AI训练时间压缩至原来的1/13，同时降低90%的计算需求。

想象一下，JEST就像一位智慧的图书馆员，从海量书籍（数据）中精心挑选出最符合读者（模型）需求的少数书籍（数据批次）。这样的精挑细选不仅让读者（模型）快速获取知识，还节约了阅读（训练）时间和精力（计算资源）。

据研究，JEST在大规模多模态预训练中表现出色，与先前最佳的SigLIP相比，减少了10倍的迭代次数和浮点运算。

这一进展引起了网友的惊叹，有人认为这将重塑AI训练的规则。

此外，有人关注到其对电力供应的影响，认为这对担忧AI能耗的电网或许是个重大利好。

那么，JEST是如何实现这一切的呢？我们来一探究竟。现有的预训练数据筛选方法往往效率低下、成本高昂，忽视了批次选择和训练过程中数据相关性变化的影响，而JEST则成功解决了这些问题，提升了多模态学习的效率。

因此，DeepMind的研究团队探索了批量选择数据而不是单独样本是否能加速多模态学习的进程。他们的发现带来了三个重要结论：

基于这些发现，JEST在仅仅使用10%的计算量下，超越了先前的最优表现。

这一突破性的成果是如何达成的呢？

团队透露，他们先前的研究已经证明，挑选出最佳的50%数据进行训练可以极大地提升计算效率。

现在，最新的研究揭示了更深度的数据过滤（高达90%）能带来更出色的性能。

关键在于三个方面：

具体来说，JEST从一个庞大的候选数据集中挑选出最优的训练批次。

在选择数据的标准上，JEST采用了RHO损失研究的见解，并结合了学习模型和预训练模型的损失来评估数据点的学习潜力。它优先选取对预训练模型来说简单，但对正在训练的模型来说具有挑战性的数据点，以优化训练效果和效率。

多模态对比学习的原理由团队成员Nikhil进一步阐述，即通过增强文本和图像嵌入的对应性，同时减少无关数据间的对应性，从而提升模型性能。

利用这一原理，团队采取了一种基于阻塞吉布斯采样的迭代构建批次的方法，每次迭代都依据可学习性评分选择新的样本子集。

新方法在处理大量数据过滤时展现出持续增强的效能，特别是在运用仅基于预训练的参考模型——如CLIPScore，这是一个常用的离线数据集筛选基准。尽管增加数据过滤会导致浮点运算次数（FLOPs）上升，研究团队通过在数据集中存储预训练参考模型的评分，并运用FlexiViT架构进行低分辨率评估，有效缓解了这一问题，还在多种分辨率下进行了训练。

研究揭示了多分辨率训练对于保持评分与学习模型之间的一致性至关重要，同时也突显了选用优质精选数据集训练参考模型的必要性。这有助于优化大规模预训练的数据分布，进而增强模型的泛化性能。

结果显示，采用JEST++和FlexiJEST++的变体在性能上显著优于许多先前的领先模型，而且所需计算资源更少。

对于为何不直接在精选数据集上训练参考模型的问题，团队说明，精选的参考模型是专业型模型，擅长特定任务。JEST++通过结合这些专业模型，转化为全面型模型，从而在各种基准测试中取得提升。

最新的DeepMind策略极大地减少了训练时间。这项研究展示了一个突破，即JEST++可以在不筛选预训练数据集的情况下直接使用原始大规模数据进行训练，且性能几乎不受影响。

这一成就归功于四位DeepMind的研究人员。Talfan Evans，作为机器学习团队的研究科学家，他在DeepMind已有超过三年的工作经验，专注于大规模模型训练和任务对齐。他的学术背景包括在伦敦帝国理工学院的戴森机器人实验室从事实时分布式推理研究（涉及空间/视觉感知系统）。

Olivier Hénaff，身为资深研究员，在DeepMind工作超过五年，他致力于探索生物与人工智能的基础原理。他的研究领域集中在自监督算法，目前特别关注视觉表征如何塑造记忆、支持灵活的感知推理以及长视频的理解。他拥有美国纽约大学神经科学中心的博士学位和法国巴黎综合理工学院的数学硕士学位。

Nikhil Parthasarathy，作为研究科学家在DeepMind工作了五年多，他的专长在于构建视觉感知模型，研究兴趣横跨表示学习、计算机视觉、计算神经科学和视觉感知。他曾在纽约大学攻读博士学位，并在斯坦福大学完成了本科和硕士学业。

深思熟虑的策略让训练效率大幅提升。哈姆扎·梅尔济克，自2018年起成为DeepMind的研究工程师，专注于主动学习、视觉建模、表示学习、强化学习、深度学习及机器人技术的研究。他在瑞士联邦理工学院取得硕士学位，并自2023年开始指导博士生。

相关论文现已公开，有兴趣的读者可深入探究。

团队全力以赴地投入其中。

他谦逊地表示自己并非天生的“计算奇才”。

强强联手，共创佳绩。