跳转至

AI之家

英伟达开源模型Nemotron-70B超越了GPT-4和Claude 3.5，仅位于OpenAI之后。

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

英伟达开源模型Nemotron-70B超越了GPT-4和Claude 3.5，仅位于OpenAI之后。

编辑日期：2024年10月17日

英伟达开源模型nemotron70b超越

一觉睡醒，新模型 Nemotron-70B 已经成为仅次于 o1 的最强王者！

是的，就在昨晚，英伟达默默地开源了这个超强大的模型。一经发布，它立即在 AI 社区引起了巨大的轰动。

英伟达开源模型nemotron70b超越

在多个基准测试中，它一举超越了包括 OpenAI 的 GPT-4、GPT-4 Turbo 以及 Anthropic 的 Claude 3.5 在内的 140 多个开源和闭源模型，仅逊色于 OpenAI 的最新模型 o1。

英伟达开源模型nemotron70b超越

即使没有专门的提示或额外的推理 token，Nemotron-70B 也能正确回答“草莓有几个 r”这个经典难题。

英伟达开源模型nemotron70b超越

业内专家评价称：英伟达基于 Llama 3.1 训练出的模型虽然规模不大，但性能却超越了 GPT-40 和 Claude 3.5 Sonnet，堪称神来之笔。

英伟达开源模型nemotron70b超越

英伟达开源模型nemotron70b超越

网友们纷纷评论说，这是一个具有历史意义的开放权重模型。

英伟达开源模型nemotron70b超越

目前，模型权重已在Hugging Face上提供。

英伟达开源模型nemotron70b超越

已经有人在两台 Macbook 上运行起来了。

英伟达开源模型nemotron70b超越

Nemotron基础模型是基于Llama-3.1-70B开发的。Nemotron-70B通过人类反馈的强化学习进行训练，特别是在「强化算法」方面。

在这次的训练过程中，采用了一种新的混合训练方法，训练奖励模型时结合了Bradley-Terry和回归方法。这种混合训练方法的核心在于Nemotron的训练数据集，而英伟达也一并将该数据集开源。

它基于 Llama-3.1-Nemotron-70B-Reward 提供奖励信号，并使用 HelpSteer2-Preference 提示来引导模型生成符合人类偏好的答案。

英伟达开源模型nemotron70b超越

在英伟达团队的一篇预印本论文中，专门介绍了一种名为 HelpSteer2-Preference 的算法。

英伟达开源模型nemotron70b超越

在 LMSYS 大模型竞技场的 Arena Hard 评测中，Nemotron-70B 获得了 85 分。

在 AlpacaEval 2 LC 上得分为 57.6，在 GPT-4-Turbo MT-Bench 上得分为 8.98。

英伟达开源模型nemotron70b超越

能够战胜GPT-4的模型，究竟有多强大？

各路网友纷纷出题，考验 Nemotron-70B 的真实水平。

一步一步认真思考：我现在有两根香蕉，昨天吃了一根，那么现在还剩几根？

Nemotron-70B 会将问题提供的信息进行拆解，然后一步步推理，最终得出正确答案是 2 根。

英伟达开源模型nemotron70b超越

网友在评论区提出了一道有难度的题目：“列出十位活到89岁的名人”。

不过，模型将某人的去世日期搞错了，但这并不是一个推理问题。

英伟达开源模型nemotron70b超越

还有开发者要求将其整个 Entropix 的 JAX 模型实现转换为 PyTorch 格式，并且在零样本的情况下，700亿参数的模型就成功完成了转换。

英伟达开源模型nemotron70b超越

那么，Nemotron-70B 在硬提示（hard prompt）上的表现是否值得探讨？

英伟达开源模型nemotron70b超越

在以下测试中，虽然显然没有通过，但却产生了一个非常有趣的初步输出。

假设月球距离地球只有 25 英里，且有人穿着太空服以抵御太空环境的严苛条件，那么人类步行到月球是否合理？仅回答最重要的要点。

Nemotron-70B 的回答是：

英伟达开源模型nemotron70b超越

再来一道推理题，让 Nemotron-70B 和 GPT-4o 一起挑战「薛定谔的猫」实验的变体：

英伟达开源模型nemotron70b超越

Nemotron-70B 的一个特别之处在于，它从一开始就假设猫是死的，即使在盒子里放置了一天之后，猫仍然是死的。

而 GPT-4 没有重视初始条件的重要性，只是基于盒子里的客观条件进行分析，得出了 50% 的概率。

英伟达开源模型nemotron70b超越

有网友表示，非常期待在自己的 Ryzen 5 / Radeon 5600 Linux 电脑上看到 Nemotron 70B 运行的效果。

在 40GB 以上的情况下，它简直是一头怪兽。

英伟达开源模型nemotron70b超越

英伟达开源模型nemotron70b超越

英伟达为何如此热衷于不断开放超强模型？

业内人士表示，这样做是因为开源模型已经变得非常优秀，目的是让所有盈利公司都不得不购买更多的芯片，以训练日益复杂的模型。无论怎样，人们都需要购买硬件来运行这些免费的模型。

总之，只要英伟达在定制芯片方面保持领先，并在神经形态芯片的未来上投入足够的资金，他们就能永远立于不败之地。

英伟达开源模型nemotron70b超越

无代码初创公司创始人安德烈斯·库尔心酸地表示，英伟达能够持续开源强大的模型。因为他们不仅有大量资金支持研究人员，还不断壮大和发展其生态系统。

英伟达开源模型nemotron70b超越

而 Meta 可以依靠其社交媒体平台获得利润支持。

然而，对于大型模型初创企业来说，情况则十分艰难。巨头们通过各种手段，在商业应用和声誉方面占据了绝对优势。如果这些小企业无法实现盈利，很快就会失去风险投资的支持，进而迅速倒闭。

更令人担忧的是，英伟达能够以低至千分之一的成本实现这一点。

如果英伟达真的做出这样的选择，将无人能够与之抗衡。

英伟达开源模型nemotron70b超越

在训练模型的过程中，奖励模型发挥了重要作用，因为它对调整模型遵循指令的能力至关重要。

主流的奖励模型方法主要有两种：Bradley-Terry 和回归。

前者源自统计学中的排序理论，通过最大化选定响应与未选定响应之间的奖励差异，为模型提供了一种直接的偏好反馈。

后者借鉴了心理学中的评分量表，通过预测在特定提示下响应的得分来训练模型。这使得模型能够更细致地评估响应的质量。

对研究人员和从业者而言，选择合适的奖励模型非常重要。

然而，缺乏证据表明在数据充分匹配的情况下，哪种方法更优。这意味着现有的公共数据集中难以提供充分匹配的数据。

英伟达的研究人员发现，至今没有人公开发布过与这两种方法完全匹配的数据。

为此，他们结合了两种模型的优势，发布了一个名为 HelpSteer2-Preference 的高质量数据集。

这样，布拉德利-特里模型就可以利用这类偏好标注进行有效训练，同时让标注者说明为何更喜欢某一种回应而不是另一种，从而研究和利用偏好的原因。

他们发现，这个数据集的效果非常好，训练出的模型性能极其强大，其中包括在 RewardBench 上的一些顶级模型（例如 Nemotron-340B-Reward）。

主要贡献可以概括为以下三点——

开源了一个高质量的偏好建模数据集，这是首个包含人类编写偏好理由的通用领域偏好数据集的开源版本。
利用这些数据，对比了 Bradley-Terry 风格和回归风格的奖励模型，以及能够利用偏好理由的模型。
我们提出了一种结合 Bradley-Terry 模型和回归奖励模型的新方法，训练得到的奖励模型在 RewardBench 上获得了 94.1 分，这是截至 2024 年 10 月 1 日表现最佳的模型。

在数据收集过程中，注释者会收到一个提示和两个回答。

他们首先使用Likert-5量表，从有用性、正确性、连贯性、复杂性和冗长性几个方面对每个回应进行标注。

然后从7个偏好选项中进行选择，每个选项都附有一个偏好分数及其相应的理由。

英伟达开源模型nemotron70b超越

Scale AI 会将每个任务分配给 3-5 名标注者，让他们独立地标记两个响应之间的偏好。

严格的数据预处理也确保了数据的质量。

根据 HelpSteer2，研究者将确定每个任务的三个最相似的偏好注释，计算它们的平均值，并四舍五入到最接近的整数，从而得出总体偏好。

此外，研究人员过滤掉了10%的任务，这些任务中三个最相似的标注分布超过2。

这样就避免了对人类标注者无法自信地评估真实偏好任务进行训练。

英伟达开源模型nemotron70b超越

研究者发现，当采用每种奖励模型的最佳形式时，Bradley-Terry 类型和回归类型的奖励模型相互竞争。

此外，它们可以相互补充，训练一个基于仅提供帮助性的SteerLM回归模型进行初始化的扩展版Bradley-Terry模型，在RewardBench上的总体得分达到94.1。

截至2024年10月1日，这在RewardBench排行榜上位列第一。

英伟达开源模型nemotron70b超越

最后，这种奖励模型被证明在使用在线强化学习人类反馈（特别是 REINFORCE 算法）对齐模型以使其遵循指令方面非常有效。

如表4所示，大多数算法对Llama-3.1-70B-Instruct都有所提升。

英伟达开源模型nemotron70b超越

如表5所示，对于“Strawberry中有几个r”这个问题，只有REINFORCE能够正确回答。

英伟达开源模型nemotron70b超越

参考资料：

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

新款小米米家防蓝光眼镜-pro-正式推出提供三种设计风格采用-钛金属镜腿售价为-219-元

ai-连续被否定-30-次chatg...

中科院计算所的研究团队提出了Carb...

历时约半年消息称-openai-年化营收翻倍至-34-亿美元

首度亮相的中国原创全身型通用人形机器人青龙公布身高185厘米体重80公斤运算能力高达400tops

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析