跳转至

AI之家

谷歌 DeepMind 展示 GenRM 技术：通过微调大型语言模型作为奖励模型，提升生成式 AI 的推理能力

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

谷歌 DeepMind 展示 GenRM 技术：通过微调大型语言模型作为奖励模型，提升生成式 AI 的推理能力

编辑日期：2024年09月03日

在人工智能行业，目前提升大型语言模型（LLMs）性能的主流方法是Best-of-N模式，即由LLM生成N个候选答案，然后通过验证器对这些答案进行排序并选择最优解。

这种基于大型语言模型（LLM）的验证器通常被训练成判别分类器来为解决方案评分，但它们无法利用预训练的大型语言模型的文本生成能力。

为了解决这一局限性，DeepMind团队尝试通过预测下一个token来训练验证器，并同时进行验证和解决方案的生成。

谷歌-deepmind-展示-genrm

DeepMind 团队开发的生成式验证器（GenRM）相较于传统验证器，主要具有以下优点：

在算法和小学数学推理任务中，当使用基于Gemma的验证器时，GenRM的表现优于判别式验证器和LLM-as-a-Judge验证器，解决问题的Best-of-N使用率提高了16-64%。

谷歌-deepmind-展示-genrm

谷歌-deepmind-展示-genrm

据 Google DeepMind 报道，GenRM 相对于分类奖励模型的改进标志着人工智能奖励系统的关键演进，尤其是在提升其容量方面，以防止新模型学会欺诈行为。这一进展突显了完善奖励模型的紧迫性，使人工智能的输出能够符合社会责任标准。

请提供参考地址。（如果是要重写"附上参考地址"这句话，是否需要更具体的上下文信息呢？）

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

经过123项测试包括安全策略和事件响...

智谱-ai-开源了-cogvideo...

绿米-aqara-繁星妙控旋钮-v1-发布毫米波感应支持苹果-homekit999-元起

薛澜清华大学苏世民书院的院长指出人工智能可能引发多重风险其误用或滥用等问题不容小觑

腾讯推出了全球首款可通过语音指令来指...

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析