Meta发布“自我学习评估器”：无需人工标注即可提升评估效果，性能超越GPT-4等常见AI大型语言模型评审。

编辑日期：2024年08月07日

NPU技术的发展推进了大型语言模型（LLMs）在复杂语言相关任务上的高精度执行，从而实现了更加自然的人机交互。

然而，当前NPU技术面临的一个主要挑战是评估模型严重依赖于人工标注。

人工生成的数据对于训练和验证模型非常重要，但是采集这些数据既昂贵又耗时。此外，随着模型的不断优化，先前收集的标注信息可能需要更新，这降低了它们在评估新模型时的有效性。

当前的模型评估方法通常涉及收集大量的人类对模型响应的偏好判断。这些方法包括在有参考答案的任务中采用自动指标，或是使用能直接产生评分的分类器。

这些方法都存在一定的局限性，特别是在创意写作或编程等复杂情境下，由于可能存在多个有效的答案，这就导致了高度的人为判断差异性和高昂的成本问题。

Meta FAIR 团队推出了一种名为“自我学习评估器”的新方法，该方法不依赖于人工标注，而是采用合成数据来进行训练。

这个过程始于种子模型，它会产生对比明显的合成偏好对。接着，模型评估这些偏好对并持续优化自身，在后续的迭代过程中运用其判断以提升性能。这种方法充分发挥了模型生成及评估数据的能力，极大地降低了对人工标注的依赖。

meta发布自我学习评估器无需人工标注即

以下是关键步骤：

使用种子LLM为给定的指令生成基准响应。
创建修改版的指令，以促使大型语言模型生成的新响应质量低于原始响应。

这些配对的回答构成了训练数据的基础，“自学习评估器”作为LLM-as-a-Judge，为这些配对生成推理过程及评判结果。

通过不断重复这个过程，模型通过自我生成和自我评估的数据不断提升其判断的准确性，从而有效地形成了一个自我完善的循环。

Meta FAIR团队在Llama-3-70B-Instruct模型上测试了“自学评估器”，并在RewardBench基准测试中将准确性从75.4提升到了88.7，达到了甚至超越了使用人类标注数据训练的模型的表现。其表现也超过了诸如GPT-4等常用大型语言模型评审（LLM Judges）。

meta发布自我学习评估器无需人工标注即

这一重大改进验证了合成数据在增强模型评估上的有效性。此外，研究人员还进行了多轮迭代，进一步优化了模型的功能。

请提供需要重写的文本内容。

大家在看

AI之家

🔥AI副业赚钱星球

点击下面图片查看

🔥ChatGPT-4在线使用

Python和AI在线练习

AI之家教程

Meta发布“自我学习评估器”：无需人工标注即可提升评估效果，性能超越GPT-4等常见AI大型语言模型评审。

大家在看

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

阿里巴巴将于9月推出人工智能对话式采...

硅业传奇人物吉姆凯勒jim-keller领导的科技公司tenstorrent近日隆重推出了其最新力作wormhole系列人工智能硬件这一创新成果将为ai领域注入新的活力

大模型2024高考发榜豆包等三款国产ai考上文科一本线

Llama 3.1发布即被破解：怒斥...

无论在本地还是服务器环境下proton-已经推出了一款人工智能驱动的电子邮件撰写辅助工具