Meta发布“自我学习评估器”:无需人工标注即可提升评估效果,性能超越GPT-4等常见AI大型语言模型评审。
编辑日期:2024年08月07日
NPU技术的发展推进了大型语言模型(LLMs)在复杂语言相关任务上的高精度执行,从而实现了更加自然的人机交互。
然而,当前NPU技术面临的一个主要挑战是评估模型严重依赖于人工标注。
人工生成的数据对于训练和验证模型非常重要,但是采集这些数据既昂贵又耗时。此外,随着模型的不断优化,先前收集的标注信息可能需要更新,这降低了它们在评估新模型时的有效性。
当前的模型评估方法通常涉及收集大量的人类对模型响应的偏好判断。这些方法包括在有参考答案的任务中采用自动指标,或是使用能直接产生评分的分类器。
这些方法都存在一定的局限性,特别是在创意写作或编程等复杂情境下,由于可能存在多个有效的答案,这就导致了高度的人为判断差异性和高昂的成本问题。
Meta FAIR 团队推出了一种名为“自我学习评估器”的新方法,该方法不依赖于人工标注,而是采用合成数据来进行训练。
这个过程始于种子模型,它会产生对比明显的合成偏好对。接着,模型评估这些偏好对并持续优化自身,在后续的迭代过程中运用其判断以提升性能。这种方法充分发挥了模型生成及评估数据的能力,极大地降低了对人工标注的依赖。
以下是关键步骤:
-
使用种子LLM为给定的指令生成基准响应。
-
创建修改版的指令,以促使大型语言模型生成的新响应质量低于原始响应。
这些配对的回答构成了训练数据的基础,“自学习评估器”作为LLM-as-a-Judge,为这些配对生成推理过程及评判结果。
通过不断重复这个过程,模型通过自我生成和自我评估的数据不断提升其判断的准确性,从而有效地形成了一个自我完善的循环。
Meta FAIR团队在Llama-3-70B-Instruct模型上测试了“自学评估器”,并在RewardBench基准测试中将准确性从75.4提升到了88.7,达到了甚至超越了使用人类标注数据训练的模型的表现。其表现也超过了诸如GPT-4等常用大型语言模型评审(LLM Judges)。
这一重大改进验证了合成数据在增强模型评估上的有效性。此外,研究人员还进行了多轮迭代,进一步优化了模型的功能。
请提供需要重写的文本内容。