开源大模型新王者 Reflection 70B 超越 GPT-4:新技术能够自我纠正幻觉,数学成绩达 99.2 分,刷新测试集纪录
编辑日期:2024年09月07日
新模型命名为Reflection 70B,采用了一种全新的训练技术,使AI能够在推理过程中自我纠正错误和幻觉。
例如,在最近流行的数字r测试中,它最初犯了与大多数模型相同的错误,但在<反思>标签中主动纠正了自己。
在官方评测中,70B 模型全面超越了最强的开源模型 Llama 3.1 405B、GPT-4o、Claude 3 Opus 和 Gemini 1.5 Pro,特别是在数学基准测试 GSM8K 上表现出色,得分高达 99.2%。
这个结果也令 OpenAI 的科学家、德州扑克 AI 之父 Noam Brown 激动地发表评论:
模型刚上线,网友们就将试玩挤爆了,对此,Meta 还主动提供了更多的算力支持。
在网友的测试中,Reflection 70B 能够正确回答 GSM8K 数据集中原本答案错误的问题。
模型没有重复数据集中的错误答案,而是全部给出了正确的回答,这非常令人印象深刻,表明那99.2%的准确率并不是来自于对测试集的记忆!
数各种 r 都不成问题,甚至能正确数出生造词“drirrrngrrrrrnnn”中含有几个 r。
网友们对小团队制作的开源模型超越顶级闭源模型表示惊讶,现在最强大的开源模型已经可以本地运行了。
关键70B只是一个开始,官方表示下周还将发布更大的Reflection 405B。
Reflection 70B 的权重已经公开,Hyperbolic Labs 将在今天晚些时候提供 API 访问。
目前关于Reflection 70B的更多细节如下。
(注:此处将“Reflection 70B”视为专有名词,未进行翻译,其余部分已简化。如果“Reflection 70B”需要翻译或有特定含义,请提供更多信息。)
Reflection 70B 能力提升的核心在于采用了一种名为 Reflection-Tuning 的训练方法。这种方法能让模型在最终确定回应之前,反思并检测自身生成的文本,从而纠正其中的错误推理。
训练所用的数据来自通过 GlaiveAI 平台生成的合成数据。
Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用与其他 Llama 模型相同的代码和管道(pipeline)从 Reflection Llama-3.1 70B 进行采样。
它甚至使用了标准的Llama 3.1聊天格式。
(注意:原句已经是中文,因此重写时仅做了轻微调整以保持语句通顺。)
然而,Reflection 70B 引入了一些特殊的 tokens,以结构化的方式进行输出处理。
如下面的例子所示,将规划过程分为一个独立的步骤,可以提升 CoT 的效果,并保持输出的精炼。
模型将从在
因此,它能够将其内部的思考和推理与最终答案区分开来。
在<思考>部分,模型可能输出一个或多个结果,这表明模型发现了其推理中的错误,并会在提供最终答案之前尝试纠正这些错误。
系统提示如下:
(这里需要给出具体的系统提示内容,例如:“您已成功登录。”或者“文件上传失败,请检查网络连接。”等等。)
(作为一个世界级的人工智能系统,我能够进行复杂的推理和反思。我将在标签内对查询进行推理,并在标签内提供最终回应。如果我在任何时候发现自己的推理有误,也将在标签内进行纠正。)
此外值得一提的是,在基准测试中,所有基准都已通过 LMSys 的 LLM Decontaminator 进行污染检查,
在使用 Reflection 70B 时,官方还分享了一些小贴士:
初步建议将参数 temperature 设置为 0.7,top_p 设置为 0.95。
为了提高准确性,最好在提示的末尾加上“仔细思考。”
官方还表示,下周将发布一份详细描述模型训练过程和相关发现的报告。
Reflection 70B 背后的团队是一支小团队,由 HyperWriteAI 的首席执行官 Mutt Shumer 领导。
根据领英的信息,Mutt Shumer是一位连续创业者,他毕业于美国锡拉丘兹大学,目前担任OthersideAI的联合创始人及首席执行官。
OthersideAI 是一家专注于开发大规模 AI 系统的公司,致力于打造全球最先进的人工智能自动补全工具,同时也是 HyperWrite 的背后团队。
HyperWrite 是一种浏览器操作工具,能够像人一样操作谷歌浏览器以完成一系列任务,例如订购披萨。
与 gpt-llm-trainer 类似,你只需用文字描述目标,它就会一边列出步骤,一边执行。
在刚推出时,它声称自己“比 AutoGPT 更强大”。
HyperWrite 也可以在谷歌浏览器扩展程序中安装。
此外,Mutt Shumer 在高中时期就创立了 Visos,致力于开发用于医疗用途的下一代虚拟现实软件。
他还创立了FURI,这是一家旨在通过创造高性能产品并以公平的价格销售来颠覆体育用品行业的公司。
尽管有Meta的支持,但目前尝试打开试玩时,仍然显示:暂时无法访问。
感兴趣的同学可以先收藏起来~
请访问以下链接: https://reflection-playground-production.up.railway.app/
请提供需要重写的文本内容,以便我为您处理。谢谢!
本文来自微信公众号:量子位(ID:QbitAI),作者:西风,原题目:《新开源大模型超越GPT-4》,介绍了某项新技术能够自我修正其产生的幻觉,并在数学测试集中取得了99.2分的优异成绩。