开源大模型新王者超越GPT-4,新技术能够自我修正幻觉,数学成绩99.2分刷新测试集记录。
编辑日期:2024年09月07日
试玩异常火爆,网友们一度将服务器挤崩。
一款由小型创业团队开发的新模型突然登上了开源大模型的王座,瞬间引发业界轰动。
这款新模型名为Reflection 70B,采用了一种全新的训练技术,使AI能够在推理过程中纠正自身的错误和幻觉。
例如,在最近流行的数字推理测试中,该模型最初犯了与其他模型相同的错误,但在<反思>标签中主动进行了自我修正。
在官方评测中,70B模型全面超越了最强的开源模型Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,尤其是在数学基准GSM8K上取得了99.2%的高分。
这一结果也令OpenAI的科学家、德州扑克AI之父Noam Brown激动不已:
GSM8K得分高达99%!是不是可以正式淘汰这个基准了?
模型上线后,网友们纷纷涌入试玩,导致服务器不堪重负。对此,Meta主动提供了更多的算力支持。
在网友的测试中,Reflection 70B能够正确回答GSM8K数据集中原本答案有误的问题:
我向模型提供了GSM8K中包含的5个“ground_truth”本身就有错误的问题。
该模型在回答问题时没有重复数据集中的错误答案,而是全部给出了正确的回答,这一点令人印象深刻,表明其99.2%的准确率并非来源于对测试集的记忆!
不仅如此,无论是各种“r”的组合还是生造词“drirrrngrrrrrnnn”中“r”的数量,模型都能够准确识别。
网友们对这个小团队能够开发出超越顶尖闭源模型的开源模型感到惊讶,现在最强的开源模型已经可以在本地运行了。
更重要的是,这款70B参数量的模型仅仅是个开始,官方宣布将在下周发布更大的Reflection 405B模型。
预计405B模型的性能将显著优于Sonnet和GPT-4。
目前,Reflection 70B模型的权重已经公开,Hyperbolic Labs将在稍后提供API访问。
以下是关于Reflection 70B的更多细节:
Reflection 70B的能力提升主要归功于一种名为Reflection-Tuning的训练方法。这种方法使模型能够在最终确定回应之前,自行检查和纠正其推理过程中的错误。
训练过程中使用的数据来自GlaiveAI平台生成的合成数据。
Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用与其他 Llama 模型相同的代码、流水线等工具从 Reflection Llama-3.1 70B 进行采样。
它甚至使用了标准的 Llama 3.1 聊天格式。
然而,Reflection 70B 引入了一些特殊的 tokens 来结构化输出过程。
如下面的例子所示,推理过程被分为一个独立的步骤,这样可以提升链式思考(CoT)的效果,并保持输出的精炼:
模型会在 <thinking>
和 </thinking>
标签内输出推理过程。当模型对其推理结果感到满意时,会在 <output>
和 </output>
标签内输出最终答案。
因此,它可以将内部思考和推理与最终答案分开。
在 <thinking>
部分,模型可能会输出一个或多个 <reflection>
标签,这表明模型发现了其推理中的错误,并将在提供最终答案之前尝试纠正这些错误。
系统提示如下:
您是一个世界级的人工智能系统,具备复杂的推理和反思能力。请在标签内进行推理,并在标签内提供最终的回答。
(你是一个世界级的人工智能系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在 标签内提供你的最终回应。如果你发现自己在任何时候推理出错,请在标签内纠正自己。)
此外值得一提的是,在基准测试中,所有基准都已通过LMSys的LLM Decontaminator进行了污染检查,并隔离了
使用Reflection 70B时,官方还分享了一些小贴士:
官方还表示,下周将发布一份报告,详细介绍模型的训练过程和相关发现。
Reflection 70B是由一支小团队开发的,该团队由HyperWrite AI的CEO Mutt Shumer领导。
根据领英上的信息,Mutt Shumer是一位连续创业者,毕业于美国锡拉丘兹大学,现任OthersideAI的联合创始人兼CEO。
OthersideAI是一家专注于通过大规模AI系统开发全球最先进的自动补全工具的AI应用公司,同时也是HyperWrite背后的公司。
HyperWrite是一个浏览器操作代理,可以像人一样操作谷歌浏览器来完成一系列任务,例如订购披萨。
这款工具与gpt-llm-trainer类似,只需用文字描述目标,它便会列出步骤并开始执行。在刚推出时,它宣称自己“比AutoGPT更强”。
此外,HyperWrite也可以在谷歌浏览器扩展程序中安装。
值得一提的是,Mutt Shumer在高中时期就创建了Visos,致力于开发用于医疗用途的下一代虚拟现实软件,并且他还创立了FURI,这家公司旨在通过提供高性能产品并以公平价格销售来颠覆体育用品行业。
尽管有Meta的支持,但目前尝试访问时仍然显示:“暂时无法访问”。
感兴趣的同学们可以先收藏起来:
https://reflection-playground-production.up.railway.app/
参考链接: [1] https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B [2] https://x.com/mattshumer_/status/1831767014341538166 [3] https://x.com/polynoamial/status/1831798985528635806 [4] https://x.com/degeneratoor/status/1831809610451448196 [5] https://x.com/kimmonismus/status/1831772661296345333 — 完 —
关注我们,第一时间了解最新科技资讯
通义千问再度开源
两小时内登顶HuggingFace开源大模型排行榜
“早期客户的员工反应热烈”
双雄争霸局面即将形成
从零开始训练12T token
神秘版本的性能接近GPT-4。
注:这里“神秘版本”可能指代某个未公开或未知的模型版本,根据上下文保留了原意。