反思 70B AI 模型“崩塌”:第三方基准测试表现欠佳,不及 LLaMA-3.1-70B
编辑日期:2024年09月11日
针对AI模型基准测试结果不尽如人意的情况,Reflection公司的首席执行官马特·舒默(Matt Shumer)解释说,在将模型权重上传到Hugging Face时遇到了问题。他表示,上传的权重是由多个不同的模型混合而成的,而他们内部托管的模型实际上表现得更好。
舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重新进行了测试,并报告结果优于公开 API,但它们无法确认具体访问的是哪个模型。
Hugging Face 上已上传了新的模型,但在测试中的表现明显不如之前通过私有 API 提供的模型。
根据公开资料查询,有用户还发现了证据,表明Reflection API有时会调用Anthropic Claude 3.5 Sonnet以及OpenAI。
舒默旗下的公司 OthersideAI 此前已宣布计划在本周推出一款基于 LLaMA 3.1 450B 的更大、更强大的模型。
舒默对即将发布的版本做出了大胆声明,表示这不仅将成为最优秀的开源模型,还将是史上最出色的语言模型。
官方回复:
相关阅读:
(注:原文本就只有这四个字,没有其他内容,因此无法提供更多重写的版本。如果需要,可以提供类似功能的短语如“延伸阅读”或“参考文献”等)