跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

反思 70B AI 模型“崩塌”:第三方基准测试表现欠佳,不及 LLaMA-3.1-70B

编辑日期:2024年09月11日

反思-70b-ai-模型崩塌第三方基准测

针对AI模型基准测试结果不尽如人意的情况,Reflection公司的首席执行官马特·舒默(Matt Shumer)解释说,在将模型权重上传到Hugging Face时遇到了问题。他表示,上传的权重是由多个不同的模型混合而成的,而他们内部托管的模型实际上表现得更好。

舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重新进行了测试,并报告结果优于公开 API,但它们无法确认具体访问的是哪个模型。

反思-70b-ai-模型崩塌第三方基准测

Hugging Face 上已上传了新的模型,但在测试中的表现明显不如之前通过私有 API 提供的模型。

根据公开资料查询,有用户还发现了证据,表明Reflection API有时会调用Anthropic Claude 3.5 Sonnet以及OpenAI。

反思-70b-ai-模型崩塌第三方基准测

舒默旗下的公司 OthersideAI 此前已宣布计划在本周推出一款基于 LLaMA 3.1 450B 的更大、更强大的模型。

舒默对即将发布的版本做出了大胆声明,表示这不仅将成为最优秀的开源模型,还将是史上最出色的语言模型。

官方回复:

反思-70b-ai-模型崩塌第三方基准测

反思-70b-ai-模型崩塌第三方基准测

相关阅读:

(注:原文本就只有这四个字,没有其他内容,因此无法提供更多重写的版本。如果需要,可以提供类似功能的短语如“延伸阅读”或“参考文献”等)

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析