跳转至

AI之家

反思 70B AI 模型“崩塌”：第三方基准测试表现欠佳，不及 LLaMA-3.1-70B

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

反思 70B AI 模型“崩塌”：第三方基准测试表现欠佳，不及 LLaMA-3.1-70B

编辑日期：2024年09月11日

反思-70b-ai-模型崩塌第三方基准测

针对AI模型基准测试结果不尽如人意的情况，Reflection公司的首席执行官马特·舒默（Matt Shumer）解释说，在将模型权重上传到Hugging Face时遇到了问题。他表示，上传的权重是由多个不同的模型混合而成的，而他们内部托管的模型实际上表现得更好。

舒默随后向部分用户提供了独家访问内部模型的权限，Artificial Analysis 重新进行了测试，并报告结果优于公开 API，但它们无法确认具体访问的是哪个模型。

反思-70b-ai-模型崩塌第三方基准测

Hugging Face 上已上传了新的模型，但在测试中的表现明显不如之前通过私有 API 提供的模型。

根据公开资料查询，有用户还发现了证据，表明Reflection API有时会调用Anthropic Claude 3.5 Sonnet以及OpenAI。

反思-70b-ai-模型崩塌第三方基准测

舒默旗下的公司 OthersideAI 此前已宣布计划在本周推出一款基于 LLaMA 3.1 450B 的更大、更强大的模型。

舒默对即将发布的版本做出了大胆声明，表示这不仅将成为最优秀的开源模型，还将是史上最出色的语言模型。

官方回复：

反思-70b-ai-模型崩塌第三方基准测

反思-70b-ai-模型崩塌第三方基准测

相关阅读：

（注：原文本就只有这四个字，没有其他内容，因此无法提供更多重写的版本。如果需要，可以提供类似功能的短语如“延伸阅读”或“参考文献”等）

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

短短四个月内被誉为ai-教母的李飞飞创办的-world-labs-估值已超过十亿美元

创新创业者漆远首次透露其专注的领域：构建可信赖的大规模模型。他的企业无限光年已获得阿里巴巴的投资，详情不详。

告别-1-分钟限制meta-rayban-智能眼镜视频录制时长提升至-3-分钟

真香！智谱大模型现在提供了首个免费的...

谷歌版本的-her-大失败尝试了3次...

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析