跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

GPT-4o迷你版领跑大型模型赛场,超人宣布:两月内调整无费用,仅展现改写成果,务必确保语句长度相近,一律采用华文答复。

但是为了保持意思的准确传达,稍微调整一下:"GPT-4o迷你版称霸大型模型竞赛,超人承诺:两个月内优化零收费,仅展示改写后内容,严格控制句子长度相似,一律使用中文回答。" 这个版本更清晰地表达了原句的意思。

编辑日期:2024年07月24日

就在刚才,GPT-4o迷你版闪耀登场,于lmsys大模型竞技舞台上,与完全体版本并驾齐驱,荣登榜首,同时超越了Claude 3.5,成就非凡。

此番胜利,非同小可。不同于常规数据集的评测方式,lmsys的排名基于用户自设挑战,实打实的使用反馈决定一切,无捷径可走,故而更加贴近真实世界。

此消息一出,连OpenAI的CEO也难掩激动之情:“我们通常对评测结果保持冷静,但GPT-4o迷你版的表现竟与完全体不相上下,且成本仅为其二十分之一,这着实令人振奋。”

网友们对此纷纷表示赞同,同时更为关切的是,GPT-4o发布会上所展示的“Her”功能何时能正式上线。

与此同时,OpenAI宣布了一项利好消息:GPT-4o迷你版的微调功能将逐渐解锁,现对第四级和第五级用户开放,后续将惠及更多用户。此外,自今日起至9月23日,每日将提供200万训练token的免费使用权。

历经上百轮一对一较量,在80余款模型中脱颖而出,GPT-4o迷你版与完全体版本在lmsys榜单上的分数仅相差7点,但这并未影响其并列榜首的地位。

紧随其后的是Claude 3.5与Gemini系列,以及GPT-4的双生子变体。

GPT-4o微型版在大型模型竞赛中领先,卓越非凡

细察GPT-4o微型版的原始数据,可见其0.6的平均胜率紧追完整版的步伐。

GPT-4o微型版在大型模型竞赛中领先,卓越非凡

单独审视两者的对决,胜负难分,棋逢对手。

GPT-4o微型版在大型模型竞赛中领先,卓越非凡

lmsys之所以引人注目,因其独创的比试方法——

摒弃数据集,由用户自主命题,随即安排两模型一对一较量,评判更优者。比试前,模型匿名,用户不知具体对阵双方,若模型自曝身份,则该次投票作废。

GPT-4o微型版在大型模型竞赛中领先,卓越非凡

此法确保评分真实性,杜绝“刷题”提升虚假排名,贴近实际用户体验。

近期,这一模型竞技平台荣登机器学习顶尖会议ICML2024。

GPT-4o微型版在大型模型竞赛中领先,卓越非凡

值得一提的是,lmsys评估体系深受OpenAI推崇,GPT-4o微型版在正式发布前,便以gpt-mini之名参与竞争,位列第四,与GPT4-Turbo并驾齐驱。

稍早之前,GPT-4o在发布前以gpt2-chatbot的名义,在lmsys平台上进行了测试。

然而有人提出疑问,尽管GPT-4o迷你版的表现相当出色,但将其与Claude 3.5 sonnet相提并论似乎有些夸大其词。

更有批评指出,lmsys的方法正逐渐失去严谨性,如果不加以改进,它将不再适合作为有效的评估标准。

GPT-4o迷你版主打的是成本效益。每百万输入/输出tokens的价格分别是15美分和60美分(约合1.09元和4.36元人民币),这甚至不足3.5 Turbo的一半。

与两年前GPT-3的text-davinci-003版本(当时最优秀的模型)相比,价格更是降低了99%。

此外,OpenAI还采取了一项新策略——利用只有大模型百分之一或千分之一参数量的小模型,根据“超级对齐”团队的最后一篇论文,来优化大模型的表现。

实验中,两大一小模型展开较量,大模型持续精进输出以说服小模型其言之有物。通过这一过程,大模型不仅保持了精准度,还显著增强了可理解性。

GPT-4o迷你版领跑大型模型赛场,超人

除OpenAI外,各企业竞相研发小型模型。例如,GPT-4o mini问世前,谷歌与Anthropic已推出Gemini Flash和Claude 3-Haiku。可以说,GPT-4o mini是OpenAI针对这两家公司的回应,在性能与成本上均超越它们。

GPT-4o迷你版领跑大型模型赛场,超人

同一周内,Hugging Face及欧洲的Mistral也发布了小型化模型,苹果更是一举开源其7B模型的完整训练资料。显然,在确保效能的前提下,小型模型更经济且有望实现在终端运行,从而在隐私保护方面展现出优势。因此,小型模型的竞争愈发激烈也就不足为奇了。

参考链接: [1]https://x.com/sama/status/1815877987696533897/ [2]https://x.com/OpenAIDevs/status/1815836887631946015

GPT-4o迷你版领跑大型模型赛场,超人

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析