OpenAI 重夺榜首:ChatGPT 4.0 最新AI模型在多项测试中超越谷歌 Gemini 1.5 Pro,重登冠军宝座。
编辑日期:2024年08月14日
OpenAI公司在上周发布了gpt-4o-2024-08-06,其API支持结构化输出功能;昨日又推出了全新的前沿模型chatgpt-4o-latest,这是GPT-4o的最新版本,上下文窗口可接受最多128,000个词元的输入,输出则可达最多16,384个词元。
近日,由伯克利大学主导的团队 LMSYS Org 发布了一个针对大型语言模型的基准平台——Chatbot Arena。
该平台运用匿名及随机的方式促使不同大型模型产品进行对抗性的评估。此方法基于在国际象棋等竞争性游戏中广泛应用的埃洛等级分系统,并通过用户的投票来决定评分。每次系统都会随机挑选出两位不同的大型模型机器人与用户进行对话,然后在匿名的情况下让用户评选出哪个模型的表现更优秀。
最后,系统根据用户的选择来确定大模型产品的得分,并以排行榜的形式展示在首页上。
上周,谷歌的实验性 Gemini 1.5 Pro 模型以 1297 分的成绩获得了第一名,这是谷歌首次在 LMSYS 的聊天机器人竞技场上夺冠。
OpenAI 依靠新的 chatgpt-4o-latest 模型,以 1314 分的最高成绩重新夺得了竞技场榜首的位置。
得分显示,在编码、指令遵循和硬提示等方面,新版的ChatGPT-4均有显著提升,具体成绩如下: