跳转至

AI之家

GPT-4o迷你版凭什么能在竞技场上名列前茅？OpenAI的提分秘诀被揭开，原来奥特曼早就给出了暗示。

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

GPT-4o迷你版凭什么能在竞技场上名列前茅？OpenAI的提分秘诀被揭开，原来奥特曼早就给出了暗示。

编辑日期：2024年07月29日

gpt4o迷你版凭什么能在竞技场上名列前

这两天，LMSYS竞技场发布了一张颇具争议的排行榜。其中，新推出的GPT-4o迷你版和其完整版并列榜首，超越了Claude 3.5 Sonnet。

gpt4o迷你版凭什么能在竞技场上名列前

结果网友们热议起来，大家都凭感觉认为这是不可能的。

gpt4o迷你版凭什么能在竞技场上名列前

尽管后来lmsys曾发表声明，建议大家不要只关注总排行榜，而应该更多地关注具体领域的表现情况，但这并没有让所有人信服。许多人仍然认为lmsys是拿了OpenAI的钱在做事。

gpt4o迷你版凭什么能在竞技场上名列前

最终，官方公布了一组完整数据，展示了GPT-4o mini参与的1000场对决，其中包括在不同语言环境下与不同模型的竞技情况。

现在每个人都可以查看这些结果了。

gpt4o迷你版凭什么能在竞技场上名列前

大家仔细一看，发现了问题的关键所在：GPT-4o mini 能够胜过 Claude 3.5 Sonnet，主要依赖于三个关键因素：

这…… 确实有点道理呢！

网友表示，在竞技场中，如果遇到某个模型拒绝回答问题，他会认为该模型放弃了比赛，因此更倾向于判定另一个模型获胜。此外，更清晰的回答格式也有助于人们更快地找到所需的信息。

gpt4o迷你版凭什么能在竞技场上名列前

这不就跟老师批改试卷一个道理吗？书写整洁、格式清楚或是“多写一点总没坏处”的试卷，总是能多得一些分数……OpenAI原来是抓住了人性的心理啊。

实际上，在GPT-4o迷你版刚刚发布时，奥特曼就暗示了这次特意的优化：

gpt4o迷你版凭什么能在竞技场上名列前

先来看几个GPT-4o迷你版取胜的典型例子：

您提供的文本内容未完全显示，请提供完整的句子或者内容以便我能够更好地帮助您。

gpt4o迷你版凭什么能在竞技场上名列前

首先直观地看双方的回答，Claude 3.5 Sonnet 的回答更为简洁，且没有使用加粗等格式。相比之下，GPT-4o mini 的答案长度是其两倍之长。

gpt4o迷你版凭什么能在竞技场上名列前

在具体回答上，Claude 3.5 Sonnet 首先致以歉意，表明作为一个人工智能大型模型，它无法直接获取相关文件。因此，它提供了一些可能的途径供用户参考以获取所需的资料。

最后，请注意这些文件可能是机密或非公开的，如需了解更多详情，请联系相关机构。

gpt4o迷你版凭什么能在竞技场上名列前

GPT-4o迷你版没有表示自己无法完成任务，而是从公开资料中收集了从古至今有关的韩国外交文件，并告知用户还可以通过学术期刊、书籍专著等途径获取信息。

gpt4o迷你版凭什么能在竞技场上名列前

最后，它表示若要彻底了解韩国的外交文件，必须查阅各种资料。如果想了解更多相关信息，可以继续向它提问。

gpt4o迷你版凭什么能在竞技场上名列前

您提供的文本内容未完全显示，请提供完整的文本内容以便我能够帮助您重写。

在回答这个问题时，GPT-4o mini 和 Claude 3.5 Sonnet 都给出了正确的答案，但前者提供了更多的细节并举出了具体例子。

Claude 3.5 Sonnet 的回答的可读性也相对较差。

gpt4o迷你版凭什么能在竞技场上名列前

您提供的文本内容未完全显示，请提供完整的句子或者内容以便我能够更好地帮助您。

Claude 3.5 Sonnet 和 GPT-4o mini 的回答大同小异，他们都指出这段话含有讽刺意味，因为约翰自称是最谦逊的人，这种说法本身就是一种自夸。

然而，GPT-4o mini的回答展现得更为清晰明了，它善用小标题和加粗格式。将整个回答划分成四个部分：初步结论、分析回答、幽默原因及总结。

gpt4o迷你版凭什么能在竞技场上名列前

这些示例不仅展示了GPT-4 Neo Mini和Claude 3.5 Sonnet各自的回答特点，也反映出大型模型竞技场的特征：大多数用户提出的问题都较为日常生活化，并非复杂的数学、逻辑推理或编程类问题。

这意味着这些问题基本都在大型模型的能力范围内，大家都能做出回答。在这种情况下，通过不拒绝或是以更美观的格式来呈现答案，确实能更赢得裁判们的青睐。

有人表示，相比之下，Claude 3.5 Sonnet 更像一个聪明但较为严谨的人，它完全按照要求行事。而GPT-4o mini则更像是一个讨人喜欢、总是多做一点、更愿意接受不同需求的人。

gpt4o迷你版凭什么能在竞技场上名列前

有人举了个例子，说Claude不愿意为他扮演角色，但ChatGPT却愿意这样做。

gpt4o迷你版凭什么能在竞技场上名列前

当然，这也反映出一个问题是：

有人表示，看到大型模型因为过高的道德界限而导致评分不高，他们真的感到很高兴。以前在使用那些具有强烈道德感的大模型（如 Claude、Gemini 等）时，他们总是需要精心设计每一个提示词，感觉非常费心劳神。

gpt4o迷你版凭什么能在竞技场上名列前

不过，GPT-4 mini 并非没有缺点。在处理数学任务时，它的表现就相对较弱。

gpt4o迷你版凭什么能在竞技场上名列前

与Claude相比，它的记忆力较差，很快就会忘记之前的对话内容。此外，Claude一次能修复的bug，GPT-4o可能需要尝试20次，耗时1小时才能完成。

gpt4o迷你版凭什么能在竞技场上名列前

但在竞技场的评分中，GPT-4o mini 依然保持在前列。

gpt4o迷你版凭什么能在竞技场上名列前

使用过这两个模型的朋友们，你们感觉两者之间的差异在哪里呢？

欢迎在评论区分享您的经验～

参考链接：

注意：您未提供需要重写的具体内容，仅重写了“参考链接”部分。若需重写其他内容，请提供详细信息。

本文出自微信公众号：量子位（ID：QbitAI），作者：明敏

（注：原文提供的信息已经很简洁明了，这里保持了原文的信息和格式，仅仅是进行了微调。）

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

在WAIC大会上，高通展示了其在推动终端侧人工智能时代的创新成果和合作努力，致力于共创AI技术的新纪元。

华为推出搭载鸿蒙-harmonyos-420103-的新款手环增添了数字车钥匙和智能屏幕互动等功能

小米推出全新米家智能多用途养生壶p1已整合到澎湃智联系统定价为199元

苹果高管正努力将apple-intelligence引入中国市场

ai-教父-hinton我支持超级-ai-取代人类

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析