Qwen2.5 登上全球开源榜首！72B 超越 Llama3 405B，轻松胜过 GPT-4-o-mini。

编辑日期：2024年09月20日

在指令跟踪、长文本生成、结构化数据理解及结构化输出生成等方面，Qwen2.5均有显著提升。

击败Llama3！Qwen2.5登顶全球开源榜首。

尽管参数规模仅为Llama3的五分之一，Qwen2.5在多项任务中的表现已超越Llama3 405B。

Qwen2.5 登上全球开源榜首！72B

Qwen2.5在各类任务上的表现远超同类模型。

与前一代相比，它在各方面几乎实现了全面提升，尤其是在通用任务、数学和编程方面表现出色。

值得注意的是，此次Qwen的开源规模空前，基础模型直接发布了7种不同参数的版本，其中包括多个数学和代码模型。

例如，14B、32B以及轻量级Turbo模型的表现超过了GPT-4o-mini。除了3B和72B模型之外，所有开源模型均采用Apache 2.0许可。

Qwen2.5 登上全球开源榜首！72B

不少网友已经开始使用Qwen2.5，并对其性能赞不绝口。

Qwen2.5 登上全球开源榜首！72B

相较于Qwen2系列，Qwen2.5系列的主要升级包括：

全面开源。研究发现，用户对适用于生产环境的10B至30B参数范围的模型及适用于移动应用的3B规模模型非常感兴趣。

因此，在原有的0.5/1.5/7/72B参数模型基础上，新增了14B、32B及3B模型。

此外，通义还推出了Qwen-Plus和Qwen-Turbo版本，用户可通过阿里云大模型服务平台的API进行体验。

Qwen2.5 登上全球开源榜首！72B 显示，超过一半的模型支持128K的上下文，并且最多可以生成8K的上下文。

在综合评测中，所有模型相较于上一代实现了显著的能力提升。例如，Qwen2.5-32B的表现优于Qwen2-72B，而Qwen2.5-14B则超过了Qwen2-57B-A14B。

此外，预训练数据集也变得更加庞大且高质量，从原来的7万亿个token扩大到了最多18万亿个token。

这些模型在多个方面的能力得到了增强，包括获取更多知识、提高数学编码能力以及更好地符合人类偏好。

同时，在指令跟踪、长文本生成（从1k增加到8K以上token）、结构化数据理解（如表格）以及结构化输出生成（特别是JSON格式）等方面也有显著提升。

让我们来看一下实际效果。

表格理解

Qwen2.5 登上全球开源榜首！72B

生成JSON输出

Qwen2.5 登上全球开源榜首！72B

Qwen2.5模型总体上具有更强的系统提示多样性的适应能力，增强了聊天机器人的角色扮演实现和条件设定能力。

具体来看一下各模型的能力表现。

旗舰模型在前文已经展示，它在各项任务中都有明显进步。

对于较小的模型，如0.5B、1.5B和3B，其性能如下所示：

Qwen2.5 登上全球开源榜首！72B

值得一提的是，Qwen2.5-0.5B在各种数学和编码任务中的表现优于Gemma2-2.6B。

除此之外，Qwen2.5展示了指令调优后的模型性能提升，其中72B-Instruct在几项关键任务中超越了更大的Llama-3.1-405B，特别是在数学（MATH：83.1）、编码（LiveCodeBench：55.5）和聊天（Arena-Hard：81.2）方面表现突出。 Qwen2.5 登上全球开源榜首！72B

此外，32B-Instruct、14B-Instruct以及Qwen2.5-Turbo也展示了与GPT-4o-mini相当的能力。 Qwen2.5 登上全球开源榜首！72B

除了基础模型外，此次Qwen还发布了代码和数学专业模型。

Qwen2.5-Coder提供了三种不同规模的模型：1.5B、7B和32B版本（即将推出）。 Qwen2.5 登上全球开源榜首！72B

其主要改进在于扩大了代码训练数据规模，并增强了编码能力。Qwen2.5-Coder在大规模的代码数据集上进行了训练，包括源代码、文本代码基础数据和合成数据，总共有5.5万亿个token。

该模型支持128K上下文，涵盖92种编程语言。开源的7B版本甚至超越了DeepSeek-Coder-V2-Lite和Codestral等更大型的模型，成为当前最强大的基础代码模型之一。 Qwen2.5 登上全球开源榜首！72B

而在数学模型方面，Qwen2.5-Math主要支持通过CoT和TIR解决英文和中文数学问题。目前不建议将此系列模型用于其他任务。

Qwen2.5 登上全球开源榜首！72B

Qwen2.5-Math 系列包括基础模型 Qwen2.5-Math-1.5B/7B/72B、指令调优模型 Qwen2.5-Math-1.5B/7B/72B-Instruct 以及数学奖励模型 Qwen2.5-Math-RM-72B。与 Qwen2-Math 系列仅能用思维链（CoT）解决英文数学问题不同，Qwen2.5-Math 系列不仅支持思维链，还支持工具集成推理（TIR），能够解决中英文数学问题。

Qwen2.5 登上全球开源榜首！72B

与前一版本相比，Qwen2.5-Math 主要通过以下三项改进实现了基础模型的升级：

利用 Qwen2-Math-72B-Instruct 模型合成额外的高质量数学预训练数据。
从网络资源、书籍和代码中收集更多高质量的数学数据，特别是中文数据，并覆盖多个时间段。
使用 Qwen2.5 系列基础模型进行参数初始化，从而增强语言理解、代码生成和文本推理能力。

这些改进使得 1.5B、7B 和 72B 模型在高考数学问答中的表现分别提高了 3.4 分、12.2 分和 19.8 分。

Qwen2.5 登上全球开源榜首！72B

至此，Qwen2.5 系列完成了堪称“史上最大规模”的开源。阿里巴巴通义开源负责人林俊旸也分享了一些背后的细节。

Qwen2.5 登上全球开源榜首！72B

他表示，自 Qwen2 开源之日起，Qwen2.5 项目就已经启动。

在这个过程中，他们发现了许多问题和错误。例如，在预训练阶段，他们只专注于提高预训练数据的质量和数量，并采用了大家熟知的多种方法，如使用文本分类器来召回高质量数据，以及利用LLM评分器对数据进行评分，从而在质量和数量之间找到平衡。

此外，在创建专家模型的同时，团队还利用这些模型生成了合成数据。在后期训练中，用户反馈帮助他们逐一解决问题，同时他们也在探索RLHF方法，特别是在线学习方法。

对于未来的升级和更新，他们表示受到o1的启发，认为应深入研究推理能力。值得一提的是，在Qwen2.5预热期间，团队透露该版本不叫草莓，而是称为猕猴桃。

Qwen2.5 登上全球开源榜首！72B

现在，猕猴桃可以迅速投入使用了。

参考链接： [1] https://x.com/JustinLin610/status/1836461575965938104 [2] https://x.com/Alibaba_Qwen/status/1836449414220779584 [3] https://qwenlm.github.io/blog/qwen2.5/ [4] https://qwenlm.github.io/blog/qwen2.5-llm/ [5] https://qwenlm.github.io/blog/qwen2.5-coder/ [6] https://qwenlm.github.io/blog/qwen2.5-math/