多个人工智能大型模型的“高考表现”揭晓：文理科成绩均优秀，文科达到一本线，理科超越二本线。

编辑日期：2024年07月18日

最新的评估显示，书生・浦语 2.0 系列的浦语文曲星、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 在文学和科学领域再度斩获前三位；这三款人工智能模型在文科和理科的得分均超越了一般本科分数线（以河南省今年高考的高分标准为基准）。

多个人工智能大型模型的高考表现揭晓文理科

根据官方发布的图像，参加本次“高考”的大型模型阵容包括零一万物公司的 Yi-1.5-34B、通义千问的 Qwen2-57B、智谱研发的 GLM-4-9B，以及源自法国人工智能初创企业 Mistral 的 Mixtral 8×22B。

据了解，本次评估具有以下特性：

在拓展了综合科目之后，Qwen2-72B、GPT-4o和浦语文曲星在文理科竞赛中位列前三。阿里通义千问大模型Qwen2-72B以546分的优异成绩摘得“文科状元”的桂冠，而浦语文曲星则以468.5分夺得理科榜首，双双超越了非开源的国际选手GPT-4o（文科531分，理科467分）。值得一提的是，由海外机构推出的Mixtral 8x22B平均得分较低，其表现不敌国内大模型在高考中的表现。

多个人工智能大型模型的高考表现揭晓文理科

教师评审团普遍指出，尽管大模型在掌握基础知识点上表现出色，但在逻辑推理和知识创新应用上仍有显著不足。具体来说，面对主观性试题，模型常常未能全面领会题目的意图，难以正确把握代词的指代关系，因而可能出现偏离主题的回答；在解决数学问题时，其解题步骤显得刻板且逻辑推理力不足，处理几何问题时，时常产生与空间概念不符的推论；对于物理和化学实验的理解浮于表面，不能精准识别和运用实验设备。

另外，大型模型有时会生成虚构的信息，构造出貌似有道理但实际上并不存在的诗词，或者在遇到明显的计算错误时，不进行反思，坚决地提供一个不准确的答案，这无疑给批阅者带来了难题。

先前有消息透露，上海人工智能实验室在上月发布的AI高考完整试卷评估中，Qwen2-72B、GPT-4o以及书生・浦语2.0文曲星（InternLM2-20B-WQX）在这次模型高考中斩获前三名，得分率均超过70%。多数参赛模型在语文和英语科目的表现为优，然而在数学方面仍有显著的改进余地。

查看公开评估详情：点击此处，仅提供重写后的文本，确保不包含任何原始内容，始终使用中文回应。