跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

OpenAI 发布了 SWE-bench Verified 基准,以更精确地评估 AI 模型在代码生成方面的表现。

编辑日期:2024年08月15日

注:SWE-Bench 是一个基准测试数据集,用于评估大型语言模型解决GitHub上真实软件问题的能力。

它收集了来自12个流行的Python仓库中的2294个问题-拉取请求对。在测试时,LLM会获得一个代码库及问题描述,随后生成一个补丁以解决所描述的问题。

该基准采用了两种类型的测试:

OpenAI指出了SWE-bench存在的三个主要问题:

SWE-bench Verified的主要改进之一是采用容器化的Docker环境开发了新的评估工具包。

这一改进的目的在于使评估流程更为一致和可靠,并降低与开发环境设置相关问题出现的可能性。

例如,GPT-4解决了33.2%的样本,而表现最佳的开源代理框架Agentless的得分翻了一番,达到了16%。请注意这里可能是笔误,GPT-4o应当修正为GPT-4。

性能的提升表明,SWE-bench Verified 更好地反映了人工智能模型在软件工程任务中的实际能力。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析