OpenAI 发布了 SWE-bench Verified 基准,以更精确地评估 AI 模型在代码生成方面的表现。
编辑日期:2024年08月15日
注:SWE-Bench 是一个基准测试数据集,用于评估大型语言模型解决GitHub上真实软件问题的能力。
它收集了来自12个流行的Python仓库中的2294个问题-拉取请求对。在测试时,LLM会获得一个代码库及问题描述,随后生成一个补丁以解决所描述的问题。
该基准采用了两种类型的测试:
OpenAI指出了SWE-bench存在的三个主要问题:
SWE-bench Verified的主要改进之一是采用容器化的Docker环境开发了新的评估工具包。
这一改进的目的在于使评估流程更为一致和可靠,并降低与开发环境设置相关问题出现的可能性。
例如,GPT-4解决了33.2%的样本,而表现最佳的开源代理框架Agentless的得分翻了一番,达到了16%。请注意这里可能是笔误,GPT-4o应当修正为GPT-4。
性能的提升表明,SWE-bench Verified 更好地反映了人工智能模型在软件工程任务中的实际能力。