跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

最强AI程序员Genie让人失业:84秒内完成编码,思维近似人类,开发团队仅有5人

编辑日期:2024年08月13日

最强ai程序员genie让人失业84秒内

那么这个“地表最强”,究竟强到什么程度呢?我们先来看一下评测得分。

在权威排行榜SWE-Bench中,Genie以解决30.07%问题的成绩位列第一。

(SWE-Bench 是一个用于评估大型模型解决实际中软件问题的基准。)

这一成绩可以说远远超过了第二名19.27%,并且实现了状态-of-the-art(SOTA)的最大提升幅度——57%!

最强ai程序员genie让人失业84秒内

按照团队的说法来描述 Genie 的实际效果就是:

首先,你可以通过四种方式启动 Genie,分别是触发词、GitHub Issue、Linear Ticket 或 API。

最强ai程序员genie让人失业84秒内

以解决 GitHub Issue 为例,首先将一个仓库(repo)的链接提供给 Genie,然后它就开始自动解析这个问题:

最强ai程序员genie让人失业84秒内

Genie 会自动进行迭代思考,确定为了解决这个问题所需的各种文件,直到它觉得自己已经找到满意的结果为止。

最强ai程序员genie让人失业84秒内

紧接着,它将对问题进行一个自动迭代的分析过程:

最强ai程序员genie让人失业84秒内

然后 Genie 就开始自动地“唰唰唰”地写代码并运行了:

最强ai程序员genie让人失业84秒内

最强ai程序员genie让人失业84秒内

如果在运行代码时出现bug,Genie 会仅对出现问题的部分重复进行分析、编写代码和运行的过程,直到成功运行为止。

而整个过程,仅仅只花了84秒!

最强ai程序员genie让人失业84秒内

按照团队的说法:

这是任何一位人类程序员终其一生都无法达到的数量。

最强ai程序员genie让人失业84秒内

但更令人惊讶的是,Genie背后的团队——Cosine,其实只有5人。

此外,CEO Alistair 还发表了一篇文章来感谢 OpenAI:

最强ai程序员genie让人失业84秒内

那么,Cosine团队到底是如何创建Genie的呢?

Genie 的主要特点是能够模拟人类工程师的认知过程、逻辑和工作流程。

为了实现这一点,Genie团队透露在过去一年中收集了一个数据集,该数据集包含了真实的人类程序员的开发活动。

这里不仅运用了成果分析、静态分析、自我对弈、逐步验证等方法,还利用了基于大量标注数据训练的AI模型。优点在于,当基础模型的能力得到提升时,它们所能抽取的数据质量也会相应地提高。

最终,Genie使用这个专有数据进行训练。

数据集完整地编码了人类的推理过程,其中包括理想的信息溯源、增量知识发现,以及基于软件工程师实际工作经验的逐步决策过程。

Genie的推理流程主要包括规划、检索、代码编写及运行四大步骤,这打破了其他AI工程师仅依赖于在基础模型上添加网页浏览器、代码解释器等额外工具的局限性,使其能像人类一样处理各种复杂多变、高度情境化且前所未遇的问题。

最强ai程序员genie让人失业84秒内

这种训练方式使得网友们立刻联想到了之前Karpathy提出的类似概念:

最强ai程序员genie让人失业84秒内

此外,在Genie的训练过程中还引入了自我提升机制。

初始的训练数据大多为正常的、无错误的代码,这导致Genie在面对错误情况时表现不佳。为了解决这个问题,团队利用初期版本的Genie生成包含错误的合成数据,再用这些数据来训练后续版本的模型。

具体来说,使用旧版本的Genie提出解决方案,如果解决方案有误,就利用已知的任务最终状态来教导它如何从当前状态到达正确的状态。

通过不断重复这个过程,Genie提出的初始解决方案逐渐变得更加准确,大多数情况下能够直接给出正确的答案。即便出现错误,也只需要对数据集进行较少的修正。

Genie能力提升的另一个关键因素在于获得了OpenAI提供的大型模型支持。

团队表示,在最初开发Genie时,他们仅能访问微调范围内16-32k的短上下文模型。他们利用这些模型进行了大量的早期开发工作,并使用超过1亿个token的数据来训练模型。虽然他们发现所设计的架构具有一些优点,但从根本上来说,这种模型在特定时间能处理的信息量是有限的。

在尝试了各种压缩和分块方法之后,唯一的解决办法是使用具有更大上下文的模型。

OpenAI 提供了对长上下文模型的支持,而最新版本的 Genie 已经经过了数十亿 tokens 的数据训练。

团队认为数据的质量比超参数调整和数据量更为关键。因此,在数据混合方面进行了大量的实验,涉及语言、任务类型、任务长度等多个维度。以下是用于训练 Genie 的不同编程语言数据所占的比例:

最强ai程序员genie让人失业84秒内

还有不同类型的实例数据的比例:

最强ai程序员genie让人失业84秒内

正如前文所述,Cosine这家初创团队目前仅有5人。

在官方网站的介绍中,他们也非常直接地将自己描述为:

虽小却有力。

最强ai程序员genie让人失业84秒内

根据介绍,这些成员有的来自独角兽企业,有的具有管理全球团队的经验,甚至还有从8岁就开始编程的。

但当Cosine最初成立时,仅有3人,他们的目标是想要弄清楚人类的推理过程。

最强ai程序员genie让人失业84秒内

值得一提的是,团队中还有一位华人成员,Yang Li,他是Cosine的联合创始人,并在2021年荣登福布斯30 under 30榜单。

最强ai程序员genie让人失业84秒内

除此之外,关于Genie本身,CEO艾莉斯泰尔还表示:

直到过去六个月多来,随着大型模型的逐步成熟,Genie才得以实现。

最强ai程序员genie让人失业84秒内

嗯,不得不说,大型模型又立功了。

(如果"大模型"指的是特定的领域或者某种大型的数据模型,这句话是合适的。但如果需要更具体的上下文信息以提供更准确的翻译或改写,请告知。)

Genie现在已开放等待名单,感兴趣的朋友可以通过点击文章末尾的链接申请加入等待名单哦~

参考链接:

注意:您未提供需要重写的具体内容,仅重写了“参考链接”部分。若需重写其他内容,请提供详细信息。

本文转载自微信公众号:微信公众号(ID:QbitAI),作者:金磊和西风。原文标题为《最强AI程序员来势汹汹:84秒完成编码,思维媲美人类!团队成员仅5人》。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析