跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

使用AI自动设计的智能体使数学成绩提高了25.9%,这一效果远远超过了手工设计的成果。

编辑日期:2024年08月22日

基于ADAS发现的智能体展现出远超先进人工设计基线的卓越性能。

基础模型(如GPT及Claude等)正逐渐成为通用智能的强大支柱,并被广泛应用于各类推理与规划任务之中。

然而,在实际问题解决过程中,所需的往往不是单一模型查询,而是由多个组件构成的复合型智能体系统。此外,为了使智能体能应对复杂的真实世界任务,它们常常需要接入诸如搜索引擎、代码执行及数据库查询等外部工具。

为此,诸多高效的智能体系统构建模块应运而生,包括但不限于连锁思维规划与推理、记忆架构、工具利用及自我反思机制。尽管这些智能体已在多个应用场景中取得显著成效,但构建这些模块并将其整合为复杂的智能体系统通常需要领域特定的手动调优,以及研究者与工程师的巨大投入。

历史经验告诉我们,手工设计的解决方案终将被机器学习模型自动生成的方案所取代。

在此背景下,来自不列颠哥伦比亚大学、Vector Institute等机构的研究人员开创了一个新的研究领域——智能体系统的自动化设计(ADAS,Automated Design of Agentic Systems),并提出了一种名为“元智能体搜索”(Meta Agent Search)的简易高效算法,以证明智能体可通过编程手段创造新颖且强大的智能体设计方案。

本研究旨在自动创建高性能的智能体系统设计,包括新构建模块的开发及其创新组合方式。

实验结果显示,基于ADAS发现的智能体表现出显著超越人工设计基线的优秀性能。例如,本研究所设计的智能体在DROP阅读理解任务中提升了13.6/100的F1分数(相较于基线),在MGSM数学任务中的准确率提高了14.4%。此外,在跨领域迁移后,其在GSM8K及GSM-Hard数学任务上的准确率分别较基线提升了25.9%及13.2%。

与人工设计的方法相比,本文中的算法展现出了优异的表现,这凸显了智能体系统自动化设计(Automated Design of Agentic Systems, ADAS)在构建自动化智能系统方面的潜力。实验结果进一步证明,通过ADAS发现的智能体不仅能很好地适应相似领域的迁移学习,还能在不同领域间展现出良好的迁移能力,比如从数学领域迁移到阅读理解领域。

使用AI自动设计的智能体提升了数学成绩

本研究开创了一个新的研究方向——智能体系统的自动化设计,并详细阐述了构成ADAS算法的三大核心要素:搜索空间、搜索算法和评估函数。ADAS利用搜索算法遍历搜索空间以寻找最优的智能体系统。

使用AI自动设计的智能体提升了数学成绩

搜索空间:搜索空间定义了ADAS中可以表示和探索的智能体系统的范围。例如,PromptBreeder (Fernando et al., 2024) 只改变了智能体的文本提示部分,而保留了其他组件(如控制流程)不变。因此,在这样的搜索空间中,无法表示那些具有不同于预定义控制流程的智能体。

搜索算法

搜索算法规定了ADAS算法如何遍历搜索空间。鉴于搜索空间往往极为庞大乃至无限,因此需要在探索未知与利用已有知识之间取得平衡(Sutton & Barto, 2018)。理想的搜索算法既能迅速找到高性能的代理系统,又能避免陷入局部最优解。目前的方法包括使用强化学习(Zhuge等人, 2024)或通过迭代方式生成新解决方案的形态映射(FM)(Fernando等人, 2024)作为搜索机制。

评估函数

依据ADAS算法的具体应用场景,可能需要考虑多种优化目标,如代理系统的性能、成本、延迟或安全性等。评估函数则定义了如何衡量候选代理系统在这些方面的表现。例如,为了评估代理系统对未知数据的表现,一种直接的方法是计算其在验证集上的准确率。

本研究所提出的简单而有效的ADAS算法——元代理搜索,其核心理念在于指导元代理迭代地创造有趣的新代理系统,对其进行评估,并将这些系统加入代理库中;同时,该库会被用于辅助元代理在未来迭代中创造出更加有趣的新代理系统。这一理念与现有的开放式算法相似,都鼓励元代理探索那些有趣且有价值的代理系统。

元代理搜索的核心思路是采用形态映射作为搜索算法,基于持续扩大的代理库来迭代生成有趣的新代理系统。研究中为元代理定义了一个简洁的框架(少于100行代码),提供了诸如查询形态映射或格式化提示等基础功能。

因此,元代理只需实现一个“前向”函数来定义新的代理系统,这与FunSearch中的做法相似(Romera-Paredes等人, 2024)。这个函数接受任务信息作为输入,并输出代理系统针对任务的响应。

如图1所示,元代理搜索的关键在于使元代理能够在代码中迭代生成新的代理系统。下面是元代理生成新代理系统时的主要提示示例,其中高亮显示了提示中的变量。

实验结果显示,本研究所提出的由人工智能自动生成的智能体性能显著超越了现有的顶尖人工设计智能体。具体来说,我们的智能体在DROP阅读理解任务中的F1分数提升了13.6/100点,在MGSM数学任务上的准确率提高了14.4%。此外,当从GPT-3.5迁移到GPT-4时,我们的智能体在ARC任务上的准确率提升了14%;从MGSM转移到GSM8K和GSM-Hard的held-out数学任务时,准确率分别提高了25.9%和13.2%。

案例研究:ARC挑战

如图3a所示,通过元智能体搜索能够有效地、逐步地找到性能超过当前最佳人工设计智能体的新模型。在文本框中,我们特别突出了关键的突破点。

另外,图3b展示了最佳智能体的发现过程,其中包括了一个复杂反馈机制以更高效地改进答案。通过对搜索进程的详细分析可以发现,这一复杂的反馈机制并非一蹴而就。

推理与问题解决领域

在多个不同领域的测试结果表明,元智能体搜索能发现性能优于现有最先进人工设计智能体的新模型(见表1)。

泛化能力和迁移能力

此外,我们还展示了所发现智能体的强大泛化能力和迁移能力。

如表2所示,研究者观察到通过搜索得到的智能体始终优于手工设计的智能体,且两者之间存在显著差异。特别值得注意的是,Anthropic 最强大的模型 Claude-Sonnet 在所有测试模型中的表现最佳,使得基于该模型的智能体在 ARC 上达到了接近 50% 的准确率。

使用AI自动设计的智能体提升数学成绩

如表3所示,研究者发现元智能体搜索在性能上相较于基线有明显优势。尤其值得一提的是,与基线相比,本研究中的智能体在 GSM8K 和 GSM-Hard 数据集上的准确率分别提升了 25.9% 和 13.2%。

使用AI自动设计的智能体提升数学成绩

更为惊人的是,研究者还观察到在数学领域训练出的智能体能够成功迁移至非数学领域(见表4)。

使用AI自动设计的智能体提升数学成绩

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析