跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

三大模型联手挑战 o1,实际测试中 360 多个模型协同工作,击败了提示词工程技术。

编辑日期:2024年09月20日

多模型协作,多系统协同

OpenAI推出的o1标志着大模型演化的全新范式——推理定律(Inference Law)。正如英伟达AI科学家Jim Fan所言,o1的问世意味着大模型开发者们开始将原本集中在训练阶段的投入转向推理过程。

Jim援引了机器学习先驱Rich Sutton在其经典文章《苦涩的教训》中提到的观点:只有两种技术能够无限扩展AI计算的潜力——学习和搜索。而现在,正是时候将关注点转向后者。

加大在推理方面的投入,可以使模型具备更为完整的思考过程,这种投入的增加带来了实质性的提升。在国内,360创始人周鸿祎的理念与此不谋而合。360不仅更早地提出了“慢思考”的概念,并且已经在技术和产品层面进行了实践。

此外,360在其AI产品中强调了多模型协作,让不同厂商的大模型协同工作,为国内模型追赶OpenAI提供了一条切实可行的路径。尽管o1的具体思考过程仍然是OpenAI的核心机密,但可以肯定的是,思维链(Chain of Thought, CoT)在其推理过程中扮演了关键角色。根据OpenAI关于o1的报告,思维链使模型能够识别并纠正错误、将复杂问题分解为简单步骤,甚至尝试不同的解决方法,从而显著提升了模型的推理能力。

在今年的国际顶级人工智能会议ICLR上,谷歌大脑推理团队创始人Denny Zhou、清华大学姚班校友、斯坦福大学助理教授及斯隆奖获得者马腾宇等人共同发表了一篇论文,揭示了思维链的巨大潜力。

三大模型联手挑战 o1,实际测试中 36

从本质上讲,思维链的概念与2002年诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考快与慢》中提到的“系统2”相似,即“慢思考”系统。与之相对,“系统1”指的是快速且无意识的直觉判断,而“系统2”则涉及复杂的、有意识的推理过程。

o1的表现证明了这种适用于人类的“慢思考”理念同样适用于大型模型。

然而,需要注意的是,在人类大脑中,“系统1”和“系统2”是相互配合、共同存在的。因此,在大型模型中,这两者也不应被割裂开来。

周鸿祎认为,o1遵循的可能是“双系统理论(Dual Process Theory)”,该理论的核心在于“快思考”和“慢思考”系统的协同运作。

作为“百模大战”的参赛者之一,周鸿祎及其公司360不仅是“慢思考”和“多系统协同”的倡导者,也是实践者。

在7月底举行的ISC.AI大会上,周鸿祎宣布将致力于构建“慢思考”系统,以增强大型模型的“慢思考”能力。

基于“多系统协同”机制,360通过多个模型组成的智能体框架,实现了从“快思考”到“慢思考”的转变,并推出了两款明星AI产品:360AI搜索和360AI浏览器。

360AI搜索提供了简洁回答、标准回答和深入回答三种模式。在深入回答模式下,一次查询可能需要调用7到15次大型模型。

例如,这可能包括1次意图识别模型调用、1次搜索词改写模型调用、5次搜索调用、1次网页排序调用、1次生成主回答调用和1次生成追问调用等。

三大模型联手挑战 o1,实际测试中 36

在多个模型的协同工作下,360AI搜索形成了如下工作流程:以一道古诗词的中译英题目为例,路由模块会调用翻译、反思等多个模型,使它们分工合作,共同完成任务。

三大模型联手挑战 o1,实际测试中 36

最新版本进一步强化了多模型协作,并将其作为一种独立的回答模式。具体来说,三个不同的模型分别担任生成初步答案的专家、检查回答的反思者以及最终给出答案的总结者。

例如,在这个案例中,作为专家的Kimi指出了问题的关键点,但表述不够清晰。在反思模型360智脑的建议下,豆包对答案进行了重新总结,最终形成了精准的答案。

三大模型联手挑战 o1,实际测试中 36

这种工作模式不仅将快慢思考协同和反思机制引入AI应用,还通过不同模型之间的交叉验证,进一步提升了整体表现。

在另一款AI产品——360AI浏览器中,已经集成了16家厂商的54款大型模型,实现了传统浏览器无法比拟的功能。

三大模型联手挑战 o1,实际测试中 36

该浏览器可以在10秒内总结上万字的英文学术论文,并针对其中的细节进行提问。

三大模型联手挑战 o1,实际测试中 36

此外,它还可以沉浸式翻译PDF文档,支持原文与译文同步滚动,方便用户随时对照。

三大模型联手挑战 o1,实际测试中 36

不仅能化身“AI省流侠”,迅速总结在线视频内容并提炼重点,还可以根据视频结构绘制思维导图,甚至分析创作风格……

三大模型联手挑战 o1,实际测试中 36

不仅能够解析在线文档和视频,这些分析功能同样适用于本地文件。

更为便捷的是,360AI浏览器还推出了移动版,您可以在手机上随时随地借助AI的力量畅游网络。

三大模型联手挑战 o1,实际测试中 36

已入驻360AI浏览器、基于CoE架构的AI助手(bot.360.com),可以根据任务类型和模型特点自动选择最合适的大型模型。无需更换平台,即可与54种大型模型直接对话,或与更强大的混合模型交流,随心所欲地选择您想要的模型。

AI助手同样支持“多模型协作”,用户可以从54种模型中挑选三种,分别担任专家、反思者和总结者的角色。

未来,360还将推出更多模型协作完成任务的版本。在360AI浏览器中,AI助手还上线了“模型竞技场”(bot.360.com),支持54种大型模型产品进行“同台竞技”。最新版本还新增了“组队较量”、“匿名比拼”、“随机对战”等功能。

三大模型联手挑战 o1,实际测试中 36

总体来说,无论是360AI搜索还是360AI浏览器,尽管它们的重点不同,但背后的核心理念始终如一——

在进行“慢思考”时,我们不局限于单个模型的能力,而是让多个模型“抱团合作”,集思广益,形成“众人拾柴火焰高”的局面。这样做不仅提升了用户体验,也为各大模型的开发者提供了激励。

我们知道,大型模型的研发投入巨大,只有吸引足够多的用户才能回收成本。借助360的AI搜索、浏览器、安全卫士等入口,360能够为大型模型开发者提供触及10亿用户的通道。这也是阿里巴巴、腾讯、百度等大公司以及众多新兴模型纷纷加入360 AI架构的重要原因。

因此,360与这十几家厂商的合作,实现了模型与AI应用之间的相互促进和发展,形成了良性循环。模型竞技场则为国产大型模型提供了一个在竞争中学习的平台,并给予它们获取用户反馈的机会,营造了积极进取的氛围。

从技术角度来看,连接理念与产品的桥梁是360独创的CoE(Collaboration-of-Experts,专家协同)架构。CoE架构汇集了大量大型模型和专家模型,通过思维链和“多系统协同”的方式,实现了“快思考”与“慢思考”的有机结合。

CoE架构与o1的理念相似,但在深度上更进一步——

尽管o1融合了OpenAI的自家模型,但CoE则广泛吸纳了更多大型模型和专家模型。

此外,CoE架构还接入了许多参数规模较小的专家模型,使整个系统更加智能,在保证高质量回答的同时,节省推理资源并提升响应速度。

早在CoE架构发布之初,基于其混合模型能力的优势就已经超越了当时的最强模型GPT-4。

该混合大模型在翻译、写作等12项指标的测试中取得了80.49分的综合成绩,超过了GPT-4的69.22分;并且在除了代码之外的11项指标上均优于GPT-4。

三大模型联手挑战 o1,实际测试中 36

此外,CoE架构对所有模型持开放态度,在开放协作方面走得更远……

无论是OpenAI的GPT-4,还是360的CoE,都将推动大模型发展进入一个新阶段——

复杂的人工环节将实现自动化,具体到大模型中,就是“消除”Prompt工程。

乍一听似乎有些反直觉,因为提示词的质量对我们使用大模型时生成的内容有着决定性的影响,其重要性不言而喻。

但仔细思考后却发现这并不矛盾——大模型等AI应用最终是为了服务于人类;

而提示工程却要求人类去适应模型的工作方式,这显然是本末倒置。

因此,虽然提示工程非常重要,但它不应成为普通用户使用大模型的“障碍”。

解决方法是将提示词的设计工作,像其他任务一样,作为思维链的一部分交给大模型来完成。

在这种模式下,提示工程的核心仍然存在,但在用户的体验中逐渐淡化,形成一种“消失”的感觉。

这也反映了360对未来AI发展的期望——

让AI惠及更多人,使大模型不再高高在上,而是走进千家万户。

三大模型联手挑战 o1,实际测试中 36

自动生成你喜欢的画风

三大模型联手挑战 o1,实际测试中 36

由大学生科研辅导独角兽公司沃恩智慧打造。

三大模型联合挑战 o1,实际测试中的表现

实验发现专家分配与话题无关:

网友称 Bard 联网存在不公平现象:

成绩无法复现,并涉嫌套壳问题:

此外,这些模型还能进行通用目标检测:

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析