GPT-4 在玩《黑神话:悟空》时的表现超越了人类,对精英怪物的胜率更高,且无需强化学习,完全是基于大型模型的解决方案。
(注:原文中的“GPT-4o”疑似为笔误,这里按照上下文理解为GPT-4。同时,根据上下文推测,“无强化学习纯大模型方案”意指该表现是基于大型语言模型直接生成的结果,而非通过额外的强化学习训练得来。)
编辑日期:2024年09月24日
有方向感,视角也正常。
躲闪劈棍的动作非常流畅。
甚至在打鸦香客和牯护院时,AI的胜率已经超越了人类。
并且是完全依赖大型模型来完成,没有使用强化学习。
阿里巴巴的研究人员提出了一种新的VARP(视觉动作角色扮演)智能体框架。该框架能够直接将游戏截图作为输入,通过视觉语言模型进行推理,最终生成动作的Python代码,从而操控游戏。
以玩《黑神话・悟空》为例,该智能体在90%的简单和中等难度战斗场景中取得了胜利。
研究人员以《黑神话・悟空》作为研究平台,共定义了12个任务,其中75%与战斗相关。
他们建立了一个包含键盘和鼠标操作以及游戏截图的人类操作数据集,共有1000条有效数据。
每个操作都由一系列原子命令的不同组合构成,这些原子命令包括轻攻击、闪避、重攻击和回血等。
然后,他们提出了VARP智能体框架,主要包含动作规划系统和人类引导轨迹系统。
动作规划系统由情境库、动作库和人类引导库组成,通过利用VLMs进行动作推理和生成,并引入了用于分解特定任务的辅助模块以及自我优化的动作生成模块。
人类引导轨迹系统利用操作数据来改进智能体的性能。在面对困难任务时,该系统会查询人类引导库以获取类似的截图和操作,并据此生成新的引导动作。
VARP 还包含了三个库:场景库、行动库和人工引导库。这些库储存了代理自我学习及人类指导的信息,支持检索与更新。
在动作库中,“def new_func_a ()”表示由动作计划系统生成的新动作,“def new_func_h ()”表示由人导轨迹系统生成的动作。“def pre_func ()”代表预定义的动作。
动作案例研究及其对应的游戏截图。前两行的操作是预定义的函数。第三行的动作是由人工制导轨迹系统生成的。
SOAG会在每次玩家角色与敌人战斗互动后,总结第四行和第五行中的新动作,并将其存储在动作库中。
框架分别使用了GPT-4o(2024-05-13版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。
通过对比人类和AI的表现结果,我们可以看到,在某些方面,AI的表现已经达到了人类玩家的水平。
当到达牯护院时,Claude 3.5 Sonnet 表现不佳,而 GPT-4o 的胜率最高。
但对于新手玩家普遍感到头疼的幽魂,AI们也束手无策。
此外,研究还指出,由于 VLMs 的推理速度受到限制,无法实时处理每一帧画面。因此,它只能间隔性地输入关键帧,这可能导致 AI 在某些情况下错过 Boss 攻击的关键信息。
由于游戏中没有明确的道路指引,并且存在许多空气墙,在没有人引导的情况下,智能体无法自行找到正确的路线。
上述研究出自阿里团队,共有5位作者参与。
后续相关的代码和数据集将有发布计划,感兴趣的同学可以关注。
使用人工智能(AI)来玩游戏已不是新鲜事了,例如,基于强化学习技术的AI在《星际争霸II》中已经能够战胜人类职业选手。
使用强化学习方案通常需要输入大量的对局数据。例如,商汤此前训练的DI-star(结合监督学习和强化学习)就使用了“16万场录像”和“1亿局对战”数据。
但是,纯大型模型能够玩游戏仍然令人意外。在本研究中,数据集中有效数据的数量为1000条。
论文链接:
您提供的链接指向了一个 Arxiv 的论文摘要页面。如果您需要,我可以帮助您用中文概括或重写该论文的内容。请您提供更多关于要重写的具体内容或者直接提供论文的主要信息,我将更好地协助您。
如果是想要具体的文本转换或摘要,请给出具体的段落或内容要求。
项目地址:
(注:后面应该接具体地址,目前只有“项目地址:”这几个字,没有给出具体的地址信息。请补充完整以便更好地提供帮助。)
您提供的链接指向了一个 GitHub 页面,但是没有提供具体的信息来让我了解您需要什么样的中文内容。请您能提供更多细节或者具体要求吗?这样我才能够更好地帮助您。谢谢!
本文来自微信公众号“微信公众号”(ID:QbitAI),作者:小明,原题目为《GPT-4能玩〈黑神话〉!对精英怪物的胜率超过人类,无需强化学习的纯大模型方案》。