元象发布国内首款基于物理的3D动作生成模型MotionGen

编辑日期：2024年08月28日

www.MotionGen.cn

元象发布国内首款基于物理的3D动作生成模

只需一句话即可生成复杂的3D动作，效果令人惊叹！测试期间可申请免费试用。

在3D内容制作领域，生成逼真的角色动作一直是个难题，传统方法需要大量手工调整或昂贵的动作捕捉设备，导致效率低下、成本高昂，并且难以应对复杂的场景和交互任务。

元象XVERSE推出了国内首款基于物理的3D动作生成模型MotionGen，该模型创新性地结合了大模型、物理仿真和强化学习等前沿算法，使用户通过简单的文本指令即可快速生成逼真、流畅且复杂的3D动作，效果惊艳，标志着中国3D AIGC领域的重大突破。

现在，即使是零经验的创作者也能轻松上手，创造出高质量的动画，为动画、游戏、电影和虚拟现实行业带来极高的创作自由度。

作为国内领先的AI+3D公司，元象已研发了多款创新的AIGC工具，包括广东首批获得国家备案的大模型、图文多模态大模型、基于3DGS革命性技术的3D场景生成工具，以及让“虚拟世界活起来”的3D动作自动生成算法。元象的目标是持续提升认知智能（AI）和感知智能（3D），加速迈向通用人工智能（AGI），让每个人都能自由地“定义你的世界”。

元象发布国内首款基于物理的3D动作生成模

MotionGen技术实现

传统3D动作生成方法面临诸多挑战：运动控制器方法虽然可以在设定参数后生成简单的动作，但无法生成复杂动作；时空优化方法能够生成流畅且复杂的动作，但需要精心设计目标函数并手动调整参数，工作量巨大，且生成的动作难以在变化的环境或任务中复用；运动学方法能够生成高质量的单个动作，但在处理重力和惯性等物理约束时表现不佳，导致连续动作不够真实；基于物理的运动控制方法虽然确保动作符合物理规律，但无法直接应用于传统的生成模型。

MotionGen工具基于元象自主研发的MotionGenGPT算法，创造性地融合了物理仿真、模仿学习、强化学习、矢量量化变分自编码器（VQ-VAE）和Transformer模型等多种复杂算法，无需人工设定或调整参数，即可直接生成逼真流畅的复杂3D动作，并适用于任何角色的骨架驱动。

强化学习 + 物理仿真：让动作自然逼真

目前业界普遍采用动捕数据来训练动作生成模型，但原始动捕数据通常存在抖动和误差，导致生成的动作不够自然且不符合物理规律。我们结合深度强化学习，在仿真环境中通过模仿学习[1,2,3,4]来生成更自然的动作。这种方法利用统一的模仿误差作为优化目标，无需设计特定的目标函数。通过在训练过程中引入扰动和改变目标，训练出的控制器可以适应不同目标动作的变化，呈现出自然的过渡动作。

VQ-VAE：提取特征并复用

矢量量化变分自编码器（VQ-VAE）用于从动捕数据中提取关键特征，从而实现动作的高效复用。这种技术不仅提高了动作生成的质量，还简化了模型的训练过程，使得生成的动作更加真实且易于扩展。

基于矢量量化变分自编码器（VQ-VAE）[5]

近期的研究表明，矢量量化变分自编码器（VQ-VAE）能够提供一种高效且紧凑的动作表征方法。许多运动学中的动作生成模型[6, 7, 8]已经验证了VQ-VAE这种离散但紧凑的隐空间表示不仅适用于大规模数据集的训练，还能应用于多种下游任务。受到这些研究的启发，我们将VQ-VAE训练得到的动作表征与GPT相结合，实现了基于物理模拟的文本生成动作。

Transformer：文本与动作的高效连接

在文本生成动作的任务中，Transformer 结构发挥了重要作用。受近年来序列模型发展的启发，我们利用 Transformer 的注意力机制[9]，在文本与动作表征之间建立了复杂而精准的联系。通过双 Transformer 设计，模型不仅生成了基础动作编码，还进一步细化了这些编码，捕捉到了运动的微妙细节。这种多层次编码方式使生成的动作既符合物理规律，又展现出自然的流动性和多样性，显著提升了文本驱动动作生成的表现力。该设计使得 MotionGenGPT 能够从文本中生成多样且高度逼真的运动序列，实现了自然语言与运动控制的无缝连接。

元象发布国内首款基于物理的3D动作生成模

MotionGenGPT 算法的两大框架

第一部分：学习物理正确的动作表征（motion embeddings）

研发团队基于物理模拟的运动控制，采用残差矢量量化变分自编码器（Residual VQ-VAE）结合强化学习，从大量的非结构化人类运动数据集中学习动作表征（motion embeddings）。通过引入离散的动作表征，有效捕获多样化的运动技能，为后续文本编码器的接入提供了稳健的先验分布接口。

元象发布国内首款基于物理的3D动作生成模型

第二部分介绍了生成模型的应用。算法框架通过自注意力机制（Self-attention mechanism）训练了两个 Transformer 模型。第一个模型是掩码 Transformer（Masked Transformer），负责从文本编码中推导出基础层（base layer）的动作编码。第二个模型是残差 Transformer（Residual Transformer），在此基础上生成更精细的残差矢量化动作编码。

这种设计提高了生成动作的细节表现力，并增强了与文本指令的匹配度，为文本生成动作的任务提供了有力支持。

引用

Levi Fussell, Kevin Bergamin, and Daniel Holden. 2021. SuperTrack: Motion Tracking for Physically Simulated Characters Using Supervised Learning. ACM Transactions on Graphics 40, 6 (Dec. 2021), 197:1–197:13.
Libin Liu, Michiel Van De Panne, and Kangkang Yin. 2016. Guided Learning of Control Graphs for Physics-Based Characters. ACM Transactions on Graphics 35, 3 (May 2016), 29:1–29:14.
彭雪斌、Pieter Abbeel、Sergey Levine 和 Michiel van de Panne。2018年。DeepMimic：基于示例引导的深度强化学习实现物理角色技能。《ACM图形学汇刊》第37卷，第4期（2018年7月），第143篇，页码1-14。
王廷武、郭云蓉、Maria Shugrina 和 Sanja Fidler。2020年。UniCon：适用于基于物理的角色运动的通用神经控制器。CoRR abs/2011.15119（2020年）。arXiv:2011.15119。
Aaron van den Oord、Oriol Vinyals 和 Koray Kavukcuoglu。2017年。神经离散表示学习。第31届神经信息处理系统国际会议论文集（NIPS'17）（美国加利福尼亚州长滩）。Curran Associates Inc.，纽约州红钩，页码6309-6318。
何源瑶、宋振华、周宇阳、敖腾龙、陈宝权、刘利斌。MoConVQ：通过可扩展的离散表示实现统一的基于物理的运动控制。arXiv预印本 arXiv:2310.10198，2023。
郭川、穆宇轩、Muhammad Gohar Javed、王森、程莉。MoMask：3D人体动作的生成掩码建模。arXiv预印本 arXiv:2312.00063，2023。
朱庆旭、张赫、兰梦婷、韩磊。基于神经分类先验的物理角色控制。《ACM图形学汇刊》第42卷第6期，文章编号178（2023年12月），共16页。
Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Łukasz Kaiser 和 Illia Polosukhin。注意力机制就是一切。《神经信息处理系统进展》（NeurIPS），2017。2, 4, 6。