RTX3090可以运行，360AI团队开源了最新的视频模型FancyVideo，连穿红衣的大叔都赞不绝口。

编辑日期：2024年08月26日

论文作者之一马奥，拥有中国科学院计算技术研究所硕士学位，在微软亚洲研究院视觉计算组及阿里通义实验室有过学术研究与算法实施的经历。目前担任奇虎360-AIGC团队中负责视频生成方向的主管，专注于视觉生成领域的研究及应用，并积极投身于开源社区的建设。

近期，开源社区迎来了一项强大的“视频生成”成果，它能够在消费级显卡（例如GeForce RTX 3090）上生成各种分辨率、比例、风格以及不同动态幅度的视频，其衍生模型还能实现视频扩展和回溯等功能。这项成果即是由360AI团队与中山大学共同研发的FancyVideo，一种基于UNet架构的视频生成模型。

以下是根据已开源的61帧模型的实际测试效果：

支持不同分辨率与比例的适应；
支持多种风格；
能够生成不同动态特性的视频。

RTX3090 can run, 360AI team in action

论文链接：https://arxiv.org/abs/2408.08189

项目主页：https://fancyvideo.github.io/

代码仓库：https://github.com/360CVGroup/FancyVideo

论文标题：FancyVideo：通过跨帧文本引导实现动态且连贯的视频生成

摘要

在视频生成的研究中，作者们注意到当前文本到视频（T2V）的方法普遍采用空间交叉注意力机制，这种方法简单地将文本信息应用于各帧的生成过程，而未能充分考虑不同帧间的差异性和灵活性（如左侧图所示）。这种处理方式导致模型难以准确捕捉提示词中的时间逻辑，并限制了其生成连贯动作视频的能力。

为了解决上述问题，FancyVideo 引入了一种新的跨帧文本引导模块（Cross-frame Textual Guidance Module, CTGM，如右侧图所示），以优化现有的文本控制机制。该模块包含以下三个关键子组件：

时序信息注入器 (Temporal Information Injector, TII)：该组件负责将每帧特有的潜在特征信息融入文本条件中，从而形成跨帧的文本条件。
时序特征提取器 (Temporal Affinity Refiner, TAR)：此部分沿着时间轴进一步精炼跨帧文本条件与潜在特征之间的关联性矩阵。
时序特征增强器 (Temporal Feature Booster, TFB)：这个组件增强了潜在特征的时间一致性，确保生成视频的连贯性。

通过这三个子模块的协同作用，FancyVideo 能够更有效地利用文本信息指导视频生成过程，显著提升了生成视频的质量和连贯性。

图片说明

上图展示了 FancyVideo 的训练流程。

下面是 FancyVideo 的整体训练流程图。在模型架构上，FancyVideo 采用了在 2D T2I（文本到图像）模型的基础上插入时序层和基于 CTGM 的运动性模块来构建 T2V（文本到视频）模型的方法。在生成视频的过程中，先执行 T2I 操作生成第一帧，然后继续完成 I2V（图像到视频）的过程。这种方法不仅保留了 T2I 模型的优势，确保了视频的整体画质较高，而且还大幅度降低了训练成本。为了实现对运动性的控制，FancyVideo 在训练阶段将基于 RAFT 技术提取的视频运动信息以及时间嵌入一同输入到网络中。

RTX3090可以运行，360AI团队开