一幅图像即可生成25秒绘画全程的创新项目引发热潮！ControlNet创作者的最新力作在GitHub上迅速走红，短短一天内便收获600多颗星，反响热烈。

编辑日期：2024年07月13日

张吕敏，ControlNet的创始人，再度推出新颖之作！只需提供任何图像，系统便能迅速转化为一段25秒的动态绘画展示：

[25秒绘画过程演示的创新项目]

从轮廓勾勒至色彩填充，再到微小细节的修饰，一应俱全：

[25秒绘画过程演示的创新项目]

无论是动漫样式还是其他艺术风格，它都能轻松应对：

[25秒绘画过程演示的创新项目]

该项目名为Paints-Undo，在GitHub上线不足一天，就收获了超过600个星星：

[25秒绘画过程演示的创新项目]

讨论区对它的热议持续升温，众多网友赞叹其技术高超：

[25秒绘画过程演示的创新项目]

然而，由于效果逼真，也引来了一些有趣的批评，有人戏称这降低了手绘伪造的难度：

[25秒绘画过程演示的创新项目] [25秒绘画过程演示的创新项目]

一项创新项目能将静态图像转化为25秒的绘画过程动画，引发了众多网友的兴趣和尝试。该项目的名字"Paints-Undo"暗示了它的功能，仿佛在绘画软件中连续使用撤销（Undo）操作。它包含了多种描绘人类绘画技巧的模型，如素描、描边、上色、添加阴影、变形、图像翻转、调整色彩曲线、改变图层透明度，甚至在创作过程中改变整体构思等。

目前，项目已公开了两种模型：paints_undo_single_frame和paints_undo_multi_frame。paints_undo_single_frame是单帧模型，基于SD1.5架构优化，输入是一幅图像和一个操作步骤，然后输出新图像。操作步骤数值代表撤销次数，例如设为100，就会呈现撤销100次后的效果。

另一方面，paints_undo_multi_frame是多帧模型，利用VideoCrafter技术构建，但未采用原始Crafter的lvdm。所有训练和推理代码均从零开始全新编写。经过训练后，多帧模型的结构大致类似Crafter，由5个部分组成：3D-UNet、VAE、CLIP、CLIP-Vision和Image Projection。

双图像输入的多帧模型能够生成介于两者之间的16帧连续图像，相较于单帧模型，它的输出更为连贯，但运算速度较慢且创新性不足。标准实现策略是结合两种模型：首先利用单帧模型产生5至7个“关键帧”，接着用多帧模型填充这些关键帧间的空白，由此制作出较长的视频序列。尽管理论上可以无限延伸，但在实际开发测试中，100至500帧的效果最佳。

本地部署的方法如下所示：

[图像：描绘25秒绘画过程的创新项目]

项目测试在配备24GB显存的Nvidia 4090和3090TI显卡上进行。理论上，16GB显存也足够，但低于8GB则无法支持，至少需要10到12.5GB的显存空间。

根据系统配置，处理一个图像可能需要5到10分钟的时间。生成的视频长度为25秒，每秒4帧，分辨率可选320×512、512×320、384×448或448×384。

此技术不仅限于直接生成25秒的完整上色过程。例如，输入线稿能创造出绘制线稿的动态效果：

[图像：描绘25秒绘画过程的创新项目]

此外，单个输入可以产生多个不同的输出：

[图像：描绘25秒绘画过程的创新项目]

或者，可以从单张图像中提取出不同细节层次的线稿：

[图像：描绘25秒绘画过程的创新项目] [图像：描绘25秒绘画过程的创新项目]

探索创新艺术领域，尝试动手制作：创新艺术项目，从线稿到25秒绘画过程参与代码库：https://github.com/lllyasviel/Paints-UNDO