一幅图像即可生成25秒绘画全程的创新项目引发热潮!ControlNet创作者的最新力作在GitHub上迅速走红,短短一天内便收获600多颗星,反响热烈。
编辑日期:2024年07月13日
张吕敏,ControlNet的创始人,再度推出新颖之作!只需提供任何图像,系统便能迅速转化为一段25秒的动态绘画展示:
[25秒绘画过程演示的创新项目]
从轮廓勾勒至色彩填充,再到微小细节的修饰,一应俱全:
[25秒绘画过程演示的创新项目]
无论是动漫样式还是其他艺术风格,它都能轻松应对:
[25秒绘画过程演示的创新项目]
该项目名为Paints-Undo,在GitHub上线不足一天,就收获了超过600个星星:
[25秒绘画过程演示的创新项目]
讨论区对它的热议持续升温,众多网友赞叹其技术高超:
[25秒绘画过程演示的创新项目]
然而,由于效果逼真,也引来了一些有趣的批评,有人戏称这降低了手绘伪造的难度:
[25秒绘画过程演示的创新项目] [25秒绘画过程演示的创新项目]
一项创新项目能将静态图像转化为25秒的绘画过程动画,引发了众多网友的兴趣和尝试。该项目的名字"Paints-Undo"暗示了它的功能,仿佛在绘画软件中连续使用撤销(Undo)操作。它包含了多种描绘人类绘画技巧的模型,如素描、描边、上色、添加阴影、变形、图像翻转、调整色彩曲线、改变图层透明度,甚至在创作过程中改变整体构思等。
目前,项目已公开了两种模型:paints_undo_single_frame和paints_undo_multi_frame。paints_undo_single_frame是单帧模型,基于SD1.5架构优化,输入是一幅图像和一个操作步骤,然后输出新图像。操作步骤数值代表撤销次数,例如设为100,就会呈现撤销100次后的效果。
另一方面,paints_undo_multi_frame是多帧模型,利用VideoCrafter技术构建,但未采用原始Crafter的lvdm。所有训练和推理代码均从零开始全新编写。经过训练后,多帧模型的结构大致类似Crafter,由5个部分组成:3D-UNet、VAE、CLIP、CLIP-Vision和Image Projection。
双图像输入的多帧模型能够生成介于两者之间的16帧连续图像,相较于单帧模型,它的输出更为连贯,但运算速度较慢且创新性不足。标准实现策略是结合两种模型:首先利用单帧模型产生5至7个“关键帧”,接着用多帧模型填充这些关键帧间的空白,由此制作出较长的视频序列。尽管理论上可以无限延伸,但在实际开发测试中,100至500帧的效果最佳。
本地部署的方法如下所示:
[图像:描绘25秒绘画过程的创新项目]
项目测试在配备24GB显存的Nvidia 4090和3090TI显卡上进行。理论上,16GB显存也足够,但低于8GB则无法支持,至少需要10到12.5GB的显存空间。
根据系统配置,处理一个图像可能需要5到10分钟的时间。生成的视频长度为25秒,每秒4帧,分辨率可选320×512、512×320、384×448或448×384。
此技术不仅限于直接生成25秒的完整上色过程。例如,输入线稿能创造出绘制线稿的动态效果:
[图像:描绘25秒绘画过程的创新项目]
此外,单个输入可以产生多个不同的输出:
[图像:描绘25秒绘画过程的创新项目]
或者,可以从单张图像中提取出不同细节层次的线稿:
[图像:描绘25秒绘画过程的创新项目] [图像:描绘25秒绘画过程的创新项目]
探索创新艺术领域,尝试动手制作: 参与代码库:https://github.com/lllyasviel/Paints-UNDO
体验即将升级的生成式搜索技术:
1月5日,"智能共创·中国AIGC产业应用高峰会议暨无界AI生态伙伴大会"于杭州启幕:
由热门"反向词典"团队匠心呈现:
横跨2020至2023年的科技艺术之旅:
栩栩如生,仿佛真实摄影:
AI绘制,超乎想象。