跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

寡姐推广国风Polo衫,马斯克穿牛仔服走红毯:新的虚拟试衣框架,仅需两张图片,30秒即可生成。

编辑日期:2024年07月30日

寡姐推广国风polo衫马斯克穿牛仔服走红

或者让寡姐来推广国风Polo衫~

寡姐推广国风polo衫马斯克穿牛仔服走红

即使是二次元换装也能轻松应对。

寡姐推广国风polo衫马斯克穿牛仔服走红

由中山大学、Pixocial等机构联合发布的轻量化模型架构CatVTON,其基础模型采用的是Stable Diffusion v1.5的inpainting技术。

来看看更多效果吧。

CatVTON 可以实现从传统的平铺服装图到人物的换装效果。

寡姐推广国风polo衫马斯克穿牛仔服走红

无论是上衣、裤子、裙子还是套装,各种不同类别的服装都是可以的。

寡姐推广国风polo衫马斯克穿牛仔服走红

其形状和纹理都能保持较高的一致性。

此外,CatVTON 还能够实现从人物 A 到人物 B 的服装替换。

无需明确指定类别,根据不同的遮罩(Mask)即可实现目标服装的试穿效果,支持单件上衣、裤子、裙子或同时替换全身多件服装。

寡姐推广国风polo衫马斯克穿牛仔服走红

寡姐推广国风polo衫马斯克穿牛仔服走红

既然如此,那么它是如何实现的呢?

CatVTON的功能丰富多样,但其模型架构却非常简洁高效:

寡姐推广国风polo衫马斯克穿牛仔服走红

轻量级架构的设计源于CatVTON对现有方法中模块冗余的观察:

寡姐推广国风polo衫马斯克穿牛仔服走红

具体来说,CatVTON 通过在通道维度上将人物和服装输入进行拼接(Concatenate),在架构上摆脱了对额外 ReferenceNet 的依赖。它省略了对图像虚拟试衣帮助不大的文本交叉注意力机制,并且不需要任何额外的图像编码器来辅助生成过程。

下表详细比较了不同方法与 CatVTON 在模块数量、参数量、可训练参数量、显存占用及推理条件方面的差异。

在网络模块方面,CatVTON 仅需采用VAE+UNet,无需添加任何额外的编码器;在总的模型参数数量上,CatVTON 相较于其他方法至少减少了44%;而在显存占用方面,CatVTON 也只占其他方法的一半或更低,这充分展现了CatVTON在实现轻量化模型结构的优势。

寡姐推广国风polo衫马斯克穿牛仔服走红

在训练方面,CatVTON 研究了在将预训练的扩散模型转移到 TryOn 任务时,去噪 UNet 中哪些模块才是真正起作用的。

首先,去噪UNet在结构上是由不同特征尺度的ResNet和Transformer模块堆叠而成(如下面的图)。其中,ResNet是一种卷积网络,具备空间不变性,适合用于特征提取,但不负责特征之间的跨空间交互。这部分在扩散模型进行大规模预训练时,已经获得了充足的特征编码能力,因此与迁移至TryOn任务的相关性不大。

寡姐推广国风polo衫马斯克穿牛仔服走红

变压器模块的内部结构可以进一步细分为三个部分:自我注意(Self Attention)、交叉注意(Cross Attention)和前馈神经网络(FFN)。其中,交叉注意在文本到图像(T2I)任务中用于与文本信息进行交互,而前馈神经网络则起到特征映射的作用。因此,与服装和人物特征交互最直接相关的部分是自我注意(Self Attention)。

理论上确定了需要训练的模块后,根据实验,在CatVTON的研究中还进行了消融研究,发现分别对UNet、Transformer Block和Self Attention进行解锁训练后,其可视化结果并无明显差异,且各项指标也非常接近,这证实了“Self Attention是将预训练扩散模型迁移至TryOn任务的关键模块”这一假设。

最终,我们通过理论分析和实验确定的自注意力(Self Attention)部分,仅包含49.57M个参数,这仅占总参数量的5.71%。对这一部分进行微调,就能实现高度逼真的试穿效果。如上一节的表格所示,与其它方法相比,CatVTON将可训练参数的数量减少了10倍以上。

寡姐推广国风polo衫马斯克穿牛仔服走红

最后进行总结,CatVTON 重新审视并设计了基于扩散模型的虚拟试穿框架,将多任务及多品类的虚拟试衣整合至同一模型中。通过轻量化的架构和参数高效的训练策略,实现了业界顶尖(SOTA)的试穿效果。这一方法降低了模型的训练和推理计算需求,更有利于推动虚拟试衣模型的实际部署与应用。

项目主页:

请访问这个链接:https://zheng-chong.github.io/CatVTON

论文链接:

请查看以下链接的论文:https://arxiv.org/abs/2407.15886

本文来源于微信公众号:量子位(ID:QbitAI),作者:专注前沿科技。原标题为《寡姐推销国风Polo衫,马斯克穿牛仔走红毯!全新虚拟试衣框架火热出炉,仅需两张图片,30秒快速生成》。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析