MSRA认为在视觉生成领域存在六个关键的技术挑战。

编辑日期：2024年07月13日

核心挑战在于解析视觉信息

文本转图像、文本转视频等领域正蓬勃发展，但还面临亟待攻克的难题。微软亚洲研究院的研究员古纾旸对此进行了深入分析，他指出，视觉信号的分解是根本性问题。

生成模型旨在逼近目标数据的分布，然而这种分布过于复杂，难以直接建模。为了解决这一困境，通常需要将复杂的信号分解成若干个简单的分布，逐个进行拟合。不同的分解策略催生了各种不同的生成模型。

在视觉生成领域有六个关键问题

此外，他还探讨了几个热门议题，共涉及六大问题，如：扩散模型是否属于最大似然模型？其扩散规律如何？

关于某些问题的详细讨论如下：

为何大型语言模型能取得显著成效？

研究者认为，关键是文本信号的“等变性”属性。具体来说，对于文本序列A=x0,x1,x2…，语言模型会依据位置将联合分布P(x0,x1,x2…)拆分为多个条件概率分布问题：

P(x0),P(x1|x0),P(x2|x0,x1)…例如，对于句子“我喜欢打篮球”，使用自回归方法拟合时，“打”到“篮球”的转换任务与它在文本中的位置无关。

这意味着，无论是第一个任务P(x1|x0)还是第三个任务P(x3|x0,x1,x2)，需要拟合的分布本质上是“一致”的或“等变”的。

因此，可以利用同一个模型来有效处理这些高度相关的任务。

在视觉生成领域有六个关键问题

当前图像信号的分割方法主要包括图像区域分割、深度层次分割、噪声水平分割和可学习分割。这些方法并不都具备“等变性”属性。区域分割如iGPT和DALL-E，依据空间位置将图像切分为多个块，但由于图像各部位的独立特性，如图像行之间的断裂，以及人脸通常位于图像中心而非边缘，这种方法的“等变性”受到限制。

深度层次分割的代表作如VQVAE2和RQVAE，按照从粗糙到精细的顺序生成图像，先匹配低频再到高频信息，不同的学习目标同样影响了其“等变性”。此外，此类方法有时会导致“无效编码”问题。

扩散模型通过噪声强度对图像进行分割，例如从原始图像x0生成含噪序列x0, x1, x2, ..., xN，其中xN接近纯噪声。然而，去除不同噪声强度的过程具有显著差异，如MinSNR和eDiff-I所示，这表明它们并不具备“等变性”。

最后，可学习分割如VDM和DSB尝试改进，基于扩散模型的噪声强度分割，但通过学习过程而非预定义规则添加噪声。尽管有潜力实现“等变性”，目前这些方法在实践中仍未成功，并且仍面临一些挑战（如SDSB中所述）。

“不等变性”的问题是：面对相互冲突的任务，是否应使用共享参数的模型来适应这些分布？

共享参数的模型在应对目标各异的任务时往往难以兼顾，而分别优化每个任务又可能导致参数数量急剧增加，造成实际操作上的困难。目前，虽然实践中常采用多种信号分解方法以降低复杂度，但这种方法本质上仍然不具备“等变性”。图像信号的这种“非等变性”会带来一系列挑战，这些问题与后续章节探讨的内容紧密相关。现在我们简要概述一下。

如果使用RQVAE编码，当编码长度较长时，后续编码对于重建质量的提升可能微乎其微，甚至可能产生负面影响。

如图所示（此处应插入图片），MSRA认为视觉生成领域存在六个关键点。

作者通过数学简化，直观地揭示了这一问题的根源。设D为解码器，I为原始输入图像，编码的不同层次表示为x0, x1, x2, ..., xN，N为编码深度，这里假设为4。

RQVAE的重构损失L可视为以下四个子损失的组合：

（此处应插入图片）

为便于分析，我们设定两个假设：一是解码器执行线性转换；二是各子损失具有相等权重。基于这些假设，重构损失的计算可简化为：

（此处应插入图片）

因此，潜在空间中最小化图像级重构损失的结果是：

（此处应插入图片）

虽然DDPM通过最大似然原理阐述了扩散模型的理论基础，但多项研究揭示了扩散模型并不严格遵循这一原则。VDM++指出，当损失函数权重随着噪声强度单调变化时，扩散模型确实能实现最大似然估计，不过实践中通常不采纳这种权重设定。测试期间采用的无分类器引导方法也会改变优化目标，使最大似然不再是主要标准。以NLL损失作为评估生成模型的唯一依据并不全面。

为何最大似然方法无法达到最佳效果？作者提出了一种基于“不变性”的解释。得分匹配与非规范化最大似然有紧密联系，它能防止在最大似然学习中所有数据点被平均对待。对于特定的分布，如多元高斯，得分匹配与最大似然等效。VDM++的分析显示，使用单调的损失权重相当于对所有中间状态最大化ELBO，但这并未考虑不同噪声强度下的训练复杂性差异。

图像数据通常不具有这种不变性，训练似然函数的难度会随噪声强度变化，尤其在中等噪声水平时，学习可能不充分。无分类器引导在生成过程中可视为对学习不良的似然函数的补偿。在模型评估时，简单地对不同噪声水平的NLL损失赋予同等权重无法准确反映最终生成质量。

根据VDM++的训练损失，我们可以认识到在视觉生成任务中，不同噪声水平的贡献是不均衡的。

训练过程中，面对不同噪声强度的矛盾，我们可选择维持损失函数ω (λ)不变，或者调整采样频率P(λ)。理论上，这两者的效果相同，但在实践中，修改ω (λ) 相当于调整学习率，而改动P(λ) 则意味着为更重要任务赋予更高采样率，增加其计算负荷（Flops），这种方法通常比调整损失函数更具成效。

近期的研究“Improved Noise Schedule for Diffusion Training”提出了一种经验性的解决策略。

大型语言模型的成功很大程度上得益于规模法则。那么，对于扩散模型，是否存在类似的规模法则呢？

这个问题的核心在于如何选择合适的标准来评估模型的质量。这里我们探讨了三种方法：

1、采纳“Improved Noise Schedule for Diffusion Training”中定义的任务难度作为权重，对不同任务的损失进行加权，以此作为评价标准。通过构建模型参数量、训练迭代次数与最终性能之间的关系模型，我们可以得出相应结果。然而，此指标可能并不完全符合人类的主观偏好。

2、利用现有的生成模型评估指标，如FID。这类方法的局限性在于：一是FID等指标的内在偏见，例如它们假设图像特征分布符合高斯分布，可能导致系统误差；二是这些指标通常侧重于评估生成数据与目标分布的差距，这在现实场景下可能与人类喜好有所出入。

为评估模型性能，可采取人工标注的方法。首先，需收集大量的文本-图像数据集，随后利用生成模型依据文本创建图像，接着邀请用户对比生成的图像与真实图像（ground truth），根据用户偏好度来评判模型的表现。尽管这种方法需要大量人力资源，但它能确保生成内容符合人类的审美标准，并有助于优化测试策略。相关研究链接：https://cientgu.github.io/files/VisualSignalDecomposition.pdf

图片说明：MSRA指出视觉生成领域有六大重点

使用Blender生产随机数据

预测接下来的字节

MSRA在无线感知研究中的新进展

研究者坦诚：主要目标是探索潜力上限

增强语言大模型的能力，使其能迅速应对梗图智商测试