港大与腾讯联合研发的新型模型DiffMM，开创性地应用于短视频推荐领域，实现了出色的效果。

编辑日期：2024年07月06日

创新的多模态推荐系统框架

设想一下，当你浏览短视频时，系统需要推荐符合你口味的内容。然而，如果系统仅依赖于你的观看历史，而无法洞察你对视频中特定元素（如图像、文字描述或配乐）的偏好，推荐的准确性就会受限。

为了解决这个问题，香港大学和腾讯的研究团队共同开发了名为DiffMM的革命性多模态推荐系统。

DiffMM构建了一个包含用户和视频详细信息的图形结构，并运用图扩散技术强化它，以更深入地理解用户与视频之间的联系。接着，采用对比学习策略，确保不同感官元素（如视觉和听觉）的一致性，从而提升推荐系统对用户喜好的洞察力。

为了验证效果，研究团队在三个公开数据集上进行了广泛实验，结果显示DiffMM超越了现有主流模型，达到最先进的水平。

目前，该研究论文已公开发布，其代码也已开放源代码。下面是DiffMM的整体架构图，由三个核心部分组成：

DiffMM框架借鉴了扩散模型在保持原始数据模式方面的成功，提出了一种创新的多模态推荐方法。具体来说，它引入了一个多模态图扩散组件，用于创建包含各种模态信息的用户-物品交互图，以增强用户偏好的建模能力。该框架专注于减轻多模态推荐系统中不相关或嘈杂模态特征的负面影响。

为达成目标，作者运用了一种模态感知的降噪扩散概率模型，该模型融合了用户与物品间的协作信号以及多元模态信息。具体操作中，他们逐步消除原始用户-物品关系图中的相互作用，并借助概率扩散的过程进行迭代学习，以重构最初的交互模式。

这种迭代降噪训练策略成功地将模态信息融入到用户-物品交互图的生成过程中，同时减少了嘈杂模态特征的不良影响。

为了实现对模态的敏感图生成，作者创新性地提出了模态感知信号注入方法，以此引导交互恢复过程。这种方法在有效地整合多元模态信息于用户-物品交互图生成中起到至关重要的作用。

通过扩散模型的潜力和模态感知信号注入机制，DiffMM框架为增强多模态推荐系统提供了一个强大且实用的工具。

图扩散过程在用户-物品交互上的应用主要包括两个核心步骤。

首先，前向过程通过逐步添加高斯噪声来破坏原始用户-物品网络，这一阶段逐渐弱化了用户与物品间的联系，模拟了噪声模态特征可能带来的干扰。

其次，逆向过程专注于学习并清除因噪声引入的图结构损坏。它的目标是通过逐步修复受损的图来复原用户与物品间的初始交互状态。

对于前向图扩散阶段，考虑到用户和物品集合中每个物品的交互，可以表示为一个序列

[ 图像1, 图像2, ..., 图像3 ]

其中，图像4 表示只返回重写后的文本，不要带有任何原文本，总是用中文回复

交互状态可以用0或1表示，描述用户是否与特定物品产生接触。首先启动扩散过程，从初始状态0开始，随后在各个时间步中逐渐引入高斯噪声，形如马尔可夫链，构建至状态1。具体来说，从时刻t-1演进到t的过程被参数化为：

[港大与腾讯联合研发的新型模型DiffMM图像]

随着时间步→∞，状态会逐渐接近标准高斯分布。利用重参数化技巧和独立高斯噪声的可加性，可以直接从0计算出t：

[港大与腾讯联合研发的新型模型DiffMM图像]

DiffMM在逆向图扩散过程中致力于消除在t引入的噪声，逐步重建t-1的状态，从而精细捕捉多模态生成过程中的微妙变化。从起点开始，去噪过程逐次恢复用户与物品的交互，逆向过程详细展开为：

[港大与腾讯联合研发的新型模型DiffMM图像]

该模型利用一个参数化的神经网络生成高斯分布的均值(t, t)和协方差(t, t)。

扩散模型的训练目标是指导逆向图扩散。为此，需要优化0的负对数似然的Evidence Lower Bound (ELBO)：

[港大与腾讯联合研发的新型模型DiffMM图像]

对于每个时间步t，存在以下三种情况：

[港大与腾讯联合研发的新型模型DiffMM图像]

在这个描述中，0表示在优化过程中可忽略的0的负重构误差。一个常数项不会影响可调整参数的优化，而(t∊{1,2，…，T-1})的目标是利用KL散度使分布(t-1|t)与计算得到的分布q(t-1|t，0)对齐，以促进图扩散的优化。为此，研究者构建了一个神经网络，用于在反向传播过程中执行去噪操作。根据贝叶斯定理，q(t-1|t，0)可以用以下近似公式表示：

[港大与腾讯联合研发的新型模型DiffMM的图像]

进一步地，t可以表示为：

[港大与腾讯联合研发的新型模型DiffMM的图像]

其中，

[港大与腾讯联合研发的新型模型DiffMM的图像]

(t，t)是在时间t预测的0，借助神经网络来实现。具体来说，他们运用一个多层感知器(MLP)，输入为t和时间t的嵌入表示，以预测0。0则表示为：

[港大与腾讯联合研发的新型模型DiffMM的图像]

在实施时，时间步t是从 {1,2，…，} 中均匀随机抽取的：

[港大与腾讯联合研发的新型模型DiffMM的图像]

多模态图扩散方法的核心是利用具有模态感知的用户-物品图来提升推荐系统的性能。

为解决这一问题，作者创新性地提出了模态感知信号注入（MSI）策略，该策略能引导扩散模块创建反映各种模态的多元用户-物品图。具体操作中，他们将对齐的物品特征与预测的、具有模态感知的用户-物品交互概率相结合。

同时，作者还将物品标识嵌入与实际观测到的用户-物品交互数据整合。

随后，通过计算这两个聚合嵌入间的均方误差损失，并与ebo一起进行优化。模态的均方误差损失公式表达如下：

[新型模型DiffMM的数学表示]

在多模态推荐系统中，用户在不同模态（如视觉、文本和音频）上的交互行为表现出一致性。比如，短视频的情境下，视觉和音频特征共同影响用户的观看决策。

因此，用户的视觉和音频喜好可能以复杂方式相互影响。为了发掘并利用这种跨模态的关联性提升推荐效果，作者提出两种基于不同参照点的模态感知对比学习框架。

一种框架采用不同模态视角作为参照，而另一种则以主要视角（协同过滤）为基准。

为了生成特定模态的用户和物品嵌入表示以用于对比，作者运用了基于GNN的表示学习技术。具体来说，就是在图扩散模型生成的、具备模态感知的用户-物品图上执行消息传递。

首先，作者将物品的原始模态信息转换为统一维度的物品模态特征：

[新型模型DiffMM的数学表示]

然后，通过整合用户嵌入和物品模态特征，得到聚合的模态感知嵌入m，属于实数空间的d维向量：

[新型模型DiffMM的数学表示]

该文中，作者利用实数域内的模态感知图m来描述由图扩散模型生成的多模态信息。为发掘多模态的高级协同特性，他们在原始用户-物品交互图上执行迭代消息传递过程。这一过程的图像表示为：

[新型模型DiffMM的图像]

他们采取了两种独特的对比策略。第一种策略以不同模态的视角为基准，利用用户在各模态间行为模式的关联性。第二种策略则以主要视角为基准，期望它能被其他模态的行为模式强化，以优化主体视图中的用户偏好表达。主要视图是通过GNN在多模态感知图上聚合并融合用户和物品的表示所形成的。这两种对比策略的InfoNCE损失函数分别定义为：

[新型模型DiffMM的图像]

最终，为了生成预测用的用户（物品）表示，作者先聚合所有模态感知嵌入以及对应的模态感知用户-物品图：

[新型模型DiffMM的图像]

接着，通过学习到的参数化向量Km来加权融合各个模态的表示，以求和方式完成：

[新型模型DiffMM的图像]

最后，他们在原始用户-物品交互图上进行消息传递，以便利用更深层次的协同信息。

港大与腾讯合作开发的新模型DiffMM的训练过程分为两大部分：一是针对推荐任务的训练，二是针对多模态图扩散模型的训练。

在扩散模型的联合训练中，也包括了ELBO损失和MSI损失的两个环节。模态扩散模型的去噪网络优化损失如下所示：

接着，对于推荐任务的训练，研究者采用了经典的贝叶斯个性化排名（BPR）损失和多模态对比增强损失c。BPR损失的定义为：

推荐任务的整体优化目标则为：

该模型在三个公共数据集上与多种最新基线模型进行了对比，涵盖了传统协同过滤、基于GNN的方法、生成扩散推荐、自监督推荐以及最先进的多模态推荐方法。

经过全面深入的实验，结果显示DiffMM在整体性能上表现出最佳效果。

为了检验各组件的有效性，研究者进行了详尽的消融实验，实验结果确认了提出的各个子组件均能提升推荐系统的效能：

作者深入研究了DiffMM在处理数据稀疏问题时的效能，实验结果显示，DiffMM采用的跨模态对比学习策略能显著减轻数据稀疏性问题。它依赖于图扩散模型创造的具备模态感知的用户-物品图，以获取强大的自监督信号。DiffMM的设计中，作者还对一系列关键超参数进行了剖析，包括多模态图聚合模块的参数、模态感知扩散模型中的MSI权重，以及多模态对比增强框架中的温度系数。

为了清晰展示模态感知图扩散模型对推荐系统性能的提升，作者考察了DiffMM生成的模态感知用户-物品图与经随机增强的用户-物品图之间融合比例的影响，用于构建自监督对比视图。当融合比例为0时，对比视图完全基于模态感知图，而比例为1时，则完全依赖随机增强。

结果清楚地显示，随着两个数据集中的融合比例增加，模型性能随之降低。这证明了模态感知图扩散模型的优越性，它通过提供模态感知的对比视图，而非随机增强视图，增强了跨模态对比学习。这种优势源于图扩散方法对潜在交互模式的精确建模，以及在扩散过程中巧妙地融入多模态上下文到用户-物品交互图。

DiffMM是一种创新的多模态推荐模型，它通过引入模态感知来丰富概率扩散范式。

该方法采用多模态图扩散模型来重建具备模态感知的用户-项目网络，并通过跨模态数据增强技术生成有益的自监督学习信号。为了验证DiffMM模型的效果，研究人员进行了详尽的实验，并与多种先进的基线模型对比，实验结果显示DiffMM在推荐系统性能上展现出显著优势。

参考论文：https://arxiv.org/abs/2406.11781 源代码：https://github.com/HKUDS/DiffMM

DiffMM：港大与腾讯共创的先进模型