跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

搜索图片有新方法了!北京大学提出图像检索新技巧 | ECCV 2024

编辑日期:2024年08月24日

还特别构建了一个专有的检索数据集,

现在,从大量图片中精确找到所需图片有了新方法!这项研究成果已被ECCV 2024接受。

北京大学袁粒教授的研究团队与南洋理工大学实验室及清华大学自动化研究所合作,提出了一项新的通用检索任务——即通用风格检索(Style-Diversified Retrieval)。

搜索图片有新方法了!北京大学提出图像检索

简而言之,这一检索任务要求模型即便面对各种不同的查询条件也能准确地找到目标图片。

传统的图片检索主要依赖于文本查询,这种方式不仅查询方式单一,而且使用其他类型的查询时表现平平。

而本研究提出的新图像检索方法能够依据多种样式的查询条件(例如草图、艺术画、低分辨率图像和文本等)来查找相应的图片,甚至可以处理复合查询(如草图+文本、艺术+文本等)。

搜索图片有新方法了!北京大学提出图像检索

此外,在与现有检索基准的性能对比中,该模型的表现达到了最先进的水平(最外层蓝色部分)。

搜索图片有新方法了!北京大学提出图像检索

目前,这篇论文已在arXiv上公布,并且相关的代码和数据集均已开源。

当前图像检索面临的主要挑战在于:

如何使检索模型能够理解和处理用户提供的多样化查询信息

换句话说,无论用户采用何种方式进行查询,都能准确找到所需的图片。

为了解决这个问题,研究团队采取了以下两个步骤:

首先,他们为多种查询风格下的图像文本检索任务创建了一个细粒度检索数据集DSR(Diverse-Style Retrieval Dataset)。

具体来说,这个数据集包含了10,000张自然图片及其四种不同风格的查询版本(文本描述、草图、低分辨率图像和卡通艺术风格)。

北京大学提出了一种新的图像检索方法,这种方法利用了FSCOCO数据集提供的草图注释、AnimateDiff生成的卡通艺术图像及低分辨率图像。此外,他们还采用了ImageNet-X作为一个包含多种风格的大规模检索数据集。

ImageNet-X含有100万张标记了多种风格的自然图像,与DSR相比,ImageNet-X的数据集图像更为简洁,更易于检索。

总体来说,FreestyleRet框架通过提取和注入图像风格的方式,有效解决了现有图像检索模型难以适应不同类型检索向量的问题。

在构建FreestyleRet框架的过程中,研究团队主要关注了两个关键问题,并为此设计了三个模块:

  1. 基于格拉姆矩阵的风格提取模块:用于明确提取未知查询向量的风格表示;
  2. 风格空间构建模块:通过对风格表示进行聚类构建检索用的风格空间,并以聚类中心作为风格一致性的代表;
  3. 风格启发的提示微调模块:通过对检索模型的Transformer层进行风格初始化插值,实现了对现有检索模型多风格查询能力的增强。

格拉姆矩阵已被证明是有效的图像风格提取方法。在本研究中,团队利用基于格拉姆矩阵的风格提取模块来处理不同类型的查询向量。

为了编码查询向量,团队使用了冻结的轻量级VGG网络,并选择了浅层卷积表示作为风格提取的基础特征。具体的公式如下:

(此处缺失具体公式的文字描述,请提供具体的公式内容以便完整表述。)

在获取查询向量对应的风格表示集合之后,我们构建了一个整体的风格空间来涵盖这些查询向量。具体做法是,我们运用K-Means聚类算法,迭代计算四个不同风格的查询向量集合的聚类中心。接着,对于每个风格表示,我们会计算其归属的风格中心,并据此更新聚类中心的位置。

迭代过程直到聚类中心的位置不再发生变化时结束。这一过程可以用以下公式表示:

搜索图片有新方法了!北京大学提出图像检索

搜索图片有新方法了!北京大学提出图像检索

在构建的风格空间中,我们将不同查询向量风格对应的聚类中心视为该空间的基向量。

在推理阶段,对于未知风格的查询向量,风格空间会计算其在各基向量上的投影。通过加权求和这些投影与基向量的乘积,我们可以量化未知风格。

在图像文本检索领域,基于Transformer架构的基础检索模型如ALBEF、CLIP和BLIP被广泛采用,许多下游任务都是基于这些模型的编码器模块进行开发。

为了使FreestyleRet框架能高效地适应这些基础检索模型,我们采用了以风格表示初始化的token来进行提示微调(prompt tuning)操作。具体而言,在每个编码器层中插入以量化风格表示初始化的可学习token,以此实现风格信息向编码器的注入。

搜索图片有新方法了!北京大学提出图像检索

从定量实验的角度来看,我们分析了基于FreestyleRet架构的BLIP和CLIP模型在DSR数据集以及ImageNet-X数据集上的Recall@1和Recall@5性能。

实验结果表明,在处理多样化的查询向量风格时,FreestyleRet框架能显著提高现有检索模型的泛化能力,性能提升幅度达到了2-4%。

搜索图片有新方法了!北京大学提出图像检索

此外,研究团队还验证了当多个不同风格的查询向量同时输入时,FreestyleRet框架的表现。这种多向量输入方式进一步提高了模型的检索准确性。

搜索图片有新方法了!北京大学提出图像检索

通过可视化特征分布,团队发现采用FreestyleRet架构的基础检索模型能够有效地从查询向量中分离出风格信息和语义信息,并实现了基于语义的高维空间聚类。

搜索图片有新方法了!北京大学提出图像检索

为了验证模型的泛化能力,团队还展示了实际检索过程中的示例可视化。

搜索图片有新方法了!北京大学提出图像检索

总体而言,该模型在五种不同类型的检索向量上均表现出色,并且在处理多种检索向量的同时检索任务时也显示出了良好的扩展性。

更多详细内容,请参阅原始论文。

搜索图片有新方法了!北京大学提出图像检索

(注:最后提到的“最新高校就业报告出炉”似乎与本文主题无关,提供的链接也不符合上下文。如果需要,我可以帮助您整合这部分内容或提供更多信息。)

搜索图片有新方法了!北京大学提出图像检索

搜索图片有新方法了!北京大学提出图像检索

结合二维扩散模型与重绘策略:

查看图片新法!北京大学推出图像检索方法

成为历史上第四位获得此荣誉的华人数学家:

查看图片新法!北京大学推出图像检索方法

运用神经融合进行形状补偿变形:

查看图片新法!北京大学推出图像检索方法

抱抱脸现已支持在线试玩。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析