阿里国际最新发布了开源多模态模型Ovis，其多模态能力得到了进一步提升。

编辑日期：2024年09月20日

超越行业顶尖大模型

只需看一眼菜品图就能知道如何烹饪、能够为植物诊断疾病、准确地将手写英文翻译成中文、还能精确分析财务报告数据……多模态能力再次实现重大提升！今天，阿里国际AI团队发布了一款全新的多模态大模型Ovis，在图像理解任务上不断突破极限，在多个具体子任务中均达到了SOTA（最新技术）水平。

多模态大模型能够处理和理解多种不同类型的数据输入，例如文本和图像。与专注于处理和生成文本数据的大语言模型（LLMs）相比，多模态大模型还能处理非文本数据，如图像等。

根据多模态权威综合评测平台OpenCompass的数据，Ovis 1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一，超越了MiniCPM-V-2.6等业内优秀的多模态大模型。

阿里国际最新发布了开源多模态模型Ovis

图：Ovis在OpenCompass上的测评数据情况

据介绍，Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面表现出色。例如，Ovis可以准确回答数学问题，识别花卉品种，支持多种语言的文本提取，甚至能够识别手写字体和复杂的数学公式。

阿里国际最新发布了开源多模态模型Ovis

案例1：Ovis对手写文案的识别及翻译能力

阿里国际最新发布了开源多模态模型Ovis

案例2：Ovis对复杂数学公式的处理能力

阿里国际最新发布了开源多模态模型Ovis

案例3：Ovis通过对图片的识别处理能够给出菜谱

具体来说，Ovis模型具有五大优势：

创新架构设计：引入了可学习的视觉嵌入词表，这是首次将连续的视觉特征转化为概率化的视觉token，并通过视觉嵌入词表进行加权生成结构化的视觉嵌入，从而克服了大多数多模态语言模型（MLLM）中MLP连接器架构的局限性，显著提升了多模态任务的表现。
高分图像处理：采用动态子图方案，支持处理极端长宽比的图像，并且兼容高分辨率图像，展现出卓越的图像理解能力。
全面数据优化：涵盖多个方向的数据集，包括Caption、VQA、OCR、Table和Chart等多个多模态数据方向，显著提升了多模态问答和指令跟随等任务的表现。
卓越模型性能：Ovis在多项指标上表现出色。在多模态权威综合评测平台Opencompass上，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一的成绩，超越了Qwen2-VL-7B、MiniCPM-V-2.6等模型。特别是在数学问答方面，其表现接近于70B参数的模型；在幻觉任务中，Ovis-1.6的幻觉现象和错误率显著低于同级别模型，展示了更高的生成文本质量和准确性。
全部开源可商用：Ovis系列模型采用Apache 2.0许可证。Ovis 1.0和1.5的数据、模型以及训练和推理代码均已完全开源并可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

在AI领域，多模态大模型的应用场景非常广泛，包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成和视觉问答等。例如，在自动驾驶领域，多模态大模型可以整合来自摄像头、雷达和激光雷达的数据，实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息，因此也被视为迈向通用人工智能的重要一步。

根据先前的媒体报道，阿里国际于去年成立了一支AI团队。截至目前，该团队已在超过40个电商场景中测试了AI技术，涵盖了跨境电商的整个流程，包括商品图文处理、营销、搜索、广告投放、SEO、客户服务、退款处理以及店铺装修等多个方面。其中，许多应用场景都是基于Ovis模型开发的，并已帮助了50万家中小企业优化了1亿种商品的信息。据透露，商家对于AI的需求持续增长，最近半年的数据表明，商家每两个月对AI的调用频率就会翻一番。

以下是一些相关链接： - 论文arXiv: https://arxiv.org/abs/2405.20797 - Github: https://github.com/AIDC-AI/Ovis - Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B - Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B