跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

视觉模型底座超越OpenAI,格灵深瞳启动多模态落地的 Scaling Law

编辑日期:2024年09月12日

从“A股AI视觉第一股”到“多模态落地先锋”

在大模型时代,人们普遍关心的一个问题是:如何实现落地?具体应该应用在哪里?

即便是备受瞩目的OpenAI,最近也被曝出资金紧张,并正在寻求新一轮10亿美元的融资。

然而,在中国,有一家公司却在这一领域取得了显著成就:

这家公司的多模态大模型不仅在多个权威数据集上的表现超越了OpenAI,更通过一系列实际应用案例展示了大模型不仅仅是大语言模型,视觉大模型和多模态大模型在产业界有着更广阔的前景。

这家公司就是格灵深瞳。它曾以“A股AI视觉第一股”的标签闻名,如今以新的姿态再次刷新外界的认知:多模态落地先锋。

……

视觉模型底座超越OpenAI,格灵深瞳启

取得这些成就的背后,离不开格灵深瞳在大模型技术方面的突破:

其中,Unicom v2的相关论文已被选入顶级人工智能会议ECCV 2024。

视觉模型底座超越OpenAI,格灵深瞳启

尽管目前提到“大模型”时默认指的是“大型语言模型”(Large Language Model),但从格灵深瞳的故事中可以看出,视觉大模型和多模态大模型在原有的视觉AI市场上仍然大有可为,并且技术壁垒依然很高。

早在2022年,格灵深瞳就开始自主研发视觉大模型,但在当时推动落地时遇到了不少挑战:

当时,大模型、Transformer 和 Scaling Law 等概念尚未成为行业共识。主流做法仍然是不断优化卷积神经网络,尽量将模型做得更小,以便能够在边缘设备上运行。

简而言之,那时很难说服客户接受这种前沿但成本高昂的技术。

然而,ChatGPT 的出现彻底改变了这一局面。

一方面,通过直观的人机对话方式,ChatGPT展示了算力与效果之间的正相关关系,使人们深刻认识到“只有大量投入算力,才能取得理想的效果”。另一方面,硬件也开始主动适应Transformer算法,例如,英伟达在其Hopper架构的GPU中首次引入了专用的Transformer引擎。

从某种角度来看,ChatGPT实际上为所有的AI公司进行了市场教育工作。

视觉AI也经历了类似语言模型的变化,从“模块化”转向了“一体化”。

传统上,检测、分割和分类等任务需要设计复杂的特征工程和网络结构。而视觉大模型则通过统一的Transformer主干直接学习从图像到特征再到应用输出的端到端映射。

格灵深瞳自主研发的视觉大模型Unicom系列正是这一转变的成果,通过扩大数据规模和计算规模,强化通用能力,使得模型能够以统一的方式理解和泛化世界。

如果视觉大模型让AI“看到”了世界,那么结合语言模型则进一步让AI“理解”了世界,从而大大扩展了应用范围。

以格灵深瞳长期专注的银行安防行业为例,如何让AI判断监控画面中是否有人在打架?这涉及到动作识别以及视角遮挡的推断等多重挑战。在AI 1.0时代,需要复杂的规则和阈值设计,并且由于难以获取的数据样本,导致工程量巨大且效果有限。

而在引入语言模型之后,只需将视频帧连续输入并描述场景,模型就能从语义层面判断是否属于打斗行为。

视觉模型底座超越OpenAI,格灵深瞳启

“面对各种长尾和复杂场景,多模态的优势就显现出来了。”格灵深瞳工程研发副总裁周瑞表示,“它让以前难以想象的应用成为可能。”

同样,在工业质检领域,过去需要针对每种缺陷采集和标注数据,这不仅成本高昂,而且泛化性能差,更不用说某些稀有缺陷的数据量根本不足。

通用视觉大模型具备少样本学习和跨场景泛化的能力,结合语言模型的多模态生成范式,现在的AI不仅能智能识别缺陷,还能提供文字描述供现场工作人员参考。此外,多模态大模型不仅在单个任务中表现出色,在整个系统中还能承担任务分配的“路由”功能。

以格灵深瞳为某银行超过10000个网点提供的解决方案为例,该方案形成了总行-分行-支行三级架构:总行使用大模型训练通用模型,并将其分发到各分行;各分行根据自身的业务特点,定期对模型进行微调优化;支行则直接应用本地分行提供的模型调用服务。

在视频结构化处理方面,边缘端负责实时提取人物、车辆、物品等目标的信息并上传。对于复杂且难以判断的场景,会发送到中心端请求二次识别。云端则利用多模态大模型从语义层面更全面地理解场景内容。

此外,借助多模态大模型强大的数据汇聚和语义理解能力,该银行整合了原本分散的各类监控数据,并正在建设一个覆盖全行的“AI中台”。这一平台能够灵活调度跨网点、跨系统的数据和算力,迅速响应总行、分行和支行的各种临时需求。

这套架构可以随时利用零散的多模态数据对大模型进行增量学习和提升,使整个银行集团的AI平台像一个不断进化的“中央大脑”。

格灵深瞳视觉大模型的发展始于自主研发的视觉基座模型Unicom。最初的v1版本借鉴了人脸识别中的特征学习方法,将网络改为ViT结构,并将数据从人脸扩展到了4亿张通用图像,从而实现了超越当时最佳对比学习模型的精度。

然而,图像数据并不像文本那样具有天然的高密度语义信息,可以通过“预测下一个token”的任务进行无监督学习。为了扩大视觉大模型的数据规模,并且无需标注就能充分利用更多的图像数据,格灵深瞳团队探索了一种新颖的弱监督方式:首先使用特征聚类模型将相似的图片自动归类在一起,视为同一类别,然后根据聚类结果为每张图像分配一个“软标签”作为训练目标。

这种方法为无标签数据注入了丰富的语义信息。

具体而言,格灵深瞳开发了一种名为多标签聚类辨别(MLCD)的方法。在聚类过程中,该方法为每张图像选择多个最近的聚类中心作为辅助类别标签,以便考虑图像中不同粒度的视觉信号。与此同时,他们还设计了一种用于消除多标签分类歧义的损失函数。

与传统的多标签损失函数通过缩小类内相似度和类间相似度之间的相对差距来优化不同,本文引入了两个额外的优化目标:最小化类间相似度和最大化类内相似度。这样可以有效地分离正类损失和负类损失,减少决策边界上的歧义。

该团队通过大规模的模型和数据集实验验证了所提出方法的有效性和可扩展性。Unicom v2正是基于这一思路,进一步扩大了数据规模和参数规模,提升了精度,并刷新了多项纪录。

视觉模型底座超越OpenAI,格灵深瞳启

借助Unicom强大的通用视觉理解能力,结合语言模型,形成了深瞳灵感-7B多模态大模型。该模型不仅在传统的单图问答任务上表现出色,在多图推理、图文增量学习等前沿任务上也展现了巨大的潜力。

正如格灵深瞳自2022年起就开始探索ViT架构的视觉大模型应用,研究团队目前也在思考下一代超越Transformer的架构。最近,他们尝试用基于RNN的序列建模方法RWKV(Receptance Weighted Key Value)替代主流的ViT架构,训练出了一种视觉语言模型RWKV-CLIP。

RWKV可以在线性时间内处理任意长度的序列,大幅降低了推理过程中的计算复杂度,有望使多模态AI能力在更多边缘和终端设备上得到应用。值得一提的是,格灵深瞳还将RWKV-CLIP的代码和模型权重开源至GitHub,供业界共同探讨,共同进步。

当前,许多大型模型公司都在尝试多模态应用。

目前,大多数应用还停留在简单的技术演示、带有图片上传功能的聊天机器人或个人AI助手等轻量级形式上,真正深入产业的应用还不多见。究其原因,在短期内很难积累将AI算法与特定行业场景深度融合的经验。

要让多模态大模型技术在更多领域发挥作用,需要具备视觉AI技术和行业应用场景经验的企业来推动。

盲目寻找应用场景与在已有深厚基础的领域利用大模型进行升级,是两种截然不同的策略。

回顾历史,互联网作为现代基础设施,积累了大量的文本数据,这最终促成了大型语言模型公司的崛起。

未来,在视觉AI时代,大量摄像头所采集的图像视频数据也将催生一批多模态大模型公司。

为什么语言模型率先实现了突破?格灵深瞳认为,图像数据的分布更加不均匀。例如,很容易获得一家上市公司的财报文档,但很难通过公开数据获取大量公司的图像。

在专业细分领域,如医疗影像和工业缺陷检测,可获取的训练数据量远远不及互联网上的文本资料。

然而,从应用价值的角度来看,视觉数据直接反映了现实世界,并且与城市治理、工业生产和商业运营等领域的实际需求高度契合。

虽然从图像数据中提取价值更为困难,但也更具意义。

格灵深瞳就是这样一家将技术创新与行业理解相结合的先行者。十多年来,公司始终专注于智慧金融和城市治理等领域,打磨出一套面向行业的数字化解决方案。

这些解决方案不仅注重算法本身的创新,还融入了大量的行业知识和实践经验,形成了独特的竞争优势。

这种深厚的积累使格灵深瞳在多模态大模型的应用落地方面领先一步:既能洞察行业痛点并设计实施路径,又能迅速调动资源进行迭代。无论是在顶层设计的商业模式,还是在一线的具体模型适配和部署,公司都建立了一套成熟的方法论。

大模型带来的是一种全新的行业AI应用技术范式。多模态感知、跨域推理和小样本学习等能力的提升,从根本上扩展了AI的应用空间。

但最终,技术只是实现愿景的工具,而行业才是应用的根基。只有深入行业,AI才能真正取得成果。

智能体即大脑

然而,两者可以说是“半斤八两”。

经过8年的创业,如今重新出发,内外部都发生了变化。

“未来的通用人工智能必然是多模态智能。”

开源且商用

权重已开源

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析