跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

我们推出了开源的智谱 AI 视频理解模型——CogVLM2-Video,它具备解答时间顺序问题的能力,专注于提供精确的时序信息响应。

编辑日期:2024年07月12日

当前,许多视频理解模型普遍采用帧平均和视频标注压缩技术,但这些方法往往导致时间维度的信息流失,因而难以对涉及时间顺序的问题做出精确回答。部分专门针对时间问答数据集的模型设计过于特定,限制了其在不同场景和领域的泛化问答性能。

我们推出了开源的智谱-ai-视频理解模型

智谱AI创新性地开发了一种利用视觉模型自动构建时间定位数据的方法,生成了涵盖3万个时间相关视频问答记录的数据集。在此基础上,结合现有的开放领域问答资源,他们将多帧视频图像及时间戳整合为编码器的输入,进而训练出了名为CogVLM2-Video的先进模型。

据智谱AI透露,CogVLM2-Video在公共视频理解标准评测中已展现出顶级效能,并在创建视频字幕及时间定位任务中同样表现出色。

我们推出了开源的智谱-ai-视频理解模型

附相关链接:

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析