我们推出了开源的智谱 AI 视频理解模型——CogVLM2-Video，它具备解答时间顺序问题的能力，专注于提供精确的时序信息响应。

编辑日期：2024年07月12日

当前，许多视频理解模型普遍采用帧平均和视频标注压缩技术，但这些方法往往导致时间维度的信息流失，因而难以对涉及时间顺序的问题做出精确回答。部分专门针对时间问答数据集的模型设计过于特定，限制了其在不同场景和领域的泛化问答性能。

我们推出了开源的智谱-ai-视频理解模型

智谱AI创新性地开发了一种利用视觉模型自动构建时间定位数据的方法，生成了涵盖3万个时间相关视频问答记录的数据集。在此基础上，结合现有的开放领域问答资源，他们将多帧视频图像及时间戳整合为编码器的输入，进而训练出了名为CogVLM2-Video的先进模型。

据智谱AI透露，CogVLM2-Video在公共视频理解标准评测中已展现出顶级效能，并在创建视频字幕及时间定位任务中同样表现出色。

我们推出了开源的智谱-ai-视频理解模型

附相关链接：

🔥AI副业赚钱星球