在线试玩！智谱开源图像生成视频模型，网友纷纷惊呼：太神奇了！

编辑日期：2024年09月20日

网友：Amazing！

刚才，智谱发布了其图生视频模型CogVideoX-5B-I2V的开源代码！（可在线体验）

一同发布的还有其标注模型cogvlm2-llama3-caption。

在线试玩！智谱开源图像生成视频模型，网友

在实际应用中，CogVideoX-5B-I2V能够通过「一张图片」加上「提示词」生成视频。

而cogvlm2-llama3-caption则负责将视频内容转化为文本描述。

在线试玩！智谱开源图像生成视频模型，网友

然而，使用过的网友们对其评价不一：

有人使用后直呼Amazing。

在线试玩！智谱开源图像生成视频模型，网友

也有用户尝试了半天，最终还是选择回到CogVideoX的旧版本，并称赞道：我最看好这个版本！

在线试玩！智谱开源图像生成视频模型，网友

那么，它实际的效果如何呢？我们来做个测试吧！

测试开始~ 输入提示词：咖啡店员握住双手笑着迎接客人，说话时身体自然活动（依然是常见的“手部”问题）

第二次测试，尝试了一个简短的提示词：吗喽跷着二郎腿打电话（效果不佳，主体仍然是静态的，没有动起来）

第三次的提示词为：“明月当空，几个人坐在河边谈心说话，举杯高歌。” 显示生成完成，但在最后展示阶段直接出现了NAN错误（呜呜呜）

在线试玩！智谱开源图像生成视频模型，网友

整体效果有些难以评价，而且生成速度相对较慢。

让我们来看看团队发布的一些成功案例吧：

提示词：当万花筒般的蝴蝶在花朵间翩翩起舞时，花园变得生机勃勃，它们精致的翅膀在花瓣上投下阴影。

提示词：一位穿着西装的宇航员，靴子上沾满了火星的红色尘埃，在第四颗行星的粉红色天空下，他伸出手与一个外星人握手。

提示词：湖岸边长满了柳树，细长的枝条在微风中轻轻摇曳。平静的湖面倒映着清澈的蓝天，几只优雅的天鹅在水面上滑翔。

值得一提的是，目前CogVideoX-5B-I2V模型的代码已经全部开源，并支持在抱抱脸平台上部署。

相关研究论文也已公开，其中有三大技术亮点值得关注：

在线试玩！智谱开源图像生成视频模型，网友

首先，团队自主研发了一种高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%的大小，大幅降低了视频扩散生成模型的训练成本和难度。

该模型结构包括编码器、解码器和潜在空间正则化器，通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果关系，减少了通信开销。团队还采用了上下文并行技术来适应大规模视频处理。

实验中，团队发现高分辨率编码易于泛化，但增加帧数则更具挑战性。

因此，团队分两个阶段训练模型：首先在较低帧率和小批量数据上进行训练，然后通过上下文并行技术在更高帧率上进行微调。训练损失函数结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。

在线试玩！智谱开源图像生成视频模型，网友

其次是专家Transformer模块。团队利用VAE的编码器将视频压缩到潜在空间，再将该潜在空间分割成块并展开成长序列嵌入z_vision。

同时，他们采用T5模型将文本输入编码为文本嵌入z_text，然后将z_text与z_vision沿着序列维度拼接起来。拼接后的嵌入被送入一系列专家Transformer块中进行处理。

最终，团队将嵌入逆向拼接以恢复原始潜在空间的形状，并使用VAE进行解码，从而重建视频。

在线试玩！智谱开源图像生成视频模型，网友

接下来的重点在于数据处理。

团队开发了负面标签来识别和排除低质量视频，如过度编辑、运动不连贯、质量低劣、讲座风格、文本主导以及含有屏幕噪音的视频。

通过video-llama训练的过滤器，他们对20,000个视频数据点进行了标注和筛选。此外，他们计算了光流和美学分数，并动态调整阈值，以确保生成视频的质量。

由于视频数据通常缺乏文本描述，因此需要将其转换为文本描述以便用于文本到视频模型的训练。然而，现有的视频字幕数据集中的字幕较为简短，无法全面描述视频内容。

为此，团队提出了一种从图像字幕生成视频字幕的方法，并微调了一个端到端的视频字幕模型以获得更详细的字幕。这种方法通过Panda70M模型生成简短字幕，使用CogView3模型生成密集的图像字幕，然后借助GPT-4模型总结生成最终的短视频字幕。

此外，他们还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型，利用密集字幕数据进行训练，以加快视频字幕的生成过程。

在线试玩！智谱开源图像生成视频模型，网友

值得一提的是，CogVideoX在过去的一个月里也没有闲着，持续更新了许多新功能！

2024年9月17日，发布了SAT权重的推理和微调代码以及安装依赖的命令，并使用GLM-4优化了提示词。跳转链接：https://github.com/THUDM/CogVideo/commit/db309f3242d14153127ffaed06a3cf5a74c77062

2024年9月16日，用户可以通过本地开源模型、FLUX和CogVideoX实现自动化生成高质量视频。跳转链接：https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py

2024年9月15日，成功导出了CogVideoX的LoRA微调权重，并在diffusers库中通过了测试。跳转链接：https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md

2024年8月29日，在CogVideoX-5B的推理代码中添加了pipe.enable_sequential_cpu_offload()和pipe.vae.enable_slicing()功能，将显存占用降低至5GB。

2024年8月27日，CogVideoX-2B模型的开源协议变更为Apache 2.0协议。

同一天，智谱AI开源了更大规模的CogVideoX-5B模型，显著提升了视频生成的质量与视觉效果。该模型优化了推理性能，使得用户能够在RTX 3060等桌面显卡上进行推理，降低了硬件要求。

2024年8月20日，VEnhancer工具现已支持对CogVideoX生成的视频进行增强，提升视频分辨率和质量。

2024年8月15日，CogVideoX所依赖的SwissArmyTransformer库更新至0.4.12版本，从此微调该库时无需再从源代码进行安装。此外，还引入了Tied VAE技术来优化生成效果。

此次CogVideoX-5B-I2V的开源，标志着CogVideoX系列模型现已支持文本生成视频、视频延长以及图像生成视频三种任务。在线试玩！智谱开源图像生成视频模型，网友

大家在看

AI之家

🔥AI副业赚钱星球

点击下面图片查看

🔥ChatGPT-4在线使用

Python和AI在线练习

AI之家教程

在线试玩！智谱开源图像生成视频模型，网友纷纷惊呼：太神奇了！

大家在看

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

NumPy文章

当前人工智能市场的热潮令人瞩目低入门障碍促使大量资本蜂拥而入其狂热景象甚至超越了当年的互联网泡沫时期

科大讯飞推出了星火极速超拟人交互功能...

离线亦可享！贾扬清小组发布客户端模型...

中兴-ax5400-pro-路由器推...