达摩院的寻光平台在WAIC大会上惊艳亮相,开创性地解决了AI视频制作的全程操控难题,引领创新潮流。
编辑日期:2024年07月05日
在AIGC时代,视频制作的工作流程正经历革新。
只需轻巧一划,选定对象即刻独立成图层,随后流畅地融入各种背景视频,场景切换变得轻而易举。
只需轻轻一点,AI就能帮你轻松调整镜头视角:
可轻松实现目标的删除与修改:
从此告别连续加班导致的手部疲劳(doge)。关键点来了!这不是单纯的实验室技术展示,而是一个即将开启内测的全方位AI视频创作平台——“寻光”,准备让创作者们大展身手。
这意味着,以往需要在各个不同环节进行的剧本构思、故事板绘制、视频素材剪辑等工作,现在都能在AI的支持下,在同一平台上无缝整合、顺畅完成。
这就是阿里巴巴达摩院在世界人工智能大会上海分会场释放的最新创新震撼。
一经演示,现场观众无不为之振奋。
达摩院官方展现了在AI视频领域的雄心壮志:
不模仿Sora,他们决心走出独特的道路,力求让AI的创造力迅速适应人类的想象力边界。
“寻光”寓意着“在梦想与光影之间探索”:
其目标是运用人工智能技术,开创前所未有的视频制作方式。
不同于今年众多引人注目的AI视频创作模型如Sora,我们更聚焦于“Sora之后,视频制作流程的革新”。
阿里巴巴达摩院指出,虽然Sora等AI模型为视频制作方式带来了革命性的想象空间,但目前的技术仍面临重大挑战,例如如何精准控制AI生成的视频内容,包括理解复杂的故事情节和保持生成对象的一致性。
此外,目前行业缺乏一个集中的AI视频编辑平台,能够使创作者全面体验到从头至尾由AI辅助的视频创作过程。
以OpenAI的创始人Andrej Karpathy为例,他近期也尝试了AI视频制作,创作出了一部人工智能版本的《傲慢与偏见》。
在创作这部短片时,他运用了一系列工具,如Claude、Ideogram、Luma、ElevenLabs和VEED。然而,他坦诚地表示:
工作流程实在过于复杂,频繁的复制粘贴操作使得制作一个只有三个片段的小视频竟然耗时约一小时。这无疑揭示了一个巨大的创新空间。有谁正在构建一个完全基于AI的视频制作平台呢?
为此,达摩院推出了“寻光”,它被定位为一个面向PUGC的一站式AI视频创作平台,旨在解决上述挑战,利用AI技术改革整个传统的视频制作流程。
具体而言,“寻光”能够协助用户编写剧本、设计分镜,并提供多种AI增强编辑功能,如角色管理、场景切换、镜头运动控制、对象添加、移除或修改等超过十种功能。
在用户体验上,我们强调“将视频编辑变得与编辑PPT一样直观易用”。
以镜头规划阶段为例,提交至“寻光”的原始视频会被算法智能拆解为一系列独立的镜头。
在创新的工作环境中,用户能够轻松检视每个镜头,并通过简单的拖放动作进行排序或修改。
在创建的新版面中,除了整合现有素材,用户还能利用“寻光”平台提供的多种多模态生成工具,创造全新的内容。
在编辑特性上,寻光侧重于精确的编辑与操控:借助AI技术,它能理解用户的意图,从语义层面执行编辑,而非局限于像素层面;此外,无论是人体、人脸、前景还是背景等视频中的任何特定区域,都支持细致入微的编辑调整。
陈威华,作为达摩院视觉技术实验室的资深算法专家,特别强调了基于视频图层的编辑功能。以前景图层功能为例,用户只需通过文字描述,系统就能生成具有透明背景的视频内容,并能轻松地一键整合到不同的背景视频之中。
寻光具备独特的图层分解功能,用户只需在视频起始帧挑选要提取的对象,智能算法便会自动追踪并将其从整个视频中分离出来,生成带有透明背景的独立视频图层。就连细微如飘动的头发也能精准地抠取出来。
此外,寻光平台在视频整体风格编辑方面,提供了超过20种独特的风格转换选择。
在镜头移动操作方面,它涵盖了水平左右滑动、垂直上下滑动、镜头缩放以及左右环顾等多种功能。
除了能够消除特定目标,寻光平台在视频编辑中还能够实现对人脸的精细操控:
流畅的动画来自国风武侠动漫《少年白马醉春风》的第三集:
轻松一拽即启运动之幕:
寻光堪称融合了市面上最为全面的AI编辑特性,将整个视频制作流程全面智能化。与在各个独立工具间切换并在传统流程中零星应用AI技术相比,这种方法无疑更为便捷且高效。
目前,工业界和学术界都在积极探索能更深入理解物理世界、创造更长久且更具震撼效果的多模态模型。
然而,随着更强大的AI出现,人们能否迅速适应并掌握这种新生产力,也是一个引人关注的问题。
在Karpathy引发讨论后,许多网友纷纷表示,这触及了实际问题:
频繁切换工具会打断工作流程,实际上削弱了提高效率的可能性。AI视频创作确实需要一个统一的用户界面。
在WAIC大会上,陈威华指出,我们正处于AI驱动的视频制作革命浪潮中。他设想,寻光视频创作平台将成为每位用户的得力工具,如同个人专属的高级视频工作室,让AI与创作者之间的合作更为紧密和高效。
为了实现这一目标,达摩院的视觉技术实验室已积累了丰富的技术基础。该实验室专注于多模态视觉信号的理解和生成技术,目前着重研究的领域包括精确的图像/视频/3D内容生成、可控的内容编辑、高效的生成架构以及多模态的理解与生成框架。
全球范围内,AIGC热潮涌动,关键在于它预示着生产力革命的可能性。如今,释放生产力的首步已经付诸实践,你是否满怀期待?
官方网站:https://xunguang.damo-vision.com/
—— 结束 ——
阿里巴巴达摩院的AI技术成功进驻联合国
如今,钉钉已化身阿里AI等先进技术的交互界面
独一无二的小蛮驴路径,难以效仿,更无法复刻。
以上全文,欢迎继续阅读学习