快手的可灵团队最新开源项目掀起热潮:实时将大叔变少女,GitHub上已收获7.5K星标。
编辑日期:2024年07月24日
预告:可灵AI即将全球发布
简直不可思议!谁能想到视频里的美少女居然是一位大叔扮演的。
原来是使用了快手可灵团队的LivePortrait——一种可控人像视频生成技术。
LivePortrait一经开源便迅速走红,短时间内就在GitHub上获得了7.5K的星级评价。
甚至引起了HuggingFace首席战略官Thomas Wolf的亲自试用:
并且至今仍稳居HuggingFace所有应用中的趋势榜首:
那么,LivePortrait为何能引起如此大的关注?
这得从它令人惊艳的表现说起……
LivePortrait由快手可灵大模型团队开源,仅需一张原图即可生成动态视频。
来看看官方示例。
从最基础的应用开始,只需提供一张静态图像,LivePortrait就能让肖像眨眼、微笑或转动头部。
还能实现“移花接木”,即把表情和动作移植到其他人的肖像上,且不受风格(如写实、油画、雕塑、3D渲染)和尺寸限制:
当然,这种“魔法”不仅限于单个人物,用于家庭合照也毫无压力。[doge]
除开将静态图像转换为动态视频的技巧,我们的技术还能施展“笑容魔法”,即使是对着一段面无表情的婴儿视频(见右图),也能让它模仿参考视频中的眨眼或微笑动作,仿佛宝宝学会了新技能。
[示例动图]
这门技艺不仅限于人类,宠物们也迎来了撒娇卖萌的新时代,想象一下,你的猫咪或狗狗突然学会了讨好你的方式,是不是有点小惊喜?
[示例图片]
LivePortrait技术的精髓在于能够精准操控面部表情,无论是嘴角上扬的幅度,还是眼睛睁大的程度,一切细节皆可随心所欲地调整。例如,调整不同参数,就能轻易改变人物眼神的深浅,让眼神交流更加传神。
[示例对比图1] [示例对比图2]
连文学作品中那种“三分凉薄、三分讥笑、四分漫不经心”的微妙表情,似乎也不再遥不可及。网友们的创造力更是被激发,纷纷尝试各种创意玩法。
比如,搭配光影效果,搞怪表情瞬间升级,恐怖片既视感扑面而来:
[示例动图]
又或是实时变身二次元角色,满足动漫迷的梦想:
[示例动图]
看到这里,你是否也蠢蠢欲动?LivePortrait背后的秘密,其实是在于它创新性地利用了隐式关键点框架,与传统的扩散模型大相径庭,展现出无限的可能性。
具体来说,LivePortrait 不是依靠图像中明确可见的标记或特征点,而是通过学习数据集中的模式来隐式确定关键点的位置。在此基础上,LivePortrait 采用两阶段的方法从零开始训练模型。
首先看第一阶段,LivePortrait 对基于隐式点的框架(例如 Face Vid2vid)进行了多方面的改进。
这些改进涵盖了高质量数据准备、图像与视频混合训练、网络结构升级、可扩展运动变换、以地标为导向的隐式关键点优化以及级联损失项的应用等。
这些改进显著提升了模型的泛化能力、表达能力和纹理质量。
再来看第二阶段,通过贴合模块和重定向模块的训练,模型能更准确地处理面部表情的细节。
贴合模块通过跨身份动作训练增强了泛化性,并优化了关键点的位置。
眼部和嘴部重定向模块分别处理这两个区域的变形变化,通过独立的目标函数计算像素一致性与正则损失,从而提高了模型在处理复杂表情时的灵活性和准确性。
那么 LivePortrait 的实际表现如何呢?
研究表明,在同一身份驱动的对比测试中,LivePortrait 相较于现有方法具备更佳的生成质量和驱动精度,能捕捉到驱动帧中的眼部和嘴部微表情,并保留参考图片的纹理和身份信息。
在跨身份驱动对比中,LivePortrait的表现优异,尽管生成质量稍逊于AniPortrait这一扩散模型,但在推理效率和FLOPs需求上远胜一筹。尤其在RTX 4090 GPU上的测试,LivePortrait实现了每帧仅12.8毫秒的高速生成,大幅领先于现有扩散模型。
可灵AI宣布即将全球发布服务,领先于Sora,展现出强大的市场竞争力。此消息引发业界关注,预示着可灵团队在AI领域的持续创新和拓展。
同时,可灵团队为OCR从业者带来了重量级开源资源,无需等待自训,直接助力行业升级。这一系列动作,不仅彰显了可灵的技术实力,也为其朋友圈文案创作工具的推出铺平了道路,宣告了无需依赖微软或苹果,即可享受高级文案创作的时代已经到来。
快手旗下可灵团队最新推出的开源项目,自发布以来迅速成为实时粒子物理学研究领域的核心利器,引发广泛关注与讨论。
快手的可灵团队所研发的最新开源项目,一经问世即刻在实时粒子物理学中扮演起举足轻重的角色,掀起一股热潮。