蚂蚁集团已公开其EchoMimic项目,利用人工智能技术,该技术能让照片依据语音内容呈现同步的口型动作。
编辑日期:2024年07月11日
该计划展现了出色的稳固性和逼真度,通过整合声音与面部标志点的信息——这些标志点捕捉到如眼睛、鼻子和嘴巴等关键面部特征和构造——能够创造出更为贴近真实面部动态和情绪变化的视频内容。
该技术能够独立创建基于音频或面部特征的肖像视频,同时也允许将音频与人物照片融合,实现逼真的“同步口型”效果。据了解,它具备多语言能力,包括简体中文和英语,并能适应多种风格,甚至能在歌唱等特定场景中应用。
附相关链接: