AI 能“读懂”你的唇语,私语或将不再安全
编辑日期:2024年09月12日
具体效果如下:
(注: 下文应接具体的效果描述。若没有更多内容则需要确认原文意图。)
在红毯上,布莱克・莱弗利小声地说:“好紧张”。虽然她笑着说话时,人们很难通过唇语辨认出她说的话,但AI却可以做到。
一眼看去,只能看到侃爷那一排显眼的白牙(并非),他的唇语也很容易被破解。
看完后,网友们纷纷开始评论,各种创意和想法层出不穷:
求“联名”型网友:快把它们和Siri结合一下吧!这样我就不用像个小傻子一样对着电脑大喊大叫了!
测评型网友:我想用它来试试“固定电话画质”的视频!
注:这里可能是想表达一种较低画质的视频,但“座机画质”并不常见,可能是口误或者是新颖的说法。如果是这样的情境下,“固定电话画质”也并不是一个常见的表述,可能需要更明确地描述想要表达的内容。如果是指低质量或像素较低的视频,建议可以换成“低画质”或者“像素较低的”等常见表述方式。
担心安全的网友说:我有点害怕,我想戴口罩了。(呜呜)
量子位整理了一些视频,并亲自测试了 Readtheirlips 的使用效果,供大家参考。
先试了一下阿尔特曼在斯坦福的访谈视频,将生成的文本与原始对话进行对比,发现内容完全吻合。
当然,请提供您需要重写的文本内容。
而在面对经常使用小表情的老马时,Readtheirlips 的表现依然稳定。
当然,请提供您需要重写的文本内容。
不过,以上两个视频中的人物都是全程正面面对镜头的。
如果换成的是喜欢用手势辅助说话的小扎,那么“Readtheirlips”会直接显示错误信息。(视频中的人物并不是始终正对着镜头。)
当主角换成卡帕西后,由于他说话速度过快,生成的文本出现了识别错误。(左侧为 Readtheirlips 生成,右侧为文字处理软件生成)
最后,我们尝试上传了一个16分钟的视频,但Readtheirlips直接显示错误,无法识别内容。
总结来说:
识别视频的时间大约在一分钟左右。
注:原句中的 "Readtheirlips" 看起来像是一个拼写错误或乱码,因此在重写时并未包含此部分。如果这部分有特定含义,请提供更多信息。
正如他们所标注的那样,如果人物的正面无法正对镜头,那么模型就很难给出正确的答案。
而对于语速过快的视频内容,Readtheirlips只能识别出一部分。
对此,团队成员回答说:
关于上传视频的时长限制,他们是这样说明的:
看完亲测视频后,我们来聊一聊 Readtheirlips 的工作原理吧。
让我们看看它是如何读取人类唇语的:
首先,研究团队利用大量的标注数据(已知的唇部运动及其对应的文本内容)对模型进行训练。
在此基础上,用户需要上传一段包含说话者面部特写,特别是嘴部动作的视频。
然后,模型会对视频中的嘴部运动进行分析:首先通过面部检测识别出嘴唇的位置,接着提取嘴唇的几何特征(如形状、开合程度、运动轨迹等),最后分析说话过程中嘴唇的动态变化(包括速度、方向和形状的变化)。
然后,模型会将提取到的唇部特征与训练数据中的特征进行匹配,以识别出视频中人物所说的内容。
将识别到的词语或短语组成完整的句子,然后进行上下文的理解,确保句子的语法和语义正确无误。
最终将识别到的内容以文本形式输出。
开发团队 Symphonic Labs 是一家初创公司,负责读唇语应用的开发。
注:原句中的"Readtheirlips"可能是指一款读唇语的应用,但是没有具体的产品名称,因此在重写时将其作为描述来处理。如果"Readtheirlips"是特定产品的名称,则应保持不变。
领英上的信息显示,该公司在今年4月才刚刚成立,截至目前,公司的员工人数还不到10人。
他们之前还开发了一款能够通过读取唇语实现实时文本转录的软件,名为Symphonic。
两个软件的体验链接都已经附上了,感兴趣的朋友可以去试一下~
试玩链接:ReadtheirLips
交响乐试玩链接:
请提供需要重写的文本内容,以便我为您处理。谢谢!
本文来源于微信公众号:微信公众号(ID:QbitAI),作者专注于前沿科技。