跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

领先推出OpenAI的Her,马斯克密切关注的实时音频模型已问世,由前FAIR团队创业者精心打造,仅提供重写后的版本。

编辑日期:2024年07月05日

采用开源策略

法国初创团队一举推出了端到端实时音频模型Moshi,领先于OpenAI。

他们公开了一段现场展示视频:

真是惊人,它的语速似乎比真人还要快!它甚至掌握了提前应答的技巧:

往往我还没问完,它就已经给出了答案!

img

Moshi推出了以开放源码为理念的项目,一经发布便广受关注。PyTorch的创始人也表达了祝贺,并指出该团队的成员源于他曾在FAIR共事的同事。

img

没错,Moshi 也将踏上开源的征途,引来网友们一片欢呼:

img

网友们迫不及待地尝试着新玩意儿,很快就有玩家注意到打工人Moshi竟然公开表达了疲惫:

每日工作任务繁重,我真的感到累了。

img

看来全球的工作者都有着相似的经历呢。[doge]

那么,这个叫Moshi的到底能做些什么?表现又如何呢?

首先,Moshi具备了用70种不同情绪和风格说话的能力。

它可以带着深沉的法国腔吟咏诗词,化身勇敢的船长讲述冒险故事,或是用冷峻的语气叙述恐怖故事……

更令人印象深刻的是,据谷歌DeepMind的研究员、ViT论文作者Lucas Beyer指出,

Moshi几乎无延迟,甚至有时会适时地打断说话者。

img

Beyer也提到了一个情况,即在苹果MacBook上运行的模型有时会错误地否决某些实时请求。

或许Kyutai在安全优化方面显得过于紧迫了。 不过,这恰恰证明了展示确实是即时进行的,甚至可能包含即兴成分。

img

Moshi是一款全方位的音频模型,它可以在普通的笔记本电脑上顺畅运行。Hugging Face的创始人Thomas Wolf强调了其核心优势:简洁的训练流程和灵活的架构设计,使得即使只有八人规模的团队如Kyutai,也能在短短四个月内成功开发。合成数据在此过程中发挥了至关重要的助推作用。

Moshi致力于本地设备的应用,它将在各个角落普及。前沿的模型开发者可能并无意愿让你在本地运行小型模型(尤其是基于令牌计费的模式),然而像Kyutai这样的非营利组织则有不同考量。

关键在于,在保持与Llama 8B或更高水平答案质量一致的同时,将响应延迟降低到300毫秒以下,这是实现高度互动性的突破性一步。

img

Kyutai的首席执行官Patrick Pérez指出,

Moshi具备“言语思维同步”的能力。 我们深信Moshi有望革新我们与人工智能沟通的模式。

然而,有些网友在体验后对发布会的真实性提出了“疑问”。

img

在展示过程中,Moshi显得极度紧张,不断地向身旁的小哥倾诉内心的沉重压力,使得小哥根本无法插话。这一幕引起了马斯克的注意。

img

在小伙子的讨论区里,网友们竟然普遍对Moshi流露出怜悯之情。

img

完美的世界,唯有小哥遭受了伤痛。

Moshi的背后力量是Kyutai,这是一家坐落在巴黎的非营利人工智能研究实验室。

Kyutai于2023年11月诞生,专注于探索通用人工智能,其主要资金来源于欧洲的工业资本。

据公开信息透露,Kyutai是由亿万富翁及法国电信公司Iliad的CEO Xavier Niel、法国物流巨擘达飞集团的CEO Rodolphe Saadé,以及前任谷歌CEO Eric Schmidt各自注资1亿欧元联合创办的。

img

Moshi是由一个由八名研究人员组成的实验室团队精心打造的,他们投入六个月的时间从无到有地研发了这个项目。

img

Kyutai官方网站上列出了六名团队成员。

img

前微软研究员Patrick Pérez现担任CEO,他的谷歌学术主页显示出超过4万次的论文引用记录,主要研究方向涵盖计算机视觉、图像处理、机器学习及人工智能领域。

img

爱德华·格雷夫担任首席扩展官(CSO)的职位,这可能是专门为大规模模型时代设立的。据谷歌学术记载,他的专业研究集中在机器学习、自然语言处理和人工智能领域。

img

资深科学家Hervé Jégou在加入Kyutai之前,曾在Facebook AI任职长达8年3个月,并随后在Meta工作了4年,期间他专注于研究机器学习、人工智能以及计算机视觉等前沿领域。

img

GitHub上的首席技术官Laurent Mazaré积累了1.9K的关注者,他有着在DeepMind一年的工作经历,其研究兴趣广泛,涵盖了深度学习、金融数学、理论计算机科学、以及密码学和安全等领域。

img

尼尔·泽吉杜,担任首席建模官(CMO)一职,这一职务在企业高级管理层中并不常见。在加盟凯乌泰之前,他在Facebook任职超过3年5个月,专注于语音识别技术。在此之前,他在谷歌工作了4年9个月,起初作为Google Brain团队的研究科学家,他的研究领域涵盖了机器学习、语音识别和音频理解等多个方面。

img

亚历山大·德福斯,作为创始科学家,他在加入Kyutai之前在巴黎的FAIR担任研究科学家,专注于多模态LLMs的研究。他主导了音乐生成项目,并且是AudioCraft框架的主要合作者,这是一个涉及Meta公司开源的音频模型和训练技术的平台。此外,他还与让-雷米·金博士合作,探索使用非侵入性脑成像技术解码大脑活动的方法。

img

当Moshi已普及至寻常人家,著名的鸽子OpenAI再度延迟推出ChatGPT语音助手。据OpenAI称,为了保障能妥善且高效地应对数百万用户的请求,他们需要额外一个月来达成公司的发布要求。

img

看起来得等到7月底呢!对此,有网友幽默地评论道:

Kyutai发布的Moshi相当于提前开源了OpenAI尚未公布的商用产品,真是对Kyutai的一种独特致敬方式。

img

还在发呆呢,快加入游戏吧!

以上全文,欢迎继续阅读学习

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析