领先推出OpenAI的Her，马斯克密切关注的实时音频模型已问世，由前FAIR团队创业者精心打造，仅提供重写后的版本。

编辑日期：2024年07月05日

采用开源策略

法国初创团队一举推出了端到端实时音频模型Moshi，领先于OpenAI。

他们公开了一段现场展示视频：

真是惊人，它的语速似乎比真人还要快！它甚至具备了抢答的能力：

往往我还没问完，它就已经给出了答案！

Moshi推出了以开放源码为原则的项目，一经发布即可免费使用。值得一提的是，PyTorch的创始人也表达了祝贺，并暗示其团队成员源于他在FAIR时期的前同事。

没错，Moshi 也将踏上开源的征途，引来网友们一片欢呼：

网友们迫不及待地尝试着新玩意儿，很快就有玩家发现打工人士Moshi竟然公开表达了疲惫：

每日工作任务繁重，我真的感到累了

看来全球的工作者都有着相似的经历呢。[doge]

那么，这个叫Moshi的到底能做些什么？表现又如何呢？

首先，Moshi具备了用70种不同情绪和风格说话的能力。

它可以带着深沉的法国口音吟咏诗歌，扮演勇敢的船长讲述冒险故事，或是用冷峻的语气叙述恐怖故事……

更令人印象深刻的是，据谷歌DeepMind的研究员、ViT论文作者Lucas Beyer指出，

Moshi几乎没有延迟，甚至有时会适时地插话打断说话者。

Beyer也提到了一个情况，即在苹果MacBook上运行的模型有时会错误地否决某些实时请求。

或许Kyutai在安全优化方面显得过于紧迫了。不过，这恰恰证明了展示确实是即时进行的，甚至可能包含即兴成分。

Moshi是一款全方位的音频模型，它可以在普通的笔记本电脑上顺畅运行。Hugging Face的创始人Thomas Wolf强调了其核心优势：简洁的训练流程和灵活的架构设计，使得即使只有八人规模的团队如Kyutai，也能在短短四个月内成功开发。合成数据在此过程中发挥了至关重要的助推作用。

Moshi致力于本地设备的应用，它将在各个角落普及。前沿的模型开发者可能并无意向让你在本地运行小型模型（尤其是基于令牌计费的模式），但对于像Kyutai这样的非营利组织，他们的目标则大相径庭。

关键在于，在保持与Llama 8B或更高水准的答案质量的同时，将响应延迟降低到300毫秒以下，这是实现高度互动性的突破性举措。

Kyutai的首席执行官Patrick Pérez指出，

Moshi具备“言语与思考同步”的能力。我们深信Moshi有望革新我们与智能设备的互动模式。

然而，有些网民在体验后对发布会的真实性提出了“疑问”。

在展示过程中，Moshi显得极度紧张，不断地向身旁的小哥倾诉内心的沉重压力，使得小哥根本无法插话。这一幕引起了马斯克的注意。

在小伙子的讨论区里，网友们竟然普遍对Moshi流露出怜悯之情。

完美的世界，唯有小哥承受了伤痛。

Kyutai的研发力量源自于巴黎的一家非营利人工智能研究实验室。

这家名为Kyutai的实验室成立于2023年11月，其核心使命是探索通用人工智能技术。主要资金支持来源于欧洲的产业资本。

据公开信息透露，Kyutai是由三位重量级人物共同注资建立的：亿万富翁及法国电信公司Iliad的CEO Xavier Niel，法国物流巨头达飞集团的CEO Rodolphe Saadé，以及曾任谷歌CEO的Eric Schmidt，每人出资一亿欧元。

Moshi是由一个由八名研究人员组成的团队在该实验室中花费六个月时间从无到有精心研发而成的。

Kyutai官方网站上列出了六名团队成员。

前微软研究员Patrick Pérez担任CEO，他的谷歌学术主页上显示其著作被引用超过4万次，专业领域涵盖了计算机视觉、图像处理、机器学习以及人工智能。

爱德华·格雷夫担任首席扩展官（CSO）的职位，这可能是专门为大规模模型时代设立的。据谷歌学术记载，他的专业研究集中在机器学习、自然语言处理和人工智能领域。

著名科学家Hervé Jégou在加入Kyutai之前，曾在Facebook AI任职长达8年3个月，并随后在Meta工作了4年，期间他专注于研究机器学习、人工智能及计算机视觉等前沿领域。

GitHub上的首席技术官Laurent Mazaré积累了1.9K的关注者，他有着在DeepMind一年的工作经历，其研究兴趣广泛，涵盖了深度学习、金融数学、理论计算机科学、以及密码学和安全等领域。

尼尔·泽吉杜，担任首席建模官（CMO）一职，这一头衔在企业高级管理层中并不常见。在加盟凯特艾之前，他曾在Facebook任职三年五个月，专注于语音识别技术；随后在谷歌度过了四年九个月的时光，起初他是Google Brain团队的研究科学家，主要研究领域涵盖机器学习、语音识别和音频理解等方面。

亚历山大·德福斯，作为创始科学家，他在加入凯特艾之前曾是巴黎FAIR的研究科学家，专注于多模态LLMs的研究。他在音乐生成领域发挥了领导作用，并且是AudioCraft框架的主要开发者之一，这是一个涉及Meta公司开源的音频模型和训练技术的项目。此外，他还与让-雷米·金博士合作，探索使用非侵入性脑成像技术解码大脑活动的方法。