图灵奖得主 LeCun 加入 AI 芯片新秀 Groq，该公司估值 28 亿美元，正向英伟达发起挑战。

编辑日期：2024年08月06日

成立于2016年的初创企业Groq，在最近一轮的融资活动中筹集了6.4亿美元。本次融资由BlackRock Inc.旗下的基金领投，并获得了来自思科及三星投资部门的支持。

目前，Groq的市场估值已达到28亿美元。公司的创始人Jonathan Ross曾在谷歌负责TPU芯片的研发工作。而现在，Groq的核心产品LPU主要用于加速AI基础模型，特别是大型语言模型（LLM）的运行。

图灵奖得主-lecun-加入-ai-芯片

Ross 表示，一旦人们体验到在Groq的高速引擎上使用大型语言模型是多么便捷，大型语言模型的应用将会进一步普及。

以更低的价格和能耗实现与英伟达芯片相同甚至更快的速度，这让Groq有足够的信心与英伟达竞争。值得一提的是，Groq还宣布图灵奖得主LeCun即将担任其技术顾问。LeCun的正式加入，将成为Groq在这个竞争激烈的芯片领域中一个强大的盟友。

图灵奖得主-lecun-加入-ai-芯片

天下武功，唯速不破。而能够超越每秒处理800个token的Groq的，唯有下一代的Groq。

从每秒处理 500 个令牌到 800 个，再到 1256.54 个令牌，Groq 的速度之快使得许多 GPU 都望尘莫及。

图灵奖得主-lecun-加入-ai-芯片

随着7月初的新功能低调推出，Groq现在的表现比之前的演示快了很多，也更智能化了。现在不仅支持文本查询，还可以通过语音命令来进行查询。

图灵奖得主-lecun-加入-ai-芯片

默认情况下，Groq的网站引擎采用的是Meta的开源Llama3-8b-8192大型语言模型。

用户还可以选择更大的Llama3-70b，以及来自Google的Gemma和Mistral模型，同时很快也将支持其他模型。

图灵奖得主-lecun-加入-ai-芯片

这种快速且灵活的体验对开发者来说非常重要。在传统的AGI处理数据时，往往需要习惯等待，因为通常要观察字符逐一输出后才能进行下一步操作。

在Groq的最新版本中，上述任务几乎都能得到瞬时响应，速度极快。来举个例子。比如，在Groq上让它评价VB Transform活动议程有哪些可以改进的地方。

图灵奖得主-lecun-加入-ai-芯片

以1225.15令牌/秒的速度，几乎瞬间就弹出了回答。

并且内容非常具体明确，包含了十项改进建议，如建议更清晰的分类、提供更详细的会议描述和更完善的演讲者简介等。

图灵奖得主-lecun-加入-ai-芯片

当语音输入请求推荐一些出色的演讲人以使阵容更多元化时，它会立即生成一个列表，包括姓名、所属机构及可选的演讲主题，并清楚地以表格形式呈现给您。

图灵奖得主-lecun-加入-ai-芯片

要求它添加一列联系方式，它也能立刻补充好邮箱地址和推特账号，完全不成问题。

再举个例子。在视频中，巴拉巴拉说了一分多钟，要求Groq为下周的演讲课程创建一个日程安排表。

Groq不仅耐心地理解并创建了所需的表格，还允许快速简便地进行修改，包括拼写纠正。

图灵奖得主-lecun-加入-ai-芯片

还可以选择变更要求，让对方为我忘记请求的内容增设额外的栏目，始终保持着耐心、高效与细致的态度。在甲方眼中，这样的乙方简直就是完美的存在。

还可以将其翻译成不同的语言。有时可能会出现需要发出多次请求才能进行修正的情况，但这类错误通常出现在LLM层面上，而非处理层面上。

可以说，从每秒500个令牌到每秒800个令牌，而现在直接提升到每秒数千个令牌的生成速度，这让GPT-4和Nvidia的表现更加突出。

当然，除了“快速”之外，这次更新的另一个亮点是在引擎内直接输入查询之外，还允许用户通过语音命令进行查询。

Groq 使用了 OpenAI 最新的开源自动语音识别与翻译模型 Whisper Large v3，将语音转录为文本，随后将此文本作为大型语言模型（LLM）的提示输入。

通过提速和增强多模态输入，实现了流畅操作且无需打字，这种创新的使用方式极大地便利了用户。

7月17日，Groq的研究科学家Rick Lamers在推特上公布了一个“秘密项目”——微调后的Llama3 Groq合成工具使用模型8B和70B版本，旨在增强AI在工具使用和函数调用方面的能力。

团队采用了全量微调和直接偏好优化（DPO）的结合方法，并且完全使用了合乎道德规范的生成数据，过程中未涉及任何用户数据。

图灵奖得主-lecun-加入-ai-芯片

伯克利函数调用排行榜（Berkeley Function-Calling Leaderboard, BFCL）中的所有数据均源自现实世界，专门用于评估LLM在调用工具或函数方面的能力。

Groq本次发布的微调版Llama3 8B和70B，在BFCL上都取得了相当亮眼的成绩，总体准确率分别达到了90.76%和89.06%。

其中，70B版本的得分超越了Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o和Gemini 1.5 Pro等专有模型，位居BFCL排行榜榜首。

图灵奖得主-lecun-加入-ai-芯片

两个版本的模型均已开源，用户可以从HuggingFace上下载模型权重，或者通过GroqCloud进行访问。

图灵奖得主-lecun-加入-ai-芯片

HugggingFace 的地址：https://huggingface.co/ Groq

此外，Groq 在 Llama 3 的基础上进一步发挥了其「速度至上」的理念，推出了一款名为 Groqbook 的应用程式，能够实现在 1 分钟内生成一整本书的功能。

图灵奖得主-lecun-加入-ai-芯片

根据GitHub主页上的介绍，Groqbook结合使用了Llama3-8B和70B两个模型，先利用较大模型生成结构，然后由较小的模型来创作具体细节内容。

目前，此程序仅适用于非虚构类书籍，并需要用户输入每章节的标题以提供上下文信息。

图灵奖得主-lecun-加入-ai-芯片

Groq表示，未来会让Groqbook生成整本书的内容，并且扩展到虚构类书籍领域，以创作出高质量的小说。

解决了用户使用的核心痛点，Groq 自然受到了使用者的欢迎。

在上线4个月后，Groq已经开始免费提供处理大型语言模型工作负载的服务，这已经吸引了超过28.2万开发者使用。

Groq 提供了一个平台，供开发者构建他们的应用程序，这与其它推理服务提供商类似。

然而，Groq 的独特之处在于它让在 OpenAI 上开发应用的开发者能够通过简单的几步，在几秒之内将他们的应用迁移到 Groq。

Ross 表示他将很快转向需求巨大的企业市场。大型企业正在广泛部署 AI 应用，因此需要更强大的处理能力来应对他们的工作负载。

Groq表示，其技术在最坏的情况下的功耗大约仅为GPU的三分之一，而对于大部分的工作负载来说，功耗则仅有GPU的十分之一。

在LLM工作负载持续扩展和能源需求不断增加的背景下，Groq的高效能表现对GPU主导的计算领域提出了挑战。

尽管Nvidia在AI训练方面表现出色，但在推理领域存在局限性。相比之下，Groq的芯片在推理速度和成本上具有数倍的优势。预计未来推理市场的份额将从目前的5%增长到90%-95%。

Ross 自信地宣称，到明年年底，将会部署150万个LPU，占据全球推理需求的半壁江山。

目前，虽然模型训练首选GPU，但在部署AI应用程序时，更高的效率和更低的延迟同样至关重要。

正如 Groq 当初首次进入公众视线时仅凭一个字，“快”，Groq 这次的速度提升仍在速度的竞技场上疾驰飞奔。

Groq承诺能以更快的速度和更低的成本完成任务，部分原因在于其语言处理单元（LPU）。

与GPU相比，LPU减少了管理多个线程的开销，并且避免了核心利用率不足的问题。此外，Groq的芯片设计还能够实现多个专用核心的连接，而又不会出现传统上的GPU集群中的瓶颈问题。

LPU的工作原理与GPU有显著区别。具体而言，LPU采用了时序指令集计算机（TISC）架构。这种架构的特点是不需要像GPU那样频繁地从内存中调取数据，因此不必依赖高带宽存储器（HBM）。

图灵奖得主-lecun-加入-ai-芯片

LPU不依赖于外部内存，其权重、键值缓存（KV Cache）及激活函数等数据在处理过程中全部存储在芯片内部。这种方法不仅能巧妙地避开因HBM短缺带来的问题，还能实际有效地降低生产成本。

与Nvidia GPU对高速数据传输的依赖不同，Groq的LPU在其系统架构中未采用HBM，而是选择了SRAM。

由于每块芯片只配置了 230MB 的 SRAM，因此没有复杂的模型能够通过单一芯片单独运行。需要指出的是，SRAM 的速度大约比 GPU 使用的内存快 20 倍。

图灵奖得主-lecun-加入-ai-芯片

鉴于AI的推理计算所需的数据量比模型训练大幅减少，Groq的LPU展现出了更加出色的节能优势。

在执行推理任务时，它从外部内存读取的数据量显著减少，且相比GPU，其电力消耗也明显降低。

遗憾的是，NVIDIA的GPU可以同时用于训练和推理，但LPU仅被设计用于模型推理。

参考来源：

本文出自微信公众号：微信公众号（ID：null），作者为新智元。

大家在看

AI之家

🔥AI副业赚钱星球

点击下面图片查看

🔥ChatGPT-4在线使用

Python和AI在线练习

AI之家教程

图灵奖得主 LeCun 加入 AI 芯片新秀 Groq，该公司估值 28 亿美元，正向英伟达发起挑战。

大家在看

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

nothing-cmf-watch-pro-2-智能手表推出具备可替换表圈功能售价为-69-美元

美国多家汽车经销商将ai用于车辆初步检查一分钟内可生成全面报告

最新出炉的中国软件评测中心报告显示，文心大模型在技术、产品和应用领域均处于领先地位。

马斯克与扎克伯格终于目光交汇ai-大...

openai的searchgpt官方...