跳转至

AI之家

Falcon Mamba 7B 开源模型荣登榜首：替换掉 Transformer，可处理任意长度的序列

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

Falcon Mamba 7B 开源模型荣登榜首：替换掉 Transformer，可处理任意长度的序列

编辑日期：2024年08月13日

（注意力机制不再存在）

这就是最新的Falcon Mamba 7B模型。

falcon-mamba-7b-开源模型

它采用 Mamba 状态空间语言模型架构来处理各种文本生成任务。

这句话已经是中文了，无需重写。如果你需要更通俗易懂的说法，可以尝试这样：

它使用了一种叫做Mamba的状态空间语言模型架构来完成不同的文字创作任务。

通过取消传统的注意力机制，有效解决了模型在处理长序列时计算效率低的问题。它能够处理无限长度的序列，而不会增加内存的需求。无论上下文的长度如何，生成每个 token 所需的时间基本上是相同的。

因此，Falcon Mamba 模型的性能得到了全面的提升，超越了包括 Llama-3.1（8B）、Mistral（7B）以及 Falcon-2（11B）在内的一系列 Transformer 架构模型。

falcon-mamba-7b-开源模型

上述成果来自于阿联酋阿布扎比的技术创新研究所（TII），他们也正是Falcon模型的开发团队。

该系列总共包含四个模型：基础版、指令微调版、4位版以及指令微调4位版。

最新模型遵循了TII Falcon License 2.0 开放协议，该协议是在 Apache 2.0 许可之下。对此，围观的网友们纷纷表示：这将改变游戏规则！

falcon-mamba-7b-开源模型

在性能方面，Falcon Mamba 7B 全面超越了现有的开源模型。

falcon-mamba-7b-开源模型

它基于第一代 Mamba 设计。

Mamba 是一种状态空间模型（SSM），它融合了RNN和CNN的优势，并通过引入一种选择机制来提升处理文本信息的效率。这种选择机制使模型能够根据当前输入有选择性地传播或遗忘信息。

同时，它设计了一种硬件感知的并行算法，以递归模式运行，避免了GPU内存层次间的IO访问，从而提高了计算效率。

最后，它还简化了架构，将SSM架构和Transformer中的MLP块整合为单一的块。

从Transformer改为Mamba，可以使Falcon模型处理任意长度的序列，而无需增加额外的内存。这特别适用于单一的A10 24GB GPU。

研究还探讨了两种不同的处理序列的方法。

并行预填充方法适合于GPU并行处理，但需要较高的内存；顺序填充方法适用于SSM模型，能够处理任意长度的序列，因此不会受到内存的限制。

falcon-mamba-7b-开源模型

为了保证大规模训练的稳定性，Falcon Mamba模型采用了额外的RMS标准化层。

RMS 标准化层能够简化 LayerNorm 的计算过程，并减少所需的计算量。

该模型采用5500GT数据进行训练，这些数据主要来源于RefedWeb数据集及公开数据。训练过程基本保持匀速，在训练后期加入了一小部分高质量的精选数据，这对模型最终阶段的优化有所助益。

在H100上，当批处理大小为1，并且提示词的长度在1到130k生成token的测试中，Falcon Mamba能够保持稳定的吞吐量来生成新的token。这意味着其性能不会受到文本长度的影响，可以稳定地处理长序列，而不会出现性能下降的情况。

falcon-mamba-7b-开源模型

falcon-mamba-7b-开源模型

Falcon Mamba 支持多种 Hugging Face API，如 AutoModelForCausalLM、pipeline。此外，还发布了一个经过指令优化的版本，该版本通过额外使用 50 亿个 token 进行微调，能够进一步提高模型的准确性。

最新的模型可以在Hugging Face和GitHub上访问到。

参考链接：

注意：您未提供需要重写的具体内容，仅重写了“参考链接”部分。若需重写其他内容，请提供详细信息。

本文转载自微信公众号：量子位（ID：QbitAI），作者：明敏，原题目为《替换Transformer后，7B开源模型立即夺冠！能够处理任意长度的序列》。

大家在看

图标描述

图标描述

微软AI大模型通识教程

AI大模型开发

AI大模型入门教程

图标描述

Python入门教程

图标描述

Python进阶教程

图标描述

Python小例子200道练习题

图标描述

Python练手项目

Python从零到一60题

Python从零在线练习题

Python爬虫教程...

NumPy入门教程

NumPy文章

NumPy练习题

Pandas入门

Pandas练习

数据可视化教程

Flask开发

Django开发

Python办公自动化，数据处理，文档生成，电子邮件管理

风清风雷风顺中国气象局发布三个-ai-气象大模型系统

小米米家吸管杯上架有品众筹316l-不锈钢内胆1l-容量99-元

在日益激烈的顶尖人才争夺战中局势再度升温尽管-xai-这颗新兴科技之星尚未庆祝其周岁诞辰其核心工程师-kosic-却做出了一个重大决定他选择离开-xai回归昔日战场重新加入他的旧主-openai这一举动无疑为这场科技巨头之间的人才角力增添了新的变数

adobe-illustrator-...

小米智能门锁-2-指静脉版今日开售ai-指静脉识别-1-年续航到手-1299-元

Page Views: Site Views: Visitors:

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析