"小钢炮"MiniCPM-S,一款源于面壁智能的开源AI模型,以其卓越的能效比和低能耗特性备受瞩目,专注于提供高效运行解决方案。
编辑日期:2024年07月06日
据悉,面壁团队在2024年推出了MiniCPM-2.4B,该模型在保持与GPT-3相当的性能的同时,参数量却缩减至24亿,实现了知识密度约86倍的增长。据他们透露,这仅仅是个开端——通过不断优化Scaling Law,他们能够提升模型的知识密度,进而训练出更高效、性能更优的基础大模型(减少参数规模,降低数值位宽,优化结构)。
此次公开的 MiniCPM-S 模型借助“稀疏激活”技术,在保持相同参数量的情况下,有效降低了大型模型推理过程中的能量消耗。稀疏度增加意味着每个词汇单元(token)激活的神经元数量减少,从而进一步降低大模型的推理成本和能耗。
MiniCPM-S 1.2B 模型运用了极度稀疏的结构设计,通过引入 ReLU 激活函数,并结合逐步约束的稀疏性感知训练方法,巧妙地突破了大型主流模型在处理稀疏激活问题时所遇到的难题。
官方指出,MiniCPM-S 1.2 与同等规模的密集型模型 MiniCPM 1.2B 相比,展现出了以下独特属性:
MiniCPM-S 1.2B 声称实现了前所未有的知识浓缩增强,其密度是同等规模密集型模型MiniCPM 1.2B的2.57倍,更是Mistral-7B的12.1倍。
提供开源链接:
除此之外,面壁还推出了业界首个移动端大模型工具集——MobileCPM,使开发者能够轻松地将大模型整合到应用程序中,实现无缝即用。这个工具包包括开源的移动端大模型、SDK开发工具包以及多样化的功能意图,如翻译和摘要,能够全面满足不同场景应用的需求,提供个性化的大模型App定制服务。它为开发者准备了基础版、精简版和全功能版三种模式,预装了面壁最新的高效稀疏架构模型MiniCPM-S 1.2B。
现已启用对 iOS 系统的支持,Android 版本也将随即推出。敬请留意:我们提供开源地址及 TestFlight 公开测试链接。