OpenAI 开启推理算力新 Scaling Law,AI PC 和 CPU 的机会来临
编辑日期:2024年09月24日
向量数据库笑了
OpenAI 的新模型 o1 可谓开启了 Scaling Law 的新篇章——
借助更多的强化学习(训练时计算)与更多的思考时间(测试时计算),o1 在逻辑推理方面已达到当前的天花板水平。
特别是在北京大学的一项评估中,o1-mini 模型的表现甚至超过了 o1-preview:
这展示了一种全新的思路和可能性——
小模型可以通过专注于增强推理能力,而不是在参数中存储大量世界知识来实现突破。
对此,OpenAI 科学家赵盛佳解释道:
o1-mini 是一个高度专业化的模型,通过集中精力提升少数特定能力,从而实现更深层次的发展。
然而,这也带来了一个新的问题:
如何让 AI 同时具备高阶推理能力和丰富的知识呢?
在这种情况下,技术焦点再次转向了大模型与 RAG(Retrieval-Augmented Generation)的结合。
具体来说,向量数据库使大模型能够快速且高效地检索和处理大量向量数据,从而为大模型提供更丰富和准确的信息,增强了模型的整体性能和应用范围。
这相当于给大模型配备了“好记性”,减少了答非所问的情况。
此外,这次小模型专业化的趋势对 RAG 中的向量数据库提出了更高的要求:
一方面,小模型存储的知识较少,因此对外部知识存储和检索的质量要求更高。
另一方面,随着 AI 应用加速落地,面对多用户、高并发的场景,系统整体性能的要求也更高。
在此背景下,业界领先企业正将目光转向更强大的分布式向量数据库。
向量数据库领域的领军企业星环科技与英特尔强强联合,推出了一种全新的解决方案:采用高性能数据中心CPU与酷睿™ Ultra支持的AI PC组合,搭配经过专门优化的分布式向量数据库,提供了一种更为经济且通用的方法,有效解决了企业在部署大规模模型时遇到的瓶颈问题。
如前所述,RAG(Retrieval-Augmented Generation)的关键部分在于其附加的专业知识库,该知识库必须包含能够准确回答问题所需的专业知识和规则。
构建这种附加的知识库通常有多种方法,包括使用向量数据库、知识图谱,甚至可以直接接入ElasticSearch数据。然而,由于向量数据库具有检索高维向量的能力,能更好地与大型模型匹配,因此目前成为主流选择。
向量数据库能够高效地存储、处理和管理向量化后的数据。如下图所示,数据向量化的过程利用了诸如词向量模型和卷积神经网络等人工智能技术。
通过Embedding过程,这些技术可以将文本、图像、音视频等多种形式的数据转化为向量形式,并存储在向量数据库中。向量数据库的查询功能则是通过计算向量之间的相似度来实现的。
星环科技推出的创新产品是“无涯·问知Infinity Intelligence”。这一产品基于星环的大规模模型基础,结合个人知识库、企业知识库、法律法规、财经等多种知识源,为企业提供垂直领域的智能问答服务。例如,针对“国家大基金三期会投向哪些领域”这样的专业问题,“无涯·问知”不仅能够轻松作答,还能提供相关的图谱、关键信息等:
并且能够以图文并茂的方式展示答案。
无涯·问知能够迅速对用户上传的各类本地文件(如视频)进行总结:
整体而言,无涯·问知支持用户一键上传文档、表格、图片、音视频等多种数据格式,从而实现对大量多模态知识的高效检索和智能问答。对于企业知识库,通过管理端构建后,员工可以根据企业知识库进行问答,这有助于促进不同团队和部门之间的协作和信息交流。
此外,无涯·问知内置了各交易所的交易规则和监管要求等相关法律法规知识,使用户能够针对具体的法律法规条款、监管规则等提出问题,并获得法律风险预警及应对建议。它还包含丰富的上市公司财报和产业链图谱数据,为金融机构提供了全面深入的投资研究分析工具。
即便是在金融、法律这些对时效性和数据隐私有严格要求的行业中,星环科技也提供了无需联网的无涯问知AI PC版,该版本能够在搭载英特尔® 酷睿™ Ultra处理器的主流个人电脑上,利用集成显卡和NPU流畅运行。无涯问知AI PC版不仅拥有强大的本地向量库,支持多种格式且不限长度的文件资料入库,还支持图像、音频、文本等多种数据类型的“知识化”处理和“语义化”查询与应用,极大地扩展了知识获取和应用场景。
无涯·问知是星环知识平台Transwarp Knowledge Hub的重要组成部分,它为用户搭建了从人工智能基础设施建设到大数据、人工智能研发应用的完整链条。
值得一提的是,TKH同样推出了AI PC版本,该版本基于本地大模型技术,能够回答用户的各类问题,为用户提供文档总结、知识问答等全新体验,同时保障用户隐私数据的安全。AI PC版本的星环大模型知识库提供了本地大模型和远程大模型两种选择:简单问题可以由本地模型快速处理,而复杂疑难问题则可以提交给云端的大模型进行深入分析。
这种灵活扩展的能力,确保了企业在面对不同挑战时,都能获得足够的计算支持。
这一系列产品的高效知识管理和智能化工具能在云端和本地均发挥作用,得益于星环科技自主研发的几项关键技术。
首先,基于星环自研的向量数据库Hippo的向量索引技术,可以在庞大的数据集中迅速准确地检索相关信息,提高了信息检索的速度和准确性,使模型在处理查询时更加高效。
其次,利用图计算框架,大模型能够识别实体间的多层次关系,从而进行深度的关联分析,提供更深入和准确的洞察结果。
在数据方面,涵盖了1600多个信息源,包括官方资讯、门户网站、自媒体财经等,包含了全市场的各种宏观数据、价格指数及大部分新闻数据。
这不仅包括通常渠道可获取的数据,还包括来自高可信度的第一手新闻合作商的数据,并且对所有官方政策数据进行了实时全覆盖。
然而,随着大模型的发展,数据规模急速膨胀,这对数据库和智能问答系统的性能提出了更高的要求。
因此,数据压缩和算力提升成为了各大模型开发商关注的重点。
在这方面,星环科技与英特尔展开了深度合作,从端侧的AI PC到后端的数据中心和云端,通过软硬件协同优化,为大模型的应用落地提供了切实可行的解决方案。
向量数据库与CPU的结合已成为行业内的主流选择。这是因为向量相似度检索和高密度向量聚类等任务都是CPU密集型工作负载,因此CPU的性能尤为关键。
第五代英特尔® 至强® 可扩展处理器针对AI时代进行了多项重要更新:
- 它配备了更大容量的高带宽内存,有效解决了向量数据库中数据密集型工作负载所面临的内存瓶颈问题。
- 此外,它还内置了英特尔® AMX(高级矩阵扩展)加速引擎,能够高效处理向量数据库查询所需的矩阵乘法运算,并在单次运算中处理更大的矩阵。
对于云部署版本而言,采用第五代至强® 处理器后,星环Transwarp Hippo的整体性能相比第三代提升了高达2.07倍。
那么,本地AI算力能否支持在AI PC上使用大规模模型来支持企业应用呢?
星环的回答是:完全可以。
自AI PC问世至今近一年的时间里,整体AI算力提升了超过200%,同时能耗降低了50%。这一进步主要得益于英特尔® 酷睿™ Ultra系列的不断升级。
在最新的英特尔® 酷睿™ Ultra 处理器(第二代)200V系列的支持下,整个AI PC平台的算力最高可达120 TOPS。特别是集成的第四代NPU,性能比上一代提升了4倍,非常适合在低能耗的情况下持续运行AI工作负载。
在软件层面,英特尔与星环合作,对数据库底层进行了性能优化。通过水平扩展架构、基于CPU的向量化指令优化以及多芯片加速等技术,分布式向量数据库能够充分发挥并行检索能力,为海量、多维向量处理提供强大的算力支持。
经过优化后的Transwarp Hippo实现了对海量、高维度向量数据的高效处理,并具备低延迟和高精度的优势。
同时,Transwarp Hippo服务器节点的性能密度得到了显著提升,在增强性能的同时,实现了更高的每瓦性能比,从而有助于减少单位性能的能耗成本,最终体现在总体拥有成本(TCO)的降低上。随着以OpenAI的o1系列为代表的大模型不断革新算法,大模型在推理过程中的算力消耗正迅速增加,这对支撑这些大模型运行的基础设施平台提出了更高的要求。
特别是对于那些需要频繁访问外部知识库的大模型应用来说,存储与计算的深度融合已经成为迫切的需求。
在这场技术变革中,CPU扮演了至关重要的角色。
此外,英特尔基于CPU的解决方案也为用户提供了更具成本效益的选择。由于通用CPU拥有成熟且完善的供应链体系和生态系统支持,企业用户可以确保获得稳定可靠的算力供应。
同时,英特尔® 至强® 和酷睿™ 处理器能够同时满足端侧和云侧的算力需求,为不同的应用场景提供强有力的支持。
展望未来,存算一体化的趋势将更加明显。
从大模型应用的角度来看,知识检索与AI推理将不再是两个独立的过程,而是会深度交织、相互强化。
在这个智能融合的未来图景中,CPU作为连接存储、网络和各类加速器的关键纽带,其重要性将日益凸显。
我们希望通过这个专栏,让更多人了解CPU在AI推理加速乃至整个AI平台或全流程加速方面的实际应用成果,重点在于如何更好地利用CPU来提升大模型应用的性能和效率。
试用星环科技无涯·问知,可点击文末“阅读原文”跳转。
Gaudi®2致力于以领先的性价比优势,为中国用户提供更高的深度学习性能和效率。
CEO黄仁勋的身价接近100亿美元。
最高能耗达115W
本文提供了一种使用 OpenVINO™ opset 重构模型架构的便捷方法。
对所有硬件厂商开放