跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

推理效率提升超过200%,易用性与vLLM对齐,这款国产加速框架究竟有何来历?

编辑日期:2024年09月20日

运营成本最高可降低 64%

2022 年 10 月,ChatGPT 的发布引发了以大型语言模型为代表的 AI 热潮,全球科技企业纷纷投入到这一领域的竞争中,大型语言模型的数量、参数规模以及计算需求呈现出了指数级增长。

大型语言模型(Large Language Model,简称 LLM 大模型)是指通过大量文本数据训练而成的深度学习模型,能够生成自然语言文本或理解其含义。这些大模型通常包含百亿至万亿个参数,在训练过程中需处理数万亿个 Token,这对 GPU 等计算能力提出了极高要求,同时也导致能源消耗大幅增加。

根据斯坦福人工智能研究所发布的《2023 年 AI 指数报告》,大型语言模型 GPT-3 的单次训练耗电量达 1287 兆瓦时,相当于排放了 552 吨二氧化碳。预计到 2025 年,AI 相关业务在全球数据中心的用电量占比将从 2% 增至 10%。到 2030 年,智能计算年耗电量将达到 5000 亿千瓦时,约占全球发电总量的 5%。

除了算力与能耗问题外,当大型模型进入实际应用场景时,定制化和运营成本成为了新的关键挑战。例如,最新发布的 Llama 3.1 405B 需要 450GB 的显存;0.6B pixart 在 A800 上生成一张 4096 px 的图片需要 3 分钟,这对业务提出了极高的要求。

如何在更多业务场景中应用大型模型,同时降低成本并提高效率,已成为业界普遍需要解决的问题。

在大型语言模型与用户的交互过程中,推理框架作为 AI 的核心引擎,负责接收用户的请求并进行处理和回应。整个 AI 行业正在探索如何更高效地利用计算资源,实现更多推理请求的并行处理,从而优化现有推理架构,并推出新的异构算力解决方案。

vLLM 是由加州大学伯克利分校开源的一款高效的大语言模型推理框架。它采用了 PagedAttention 技术来高效管理注意力键值对的内存,支持连续批处理和快速模型执行。通过借鉴操作系统中的虚拟内存分页概念,该框架提高了语言模型服务在实时应用中的吞吐量和内存使用效率。除了 vLLM 之外,许多大模型的上下游厂商也提出了各自的解决方案:

  • Text Generation Inference (TGI):这是 Hugging Face 开发的一个工具,支持 Hugging Face Inference API 和 Hugging Chat 上的大型语言模型推理。其目标是优化大型语言模型的推理过程。

  • TensorRT-LLM:由 NVIDIA 推出,基于 TensorRT 推理引擎,专门针对 Transformer 类型的大模型进行了优化。它支持多种技术,如内核融合、矩阵乘法优化、量化感知训练等,以提高推理性能。

  • DeepSpeed:由微软开发的分布式训练工具,旨在支持更大规模的模型,并提供了多种优化策略和工具,如 Zero、Offload 等。它支持多种并行策略,包括数据并行、模型并行、流水线并行及其组合(3D 并行),从而在多个方面优化模型的训练和推理。

  • LightLLM:这是一个基于 Python 的轻量级 LLM 推理和服务框架,以其易扩展性和高性能著称。LightLLM 结合了许多优秀的开源实现的优势,包括 Faster Transformer、TGI、vLLM 和 Flash Attention 等。

这些框架各有特色,在不同应用场景、模型配置和硬件环境下表现出的性能和优势各不相同,但仍然未能完全解决成本问题。为此,腾讯推出了 TACO-LLM,这是一款专为大模型推理加速设计的框架,提供了针对定制化、自建、上云及私有化部署的完整解决方案,力求实现极致的性价比。

TACO-LLM(腾讯云加速计算优化大语言模型)是基于腾讯云异构计算产品推出的一款大型语言模型推理加速引擎。通过充分利用计算资源的并行计算能力,TACO-LLM 能够同时处理更多的用户请求,提升语言模型的推理效率,为客户提供高吞吐量和低延迟的优化方案,助力企业降低成本并提高效率。

针对不同的应用场景,TACO-LLM 的优化主要分为以下四类:生成优化(Generation 优化)、预填充优化(Prefill 优化)、长序列优化以及高性能量化算子。以下是这四个方面的详细介绍:

并行解码进行生成优化

生成优化是自回归型大语言模型中最重要的优化之一,几乎涵盖了所有语言模型的应用场景,例如文案创作、智能客服、聊天机器人、代码生成、咨询系统及 AI 助手等。TACO-LLM 在此过程中采用了并行解码和高性能算子等技术。其主要优势如下:

  1. 并行解码 突破了基于 Transformer-Decoder 架构的自回归限制,解决了生成过程中的带宽瓶颈问题。

  2. 相比增加批处理大小,并行解码通过减少每个请求的延迟来提升吞吐量,从而确保更低的总处理时间(TPOT)。

  3. 与增强内存带宽的异构解决方案相比,并行解码无需异构集群,降低了部署成本,并使系统更加简单且易于维护。

Taco-LLM 在并行解码方面的主要尝试是自预测方案。这一方案解决了小模型来源的问题:只需使用大模型的部分层或量化后的大模型作为小模型,用户无需感知 draft model 的存在。此外,该方案相较于其他方案具有较高的命中率和较低的冗余计算,主要用于加速 70B 以上的大型模型推理。除了自预测方案外,Taco-LLM 还支持 RawLookaheadCache 和 TurboLookaheadCache 两种缓存方案,以减少冗余计算,提升性能和整体命中率。使用 Prefix Cache 技术降低 TTFT(首次输出延迟)。

Pre-fill 优化的主要目标是降低 TTFT,以优化用户体验。常见的优化方法包括多卡并行,如张量并行(TP)和数据并行(SP),以降低 TTFT。在此基础上,Taco-LLM 利用 GPU 和 CPU 结合的多级缓存 Prefix Cache 技术,使部分提示词(prompt tokens)可以通过查找历史的 KV 缓存获得,而不必参与 Pre-fill 阶段的计算,从而减少计算量,进一步降低 TTFT。这一技术在代码助手场景中尤为有效。

为了节省 Pre-fill 阶段的运行时间,历史请求的 Pre-fill 缓存按照前缀树方式保存在 GPU 和 CPU 中,将 Pre-fill 计算过程转化为 KV 缓存查询过程,并将未命中的 Tokens 参与 Pre-fill 计算,从而降低计算开销,降低 TTFT。如下图所示:

推理效率提升超过200%,易用性与vLL

长序列推理优化中的 TurboAttention 技术。

长序列优化可分为两个阶段:Prefill 阶段的长序列(如文本摘要和信息检索)以及 Generation 阶段的长序列(如长文本创作)。前者采用了 Prefix Cache 和多卡并行推理技术,而后者则引入了我们自主研发的 Turbo Attention 系列算子及优化后的量化算子。Taco-LLM 的长序列处理能力主要体现在 TurboAttention、Prefix Cache 和序列并行等方面,其中重点介绍 TurboAttention。TurboAttention 结合了 Page 管理机制和 Flash 机制,专为长序列下的 Lookahead 实现了内核,如下图所示:

推理效率提升超过200%,易用性与vLL

通过 LLM 量化技术降低推理成本

随着 LLM 模型参数量的迅速增长,其推理延迟和成本也随之急剧上升。LLM 量化技术成为了优化推理性能、降低推理成本的重要手段之一。在一些对精度要求不高的应用场景中,如文本分类、文本异常检测和文本润色等,高效量化算子通常能取得良好的效果,不仅能够显著减少 GPU 内存占用,还能提高推理速度。

为了实现量化目标,高效的量化算子实现至关重要。Taco-LLM 针对 GEMM 和 Attention 这两类算子,开发了包括权重计算感知重排、任务调度和同步策略、快速反量化以及 Integer Scale 技术在内的多种高效量化算子技术。

总的来说,Taco-LLM 的优化措施包括:通过并行解码实现投机采样和 Lookahead Cache;采用 Prefix Cache 的多级缓存技术(涵盖 GPU 和 CPU)及内存管理技术;针对长序列优化,引入了自研的 TurboAttention 系列算子、Prefix Cache 和序列并行技术;此外,还实现了高性能量化算子,如 W4A8、W4A16、W8A16 和 W8A8 等。

借助这些优化技术,Taco-LLM 在性能和成本方面相比现有的开源和商用框架具有显著优势,并且在易用性上与 vLLM 完全对齐。

Taco 的性能优势具体表现在提高大模型服务的吞吐量和降低延迟。在 Taco 加速引擎的支持下,相同的硬件设备上能够处理的 Token 数量显著增加,从原本每秒处理 100 个 Token 提升至每秒处理 200 甚至 300 个 Token。吞吐量的提升并未以牺牲延迟为代价,反而降低了每个 Token 的平均处理时间,从而提升了响应效率和用户体验,并大幅降低了 LLM 部署的成本。

例如,在使用 4 张 Ampere 显卡,输入序列长度约为 1K,输出长度约为 400,批量大小(Bs)分别为 1、2、4、8 的测试场景中,相比于业内主流的 vLLM,Taco-LLM 的吞吐性能提升了 1.8 到 2.5 倍;运营成本降低了 44% 至 64%,并且使用方式和调用接口保持一致,支持无缝切换。

推理效率提升超过200%,易用性与vLL

以 Llama-3.1 70B 为例,使用 TACO-LLM 进行部署的成本低至每百万tokens不到$0.5,相较于直接调用 MaaS API 节省超过60%以上的费用,并且其使用方法和调用接口保持一致,支持无缝切换。TACO-LLM 出色的能效比显著降低了大型语言模型(LLM)的业务成本,在多种实际应用场景中实现了降本增效:

  • 在微信的一个文本处理业务中,TACO-LLM 的吞吐性能比竞争对手提升了2.8倍,运营成本降低了64%,超时失败率减少了大约95%,并且进一步扩展了可支持文本的最大长度。

  • 在一家领先的视频平台业务中,客户希望在其自建的高性能实例上部署推理服务,要求性能比厂商官方推理框架提升至少50%。最终,TACO-LLM 在不同批量大小下比竞争对手提升了1.7到2.5倍的性能。

  • 在顺丰的一项业务中,TACO-LLM 在短输出场景下,不同批量大小下的加速倍数为2到3倍;而在长输出场景下,不同批量大小下的加速倍数为1.4到1.99倍。

TACO-LLM 的推出打破了高昂成本对AI应用的限制,不仅满足了用户对高吞吐量和低延迟的需求,还帮助企业降低了成本,提高了效率,为大规模语言模型的应用提供了一种更加高效且经济的解决方案。

未来,随着技术的不断进步,TACO-LLM 有望在更多领域得到广泛应用,推动行业的革新与发展,使AI真正融入人们的日常生活,成为学习和工作的好帮手。

推理效率提升超过200%,易用性与vLL

腾讯云首个投入运营的超大规模数据中心,同时也是华南地区迄今为止最大的新基建项目。

推理效率提升超过200%,易用性与vLL

推理效率提升超过200%,易用性与vLL

关注技术的互通互融,提升推理效率超过200%,并增强易用性与vLL。

大模型开发的门槛再度降低。

腾讯云提供的AI技术,可通过小程序、H5或PC Web网站的形式,打造创新应用。

灯光渲染量占电影总渲染量的80%。

(注意:原文中的图片链接已被忽略,因为它们并未提供具体的上下文信息。)

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析