推理效率提升超过200%，易用性与vLLM对齐，这款国产加速框架究竟有何来历？

编辑日期：2024年09月20日

运营成本最高可降低 64%

2022 年 10 月，ChatGPT 的发布引发了以大型语言模型为代表的 AI 热潮，全球科技企业纷纷投入到这一领域的竞争中，大型语言模型的数量、参数规模以及计算需求呈现出了指数级增长。

大型语言模型（Large Language Model，简称 LLM 大模型）是指通过大量文本数据训练而成的深度学习模型，能够生成自然语言文本或理解其含义。这些大模型通常包含百亿至万亿个参数，在训练过程中需处理数万亿个 Token，这对 GPU 等计算能力提出了极高要求，同时也导致能源消耗大幅增加。

根据斯坦福人工智能研究所发布的《2023 年 AI 指数报告》，大型语言模型 GPT-3 的单次训练耗电量达 1287 兆瓦时，相当于排放了 552 吨二氧化碳。预计到 2025 年，AI 相关业务在全球数据中心的用电量占比将从 2% 增至 10%。到 2030 年，智能计算年耗电量将达到 5000 亿千瓦时，约占全球发电总量的 5%。

除了算力与能耗问题外，当大型模型进入实际应用场景时，定制化和运营成本成为了新的关键挑战。例如，最新发布的 Llama 3.1 405B 需要 450GB 的显存；0.6B pixart 在 A800 上生成一张 4096 px 的图片需要 3 分钟，这对业务提出了极高的要求。

如何在更多业务场景中应用大型模型，同时降低成本并提高效率，已成为业界普遍需要解决的问题。

在大型语言模型与用户的交互过程中，推理框架作为 AI 的核心引擎，负责接收用户的请求并进行处理和回应。整个 AI 行业正在探索如何更高效地利用计算资源，实现更多推理请求的并行处理，从而优化现有推理架构，并推出新的异构算力解决方案。

vLLM 是由加州大学伯克利分校开源的一款高效的大语言模型推理框架。它采用了 PagedAttention 技术来高效管理注意力键值对的内存，支持连续批处理和快速模型执行。通过借鉴操作系统中的虚拟内存分页概念，该框架提高了语言模型服务在实时应用中的吞吐量和内存使用效率。除了 vLLM 之外，许多大模型的上下游厂商也提出了各自的解决方案：

Text Generation Inference (TGI)：这是 Hugging Face 开发的一个工具，支持 Hugging Face Inference API 和 Hugging Chat 上的大型语言模型推理。其目标是优化大型语言模型的推理过程。
TensorRT-LLM：由 NVIDIA 推出，基于 TensorRT 推理引擎，专门针对 Transformer 类型的大模型进行了优化。它支持多种技术，如内核融合、矩阵乘法优化、量化感知训练等，以提高推理性能。
DeepSpeed：由微软开发的分布式训练工具，旨在支持更大规模的模型，并提供了多种优化策略和工具，如 Zero、Offload 等。它支持多种并行策略，包括数据并行、模型并行、流水线并行及其组合（3D 并行），从而在多个方面优化模型的训练和推理。
LightLLM：这是一个基于 Python 的轻量级 LLM 推理和服务框架，以其易扩展性和高性能著称。LightLLM 结合了许多优秀的开源实现的优势，包括 Faster Transformer、TGI、vLLM 和 Flash Attention 等。

这些框架各有特色，在不同应用场景、模型配置和硬件环境下表现出的性能和优势各不相同，但仍然未能完全解决成本问题。为此，腾讯推出了 TACO-LLM，这是一款专为大模型推理加速设计的框架，提供了针对定制化、自建、上云及私有化部署的完整解决方案，力求实现极致的性价比。

TACO-LLM（腾讯云加速计算优化大语言模型）是基于腾讯云异构计算产品推出的一款大型语言模型推理加速引擎。通过充分利用计算资源的并行计算能力，TACO-LLM 能够同时处理更多的用户请求，提升语言模型的推理效率，为客户提供高吞吐量和低延迟的优化方案，助力企业降低成本并提高效率。

针对不同的应用场景，TACO-LLM 的优化主要分为以下四类：生成优化（Generation 优化）、预填充优化（Prefill 优化）、长序列优化以及高性能量化算子。以下是这四个方面的详细介绍：

并行解码进行生成优化

生成优化是自回归型大语言模型中最重要的优化之一，几乎涵盖了所有语言模型的应用场景，例如文案创作、智能客服、聊天机器人、代码生成、咨询系统及 AI 助手等。TACO-LLM 在此过程中采用了并行解码和高性能算子等技术。其主要优势如下：

并行解码 突破了基于 Transformer-Decoder 架构的自回归限制，解决了生成过程中的带宽瓶颈问题。
相比增加批处理大小，并行解码通过减少每个请求的延迟来提升吞吐量，从而确保更低的总处理时间（TPOT）。
与增强内存带宽的异构解决方案相比，并行解码无需异构集群，降低了部署成本，并使系统更加简单且易于维护。

Taco-LLM 在并行解码方面的主要尝试是自预测方案。这一方案解决了小模型来源的问题：只需使用大模型的部分层或量化后的大模型作为小模型，用户无需感知 draft model 的存在。此外，该方案相较于其他方案具有较高的命中率和较低的冗余计算，主要用于加速 70B 以上的大型模型推理。除了自预测方案外，Taco-LLM 还支持 RawLookaheadCache 和 TurboLookaheadCache 两种缓存方案，以减少冗余计算，提升性能和整体命中率。使用 Prefix Cache 技术降低 TTFT（首次输出延迟）。

Pre-fill 优化的主要目标是降低 TTFT，以优化用户体验。常见的优化方法包括多卡并行，如张量并行（TP）和数据并行（SP），以降低 TTFT。在此基础上，Taco-LLM 利用 GPU 和 CPU 结合的多级缓存 Prefix Cache 技术，使部分提示词（prompt tokens）可以通过查找历史的 KV 缓存获得，而不必参与 Pre-fill 阶段的计算，从而减少计算量，进一步降低 TTFT。这一技术在代码助手场景中尤为有效。

为了节省 Pre-fill 阶段的运行时间，历史请求的 Pre-fill 缓存按照前缀树方式保存在 GPU 和 CPU 中，将 Pre-fill 计算过程转化为 KV 缓存查询过程，并将未命中的 Tokens 参与 Pre-fill 计算，从而降低计算开销，降低 TTFT。如下图所示：

推理效率提升超过200%，易用性与vLL

长序列推理优化中的 TurboAttention 技术。

长序列优化可分为两个阶段：Prefill 阶段的长序列（如文本摘要和信息检索）以及 Generation 阶段的长序列（如长文本创作）。前者采用了 Prefix Cache 和多卡并行推理技术，而后者则引入了我们自主研发的 Turbo Attention 系列算子及优化后的量化算子。Taco-LLM 的长序列处理能力主要体现在 TurboAttention、Prefix Cache 和序列并行等方面，其中重点介绍 TurboAttention。TurboAttention 结合了 Page 管理机制和 Flash 机制，专为长序列下的 Lookahead 实现了内核，如下图所示：

推理效率提升超过200%，易用性与vLL

通过 LLM 量化技术降低推理成本

随着 LLM 模型参数量的迅速增长，其推理延迟和成本也随之急剧上升。LLM 量化技术成为了优化推理性能、降低推理成本的重要手段之一。在一些对精度要求不高的应用场景中，如文本分类、文本异常检测和文本润色等，高效量化算子通常能取得良好的效果，不仅能够显著减少 GPU 内存占用，还能提高推理速度。

为了实现量化目标，高效的量化算子实现至关重要。Taco-LLM 针对 GEMM 和 Attention 这两类算子，开发了包括权重计算感知重排、任务调度和同步策略、快速反量化以及 Integer Scale 技术在内的多种高效量化算子技术。

总的来说，Taco-LLM 的优化措施包括：通过并行解码实现投机采样和 Lookahead Cache；采用 Prefix Cache 的多级缓存技术（涵盖 GPU 和 CPU）及内存管理技术；针对长序列优化，引入了自研的 TurboAttention 系列算子、Prefix Cache 和序列并行技术；此外，还实现了高性能量化算子，如 W4A8、W4A16、W8A16 和 W8A8 等。

借助这些优化技术，Taco-LLM 在性能和成本方面相比现有的开源和商用框架具有显著优势，并且在易用性上与 vLLM 完全对齐。

Taco 的性能优势具体表现在提高大模型服务的吞吐量和降低延迟。在 Taco 加速引擎的支持下，相同的硬件设备上能够处理的 Token 数量显著增加，从原本每秒处理 100 个 Token 提升至每秒处理 200 甚至 300 个 Token。吞吐量的提升并未以牺牲延迟为代价，反而降低了每个 Token 的平均处理时间，从而提升了响应效率和用户体验，并大幅降低了 LLM 部署的成本。

例如，在使用 4 张 Ampere 显卡，输入序列长度约为 1K，输出长度约为 400，批量大小（Bs）分别为 1、2、4、8 的测试场景中，相比于业内主流的 vLLM，Taco-LLM 的吞吐性能提升了 1.8 到 2.5 倍；运营成本降低了 44% 至 64%，并且使用方式和调用接口保持一致，支持无缝切换。

推理效率提升超过200%，易用性与vLL

以 Llama-3.1 70B 为例，使用 TACO-LLM 进行部署的成本低至每百万tokens不到$0.5，相较于直接调用 MaaS API 节省超过60%以上的费用，并且其使用方法和调用接口保持一致，支持无缝切换。TACO-LLM 出色的能效比显著降低了大型语言模型（LLM）的业务成本，在多种实际应用场景中实现了降本增效：

在微信的一个文本处理业务中，TACO-LLM 的吞吐性能比竞争对手提升了2.8倍，运营成本降低了64%，超时失败率减少了大约95%，并且进一步扩展了可支持文本的最大长度。
在一家领先的视频平台业务中，客户希望在其自建的高性能实例上部署推理服务，要求性能比厂商官方推理框架提升至少50%。最终，TACO-LLM 在不同批量大小下比竞争对手提升了1.7到2.5倍的性能。
在顺丰的一项业务中，TACO-LLM 在短输出场景下，不同批量大小下的加速倍数为2到3倍；而在长输出场景下，不同批量大小下的加速倍数为1.4到1.99倍。

TACO-LLM 的推出打破了高昂成本对AI应用的限制，不仅满足了用户对高吞吐量和低延迟的需求，还帮助企业降低了成本，提高了效率，为大规模语言模型的应用提供了一种更加高效且经济的解决方案。

未来，随着技术的不断进步，TACO-LLM 有望在更多领域得到广泛应用，推动行业的革新与发展，使AI真正融入人们的日常生活，成为学习和工作的好帮手。

推理效率提升超过200%，易用性与vLL