CPU与GPU的互联距离从1米跃升到100米,英特尔:你相信光吗?
编辑日期:2024年07月27日
要达到一百亿小时才会出现一次错误的可能性,
金磊 报道 自 凹非寺
英特尔运用“光”的力量,解决了大型模型时代中的棘手算力难题 ——
他们推出了业界第一款全集成光学计算互连(OCI)芯片。
图片来源:英特尔
在当前AI大型模型遵循Scaling Law的发展趋势下,为了获得更佳的效果,无论是模型规模还是数据规模,都朝着更大化的方向发展。
这导致AI大型模型在算力层面,对计算、存储以及中间I/O通信等方面提出了更高的要求。
而英特尔此次的创新点就在于I/O通信:
即在CPU和GPU之间,采用光学I/O替代传统的电气I/O进行数据传输。
这样做有何意义?
简而言之,这意味着数据传输的距离更远、容量更大且功耗更低 —— 更符合AI大型模型的需求。
图片来源:英特尔
那么,英特尔为何选择使用“光”来传输?具体是如何实现的呢?
传统上采用电气I/O方式(通过铜线连接)确实有其优点,比如支持高带宽密度和低功耗,但致命的缺点在于传输距离非常有限(不足1米)。
这在一个机架内部可能不是问题,但对于AI大型模型来说,算力通常需要服务器集群级别的配置。
这些集群占地面积庞大,并跨越多个机架,连接线缆长度动辄数十米乃至上百米,功耗极高;它们会消耗掉供给机架的所有电源,导致没有足够的电力来进行计算和存储芯片的数据读写操作。
此外,由于大型模型本身的“庞大”特性,原来的读取一次进行上百次计算的比例,现在几乎变成了1:1的存算比。
△ 图源:英特尔
这要求我们找到一种新方法,在提升计算能力和存储密度的同时减少能耗并缩小体积,以便在有限空间内容纳更多计算和存储资源。
引入光学I/O后,问题得以解决:
能够在长达100米的光纤中,单向支持64个32Gbps的通道。
一个形象的比喻是,就像从使用马车(有容量和距离限制)转向使用小汽车和卡车运送货物(数量更大、距离更远)。
此外,即使在较短距离内完成高密度、灵活的数据传输任务时,OCI方式可以被比作摩托车,更快更灵活。
值得注意的是,这种OCI方法并非仅停留在理论上。
根据英特尔的说法,他们已经采用经过实际验证的硅光子技术,集成了包含片上激光器在内的硅光子集成电路(PIC)、光放大器和电子集成电路。
在此之前,他们还展示过与自家CPU封装在一起的OCI芯片,并可与下一代CPU、GPU、IPU等SOC(系统级芯片)集成。
不仅如此,英特尔已出货超过800万个硅光子集成电路,其中超过3200万个激光器已经投入使用。
△ 图源:英特尔
下一个问题是:
在与英特尔研究院副总裁、英特尔中国研究院院长宋继强的交流中,他对此进行了深入的分析和解释。
△ 宋继强,英特尔研究院副总裁及英特尔中国研究院院长。硅光子技术融合了20世纪两大重要发明:硅集成电路与半导体激光器。
相较于传统电子器件,它能在更长距离下实现更快的数据传输速度,同时借助英特尔高效的大规模硅产品生产技术。
此次英特尔发布的硅光集成技术已达到光电共同封装阶段,即OCI芯片单元。
该共同封装技术将一个硅光子集成电路(PIC)与一个电子集成电路(EIC)置于同一基板上,形成OCI芯片单元,作为集成连接组件。
这意味着xPU(包括CPU和未来GPU)均可与OCI芯片共同封装。
OCI芯片单元能将数据中心CPU的所有电气I/O信号转换为光信号,并通过光纤在不同数据中心节点或系统间进行传输。
当前其双向数据传输速率已达4Tbps,且在传输协议上与PCIe 5.0兼容,支持64条32Gbps单向通道,对于现有数据中心来说已经足够:
它采用了8根光纤,功耗仅为每比特5皮焦耳(pJ),即10^-12焦耳,这一数值是可插拔光收发器模块功耗(每比特15皮焦耳)的三分之一。
△ 图片来源:英特尔
在单一光传输通道中,包含8个不同波段,各波段频率间隔为200GHz,总共占用1.6THz的光谱空间以实现数据传输。
从可见光到不可见光,光的频谱宽度极为广阔,而从THz频段开始则进入了近似光通信的范围。
那么OCI I/O 芯粒将来会在哪些领域得到应用呢?对此,宋继强表示:
一方面,它可以用于通信,另一方面,可以与 CPU 和 GPU 等计算芯片进行封装,实现计算与通信紧密结合。
通过硅光集成技术和先进的封装技术——英特尔在这方面拥有多种技术——我们可以实现更高密度的 I/O 芯粒,并与其他 xPU 结合。未来,基于芯粒的各种计算与互连组合将具有广泛的应用前景。
根据 OCI I/O 接口芯粒的性能发展路线图,其当前可达到 32 Tbps 的传输速度,这主要通过逐步提高以下三个指标来实现:
这三个指标相乘,即为当前单向 2 Tbps 的数据传输速度,双向则为 4 Tbps。未来,带宽能力有望持续提升。
△ 图源:英特尔
关于英特尔在硅光集成技术方面的差异化优势,宋继强解释道:
我们成功在晶圆上集成了高频激光发射器和硅光放大器,这两项核心技术均实现了晶圆级别的制造。
接下来,我们将能够批量生产这种高度集成的激光器,其优点在于仅需使用普通光纤即可实现传输。
此外,在稳定性方面,大约每 100 亿小时才会出现一次错误。
那么你认为英特尔选择的“光”如何呢?欢迎在评论区留言讨论。
参考链接: 1. https://mp.weixin.qq.com/s/ozx_ficqlxjEPKa5AlBdfA 2. https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/Intel-Shows-OCI-Optical-I-O-Chiplet-Co-packaged-with-CPU-at/post/1582541 3. https://www.youtube.com/watch?v=Fml3yuPR2AU
此前,在英特尔工作超过二十年。
英伟达最近尝试收购Arm,但未能成功。
什么是华为的速度?
根据国外媒体的报道,芯片制造商高通在当地时间周四宣布推出了首批支持Wi-Fi 6E的下一代无线芯片。
12层对比50层,我们的优势明显。