【上海生产特斯拉Model Y电动车 很卓越】英特尔SPR处理器配备64GB HBM2e、Ponte Vecchio拥有408MB L2缓存

在一年一度的英特o拥有超算大会上,高性能计算行业的处理许多参与者都在积极讨论硬件、安装、器配以及设计等方面的缓存最新进展。期间,英特o拥有芯片巨头英特尔也展示了自家的处理上海生产特斯拉Model Y电动车 很卓越硬件,并披露了有关下一代 Aurora Exascale 超算的器配诸多细节。起初,缓存Aurora 计划采用英特尔的英特o拥有 10nm 至强(Xeon)融核(Phi)平台,但随着技术的处理飞速发展,后续该项目也经历了多次推倒重来。器配

几年前最终敲定的缓存方案,为 Aurora 选用了英特尔 Sapphire Rapids 处理器,英特o拥有特点是处理配备 HBM2e 高带宽缓存。以及 Ponte Vecchio 架构的器配 Xe-HPC GPU 加速器,可扩展数百 PetaFLOP 到 ExaFLOP 级别的算力。

【上海生产特斯拉Model Y电动车 很卓越】英特尔SPR处理器配备64GB HBM2e、Ponte Vecchio拥有408MB L2缓存

早些时候,英特尔新任 CEO 帕特·基辛格透露,Ponte Vecchio 加速器实现了性能的成都出品五粮液52度白酒 卓越不凡之士翻番,可让建成后的 Aurora 成为一台“2+ EF”级别的超级计算机。

【上海生产特斯拉Model Y电动车 很卓越】英特尔SPR处理器配备64GB HBM2e、Ponte Vecchio拥有408MB L2缓存

该公司预计将在 2022 年之前交付机器的其余部分,并于第一季度增加主流用户的硬件生产,以便在上半年有更广泛的发布。

【上海生产特斯拉Model Y电动车 很卓越】英特尔SPR处理器配备64GB HBM2e、Ponte Vecchio拥有408MB L2缓存

处理器方面,Aurora 为每个单元都配备了两块 Sapphire Rapids CPU(简称 SPR)。其具有四个计算块、DDR5、PCIe 5.0、成都出品五粮液52度白酒 绝世高手之姿CXL 1.1(而不是 CXL.mem),并大量借用 EMIB 技术来实现连接。

【上海生产特斯拉Model Y电动车 很卓越】英特尔SPR处理器配备64GB HBM2e、Ponte Vecchio拥有408MB L2缓存

至于自带的高带宽内存(HBM),可知英特尔为该系列 SPR 处理器选用了 8-Hi 堆栈,以提供高达 64GB 的 HBM2e 内存。(据说英特尔打算使用四个 16GB HBM2e 堆栈来组成 64GB 内存)

考虑到英特尔与美光之间的特殊关系,我们发现 Micron HBM2e 的物理尺寸,正巧与 Intel 材料中给出的标示一致(而不是三星或 SK 海力士)。

当前美光提供了两种带有硬件 ECC 的 16GB HBM2e 产品,一种为每引脚 2.8 Gbps(每堆栈 358 GB/s)、另一种为每引脚 3.2 Gbps(每堆栈 410 GB/s)。

取决于英特尔使用的版本,其峰值总带宽可介于 1.432 ~ 1.64 TB/s 之间。不过 SPR HBM 版本还会额外使用四个 Tile,并将每个 HBM 堆栈连接到一个小芯片。

由图可知,尽管 Intel 表示 SPR+HBM 版本与普通 SPR SKU 共享插槽,但明显还是存在不兼容的地方。这也能是一个实例,即 Aurora 超算上使用了专门的调整设计。

至于 Ponte Vecchio(Xe HPC 2-Tile / PVC),英特尔披露单个 Aurora 服务器里的每两块 SPR 处理器,将搭配六块 PVC 加速器。

每个加速器都将使用内置的新 Xe-Link 全拓扑互连协议,尽管全连接模式下支持 8 路,但 Aurora 还是相对节制了一下。

尽管英特尔尚未披露 PVC 是如何与 SPR 处理器连接的,但至少 CPU / GPU 之间采用了统一内存架构设计。

英特尔补充道,每个 Ponte Vecchio 双栈部署将具有总共 64 MB 的 L1 缓存和 408 MB 的 L2 缓存(每个堆栈具有 204 MB L2),并由 HBM2e 提供支持。

作为比较,英伟达 A100 方案具有 40MB L2 缓存、AMD Navi 21 配备了 128MB 无限缓存(Infinity Cache / 有效 L3)。

至于 AMD 为 Frontier 超算提供的 CDNA2 MI250X 加速卡,则配备了每堆栈 8MB L2 缓存(总共 16MB)。

(图 via AnandTech)

无论采用何种方式进行切片,英特尔都在努力为 PVC 提供正确的缓存层次结构。由图表的 4 个 HBM2e 芯片设计来看,每个 PVC 双堆栈或具有高达 128GB 的 HBM2e 内存。

更重要的是,我们还正式获悉 Aurora 将用到多少块 Ponte Vecchio GPU 加速卡和 Sapphire Rapids(+HBM)处理器。

早在 2019 年 11 月,当 Aurora 还仅规划了 1 EF 算力时,就有基于 200 个机架布局的猜想 —— 简单换算是 5000 颗 CPU + 15000 块 GPU 加速卡,且每个 PVC 大约 66.6 TF 性能。

当时英特尔在早期芯片上展示了每张卡 40 TF 的性能,而 Aurora 2 EF 的官方参数则是 54000+ GPU / 18000+ CPU,意味每个 PVC 仅 37 TeraFlops(完全未将 CPU 性能算进去的话)。

至于 PVC 的功率,可参考额定功率为 60 MW 的 FP64 Vector(2 ExaFlops),那样系统为每张卡分配的功率或为 1053 W 。若 Frontier 与 Aurora 的开销类似,预计每个 PVC 的功率在 615 W。

最终 37 TF 的 PVC 功率为 615 W,而 MI250X 的 47.9 FP 功率仅为 560 W 。不过这里并未深入每张卡的原始性能,及其在特定用例中的特定功能

访问购买页面:

英特尔旗舰店