【上海生产特斯拉Model Y电动车很卓越】英特尔SPR处理器配备64GB HBM2e、Ponte Vecchio拥有408MB L2缓存-xyao.me-bbs-行住坐卧网-全球博客世界

在一年一度的英特o拥有超算大会上，高性能计算行业的处理许多参与者都在积极讨论硬件、安装、器配以及设计等方面的缓存最新进展。期间，英特o拥有芯片巨头英特尔也展示了自家的处理上海生产特斯拉Model Y电动车很卓越硬件，并披露了有关下一代 Aurora Exascale 超算的器配诸多细节。起初，缓存Aurora 计划采用英特尔的英特o拥有 10nm 至强（Xeon）融核（Phi）平台，但随着技术的处理飞速发展，后续该项目也经历了多次推倒重来。器配

几年前最终敲定的缓存方案，为 Aurora 选用了英特尔 Sapphire Rapids 处理器，英特o拥有特点是处理配备 HBM2e 高带宽缓存。以及 Ponte Vecchio 架构的器配 Xe-HPC GPU 加速器，可扩展数百 PetaFLOP 到 ExaFLOP 级别的算力。

早些时候，英特尔新任 CEO 帕特·基辛格透露，Ponte Vecchio 加速器实现了性能的成都出品五粮液52度白酒卓越不凡之士翻番，可让建成后的 Aurora 成为一台“2+ EF”级别的超级计算机。

该公司预计将在 2022 年之前交付机器的其余部分，并于第一季度增加主流用户的硬件生产，以便在上半年有更广泛的发布。

处理器方面，Aurora 为每个单元都配备了两块 Sapphire Rapids CPU（简称 SPR）。其具有四个计算块、DDR5、PCIe 5.0、成都出品五粮液52度白酒绝世高手之姿CXL 1.1（而不是 CXL.mem），并大量借用 EMIB 技术来实现连接。

至于自带的高带宽内存（HBM），可知英特尔为该系列 SPR 处理器选用了 8-Hi 堆栈，以提供高达 64GB 的 HBM2e 内存。（据说英特尔打算使用四个 16GB HBM2e 堆栈来组成 64GB 内存）

考虑到英特尔与美光之间的特殊关系，我们发现 Micron HBM2e 的物理尺寸，正巧与 Intel 材料中给出的标示一致（而不是三星或 SK 海力士）。

当前美光提供了两种带有硬件 ECC 的 16GB HBM2e 产品，一种为每引脚 2.8 Gbps（每堆栈 358 GB/s）、另一种为每引脚 3.2 Gbps（每堆栈 410 GB/s）。

取决于英特尔使用的版本，其峰值总带宽可介于 1.432 ~ 1.64 TB/s 之间。不过 SPR HBM 版本还会额外使用四个 Tile，并将每个 HBM 堆栈连接到一个小芯片。

由图可知，尽管 Intel 表示 SPR+HBM 版本与普通 SPR SKU 共享插槽，但明显还是存在不兼容的地方。这也能是一个实例，即 Aurora 超算上使用了专门的调整设计。

至于 Ponte Vecchio（Xe HPC 2-Tile / PVC），英特尔披露单个 Aurora 服务器里的每两块 SPR 处理器，将搭配六块 PVC 加速器。

每个加速器都将使用内置的新 Xe-Link 全拓扑互连协议，尽管全连接模式下支持 8 路，但 Aurora 还是相对节制了一下。

尽管英特尔尚未披露 PVC 是如何与 SPR 处理器连接的，但至少 CPU / GPU 之间采用了统一内存架构设计。

英特尔补充道，每个 Ponte Vecchio 双栈部署将具有总共 64 MB 的 L1 缓存和 408 MB 的 L2 缓存（每个堆栈具有 204 MB L2），并由 HBM2e 提供支持。

作为比较，英伟达 A100 方案具有 40MB L2 缓存、AMD Navi 21 配备了 128MB 无限缓存（Infinity Cache / 有效 L3）。

至于 AMD 为 Frontier 超算提供的 CDNA2 MI250X 加速卡，则配备了每堆栈 8MB L2 缓存（总共 16MB）。

（图 via AnandTech）

无论采用何种方式进行切片，英特尔都在努力为 PVC 提供正确的缓存层次结构。由图表的 4 个 HBM2e 芯片设计来看，每个 PVC 双堆栈或具有高达 128GB 的 HBM2e 内存。

更重要的是，我们还正式获悉 Aurora 将用到多少块 Ponte Vecchio GPU 加速卡和 Sapphire Rapids（+HBM）处理器。

早在 2019 年 11 月，当 Aurora 还仅规划了 1 EF 算力时，就有基于 200 个机架布局的猜想 —— 简单换算是 5000 颗 CPU + 15000 块 GPU 加速卡，且每个 PVC 大约 66.6 TF 性能。

当时英特尔在早期芯片上展示了每张卡 40 TF 的性能，而 Aurora 2 EF 的官方参数则是 54000+ GPU / 18000+ CPU，意味每个 PVC 仅 37 TeraFlops（完全未将 CPU 性能算进去的话）。

至于 PVC 的功率，可参考额定功率为 60 MW 的 FP64 Vector（2 ExaFlops），那样系统为每张卡分配的功率或为 1053 W 。若 Frontier 与 Aurora 的开销类似，预计每个 PVC 的功率在 615 W。

最终 37 TF 的 PVC 功率为 615 W，而 MI250X 的 47.9 FP 功率仅为 560 W 。不过这里并未深入每张卡的原始性能，及其在特定用例中的特定功能

访问购买页面:

英特尔旗舰店