AMD 的 Instinct MI300A APU 在 HPC 工作負載中相較於傳統獨立 GPU 實現顯著性能提升,搭載 CDNA 3 GPU 和 Zen 4 CPU,並採用統一記憶體設計,性能比獨立 GPU 高達 4 倍。
AMD Instinct MI300A APU 性能強勁
AMD Instinct MI300A 是多年前提出的「Exascale APU」平台的實現,其理念是在同一封裝中打包高性能 GPU 和高性能 CPU,並利用統一記憶體搭配。對於 HPC 來說,這些 APU 設計提供更高的每瓦性能優勢,但需要大量移植、調整和維護數百萬計程式碼的應用程式,相較之下可能有點複雜。然而,看來研究人員已開始用 OpenMP 和 OpenACC 來充分利用 AMD 下一代 APU。
在這篇題為「使用統一記憶體和 OpenMP 將 HPC 應用程式移植到 AMD Instinct MI300A」的研究論文中,其使用 OpenFOAM 框架,為一開源 C++ 庫:
- 我們提供了 APU 編程模型的藍圖,並展示使用 OpenMP 在 MI300A 上移植程式碼的便捷性和靈活性。
- 我們詳細說明用於增量加速生產和工業界廣泛使用的代碼 OpenFOAM 的方法。
由於 AMD Instinct MI300A 加速器使用統一的 HBM 介面,消除資料複製的需要,並且不需要在主機和設備記憶體之間進行編程區分。以下是對 AMD Instinct MI300A APU 的簡單回顧:
- 首款整合 CPU+GPU 封裝。
- 面向 Exascale 超級電腦市場。
- AMD MI300A (整合 CPU + GPU)。
- 1530 億電晶體。
- 最多 24 個 Zen 4 核心。
- CDNA 3 GPU 架構。
- 最多 192GB HBM3 記憶體。
- 最多 8 個晶片和 8 個記憶體堆疊 (5nm + 6nm 製程)。
在使用 OpenFOAM 的 HPC 電動自行車基準測試中,AMD Instinct MI300A APU 與 AMD Instinct MI210、NVIDIA A100 80GB 和 NVIDIA H100 (80GB) GPU 進行對比測試。AMD GPU 運行在 ROCm 6.0 堆棧上,NVIDIA GPU 執行在 CUDA 12.2.2 堆棧上。基準測試配置為運行 20 個時間步長,以每個時間步長的平均執行時間 (秒) 作為優點指標 (FOM)。除了 Instinct MI300A 之外的所有三種配置都使用獨立 CPU,因此配置了一個插槽式 CPU,並採用異構記憶體管理,允許 GPU 存取系統記憶體並運行基準測試。
在測試中,結果以 NVIDIA H100 系統為基準進行歸一化,該系統在三個獨立晶片中提供最佳獨立 GPU 性能,但 Instinct MI300A APU 最終比 NVIDIA H100 高出 4 倍,比 Instinct MI210 加速器高出 5 倍。
- 在獨立 GPU 上,超過 65% 的時間花在頁面遷移上:更新 GPU 表並在主機和設備之間複製資料。
- 在 APU 上,CPU 核心和 GPU 計算單元之間共享的統一物理記憶體完全消除了頁面遷移的開銷,從而顯著提高了性能。
研究還發現,搭載單個 Zen 4 CPU 封裝的 AMD Instinct MI300A 的速度是配備獨立 GPU 解決方案的單插槽 Zen 4 CPU 的兩倍。通過多個進程進一步超載 MI300A APU 可以將性能提高 2 倍 (每個 APU 使用 3-6 個 CPU 核心進行測試),這比 dGPU + dCPU 配置缺乏可擴展性要好得多。
因此,看來 AMD Instinct MI300A APU 在 HPC 領域的計算能力將無與倫比。NVIDIA 在其下一代 Blackwell 系列中已在傳統 HPC 性能方面落後,因為如今 AI 似乎是主要的熱潮,而 AMD 將通過其 MI300X 加速器及其未來的更新來解決這個問題,看來 HPC 領域將使 AMD 備受關注。
延伸閱讀