AMD 發表全新 Instinct MI100 加速卡,為全球最快高效能運算 GPU,同時也是首款突破 10 teraflops (FP64) 效能的 x86 伺服器 GPU。MI100 加速器獲得戴爾、技嘉、HPE、美超微等各大廠商的新款加速運算平台支援,結合 AMD EPYC CPU 以及 ROCm 4.0 開放軟體平台,旨在為即將到來的 exascale 等級時代推動全新發現。
AMD Instinct MI100 搭配 AMD 第 2 代 EPYC 處理器,為高效能運算與 AI 開創出全新等級的加速系統。MI100 在高效能運算方面提供高達 11.5 TFLOPS 的 FP64 尖峰效能,在 AI 與機器學習工作負載方面則提供高達 46.1 TFLOPS的FP32 Matrix 尖峰效能。透過全新 AMD Matrix Core 技術,MI100 在執行 AI 訓練工作負載時能提供比 AMD 前一代加速器提升近 7 倍的 FP16 理論尖峰浮點運算效能。
AMD 資料中心 GPU 與加速處理部門全球副總裁 Brad McCredie 表示,AMD 推出 AMD Instinct MI100,為全球最快的高效能運算 GPU,代表著我們往 exascale 等級運算的目標邁進一大步。瞄準科學運算中最關鍵的工作負載,最新加速器搭配 AMD ROCm 開放軟體平台,兩強合併的組合為科學家與研究人員提供更為優越的高效能運算工作基礎。
瞄準 Exascale 等級時代所打造的開放軟體平台
AMD ROCm 開發者軟體為 exascale 等級運算提供基礎。ROCm 作為一個由編譯器、程式開發 API 與函式庫組成的開源工具集,可以幫助眾多 exascale 等級軟體開發者打造高效能應用程式。經過優化的 ROCm 4.0 能為基於 MI100 的系統提供大規模運算的效能。ROCm 4.0 已將編譯器升級至支援開源並統一支援 OpenMP 5.0 與 HIP。此外,PyTorch 與 Tensorflow 框架都已針對 ROCm 4.0 進行優化,能配合 MI100 達到更高的效能。ROCm 4.0 是為高效能運算、機器學習以及人工智慧程式開發者量身打造的最新方案,讓他們開發高效能的可移植軟體。
橡樹嶺國家實驗室領導運算中心科學總監 Bronson Messer 表示,我們已經率先使用 MI100 加速器,初步使用效果讓人非常振奮。我們見證到大幅的效能提升,相比其他 GPU 高出達 2 到 3 倍。我們也同樣意識到軟體對效能影響的重要性。開源的 ROCm 開放軟體平台以及 HIP 開發者工具能在各種平台上運行,這是我們自推出首款混合 CPU / GPU 系統以來最關切的特點。
AMD Instinct MI100 加速器的關鍵功能與特色包括
- 全新 AMD CDNA 架構-AMD CDNA 架構提供卓越的效能與功耗效率,為 AMD GPU 提供 exascale 等級時代的效能,同時也是 MI100 加速器的核心。
- 為 HPC 工作負載提供領先的 FP64 與 FP32 效能-提供領先業界的 11.5 TFLOPS 尖峰 FP64 效能,以及 23.1 TFLOPS 的尖峰 FP32 效能,幫助全球各地科學家與研究人員加快在生命科學、能源、金融、學術、政府、國防等領域的新發現。
- 為 HPC 與 AI 開發的全新 Matrix Core 技術-針對全範圍單精度與混合精度矩陣運算提供大幅提升效能,其中包括 FP32、FP16、bFloat16、Int8、以及 Int4 等,促進 HPC 與 AI 的融合。
- 第 2 代 AMD Infinity Fabric 技術-Instinct MI100 使用 3 個 AMD Infinity Fabric Link 時,可在 PCIe 4.0 上提供約 2 倍的 P2P (peer-to-peer) 尖峰 I/O 頻寬,以及每張顯示卡高達 340 GB/s 的總頻寬。在伺服器中,MI100 GPU 可配備兩個完全連結的 Quad GPU 單元 (hives),每個單元可為高速資料分享提供高達 552 GB/s 的 P2P I/O 頻寬。
- 超高速 HBM2 記憶體-配備 32GB 高頻寬 HBM2 記憶體以及 1.2 GHz 的時脈頻率,帶來超高的 1.23 TB/s 記憶體頻寬,支援龐大資料集,協助消弭資料在記憶體存取時的傳輸瓶頸。
- 支援業界最新 PCIe Gen 4.0 技術-配合最新版 PCIe Gen 4.0 技術進行開發,在 CPU 與 GPU 之間提供高達 64GB/s 尖峰理論傳輸資料頻寬。
企業級市場的各大 OEM 與 ODM 合作夥伴廠商預計將於今年底問市的新系統中搭載 AMD Instinct MI100 加速器,其中包括
戴爾
戴爾科技集團 PowerEdge 伺服器資深副總裁 Ravi Pendekanti 表示,Dell EMC PowerEdge 伺服器將支援全新 AMD Instinct MI100,能更快從數據中分析出洞察。這將協助客戶迅速得到更強大且高效率的 HPC 與 AI 結果。AMD 一直是協助我們推動資料中心創新的重要合作夥伴。AMD Instinct 加速器的高效能特性與 PowerEdge 伺服器 AI 與 HPC 產品陣容完美契合。
技嘉
技嘉 NCBU 助理副總裁 Alan Chen 表示,我們很高興再次與 AMD 合作成為策略夥伴,為客戶提供高效能運算所需的伺服器硬體。AMD Instinct MI100 加速器代表著資料中心高效能運算的全新水平,為能源研究、分子動力學、以及深度學習訓練帶來更高的連接性與資料頻寬。作為技嘉產品陣容的全新加速器,我們的客戶將在一系列科學與工業 HPC 工作負載上獲得更好的效能。
HPE
HPE 全球副總裁暨高效能運算部門總經理 Bill Mannel 表示,客戶運用 HPE Apollo 系統帶來的特定功能與效能,解決在高效能運算、深度學習以及分析等領域中一系列複雜的資料密集型工作負載。隨著全新 HPE Apollo 6500 Gen10 Plus 系統的推出,我們進一步推升產品陣容,並藉由支援全新 AMD Instinct MI100 加速器與 AMD 第 2 代 EPYC 處理器來改進工作負載效能,發揮更高的連接性與資料處理能力。我們期盼繼續與 AMD 合作,利用其最新的 CPU 與加速器來擴大我們的產品方案。
美超微
美超微現場應用工程與事業發展部資深副總裁 Vik Malyala 表示,我們非常高興 AMD Instinct MI100 加速器為高效能運算領域帶來巨大影響。全新 CDNA 架構帶來的運算力提升,加上 MI100 帶來的高記憶體容量以及 GPU P2P 傳輸頻寬,我們的客戶將可獲得各種卓越的解決方案,滿足其加速運算需求以及關鍵企業工作負載。AMD Instinct MI100 將為我們多重 GPU 伺服器以及高效能系統與模組化構建式伺服器解決方案的廣泛產品陣容提供一個卓越的擴充方案。
運算單元 | 120 |
---|---|
串流處理器 | 7680 |
FP64 TFLOPS (尖峰) | 高達 11.5 |
FP32 TFLOPS (尖峰) | 高達 23.1 |
FP32 Matrix TFLOPS (尖峰) | 高達 46.1 |
FP16 / FP16 Matrix TFLOPS (尖峰) | 高達184.6 |
INT4 | INT8 TOPS (尖峰) | 高達184.6 |
bFloat16 TFLOPs (尖峰) | 高達 92.3 |
HBM2 ECC 記憶體 | 32 GB |
記憶體頻寬 | 高達 1.23 TB/s |