AMD 在 Hot Chips 2025 揭露 Instinct MI350 細節,其採用 3nm 3D Chiplet 設計,整合 1850 億電晶體與 288GB HBM3e,最高 1400W TBP,提供高達 10 PFLOPs 的 AI 運算效能,對比 NVIDIA GB200 展現 2.1 倍性能優勢,鎖定超過 4000 億參數模型的訓練與推論。
AI 計算硬體巨獸 Instinct MI350 GPU
在 Hot Chips 2025 大會上,AMD 釋出關於旗下新世代 Instinct MI350 AI 加速器的技術詳情。這款基於 CDNA 4 架構的旗艦級 GPU,專為大型 AI 模型訓練與推論設計,採用 3nm + 6nm 製程與 3D 晶片組 (Chiplet) 設計,擁有 1850 億電晶體,並配備 288GB HBM3e 高頻寬記憶體。
MI350 的核心規格和版本整理如下:
-
MI350X (空冷版):最高功耗 1000W,時脈 2.2 GHz。
-
MI355X (水冷版):最高功耗 1400W,時脈 2.4 GHz。
-
計算單元:共 256 CU / 16,384 核心,另有 1024 個矩陣核心。
-
記憶體:288GB HBM3e,頻寬高達 8 TB/s。
-
快取:256MB Infinity Cache。
AMD 採用 8 顆 3nm XCD 運算晶粒與 2 顆 6nm IOD (I/O 晶粒) 的混合封裝,透過 CoWoS-S 技術實現,並藉由 Infinity Fabric 連接提供 5.5 TB/s 晶粒間頻寬。
相較於前代 MI300 系列,整體運算效能皆有提升,MI355X 在 Llama 3.1 405B 推論測試中效能提升達 35 倍。
-
FP16 / BF16 向量運算:157.3 TFLOPs。
-
FP8 矩陣運算:5.0 PFLOPs。
-
FP6/MXFP4 新格式:最高 10 PFLOPs。
-
FP64 向量 / 矩陣運算:78.6 TFLOPs。
而在對比 NVIDIA GB200 SXM 平台時,MI355X 的 AI/HPC 計算輸出達到 2.1 倍優勢。MI350X 平台可達 36.9 PF16 / BF16 PFLOPs,支援 10U 空冷系統;MI355X 平台可達 40.2 FP16 / BF16 與 80.5 FP8 PFLOPs,支援 5U 液冷系統。兩者在擴充能力方面,單機支援 2.25TB HBM3e,並透過 Infinity Fabric 提供 1075 GB/s 頻寬。
AMD 確認 MI350 系列將於 2025 年 Q3 上市,並透過多家合作夥伴進入資料中心部署。下一代 MI400 系列則預計於 2026 年推出。
延伸閱讀