AMD 宣布推出 AMD Instinct MI325X 加速器、AMD Pensando Pollara 400 NIC 以及 AMD Pensando Salina DPU 等最新 AI 加速器和網路解決方案,將為新一代人工智慧基礎設施提供大規模支援,並為生成式 AI 模型及資料中心設立全新效能標準。
AMD Instinct MI325X 加速器基於 AMD CDNA 3 架構,旨在為基礎模型訓練、微調和推論等要求嚴苛的 AI 任務提供卓越的效能和效率。全新產品將成為 AMD 客戶和合作夥伴在系統、機架和資料中心層級中,打造高效能和最佳化的 AI 解決方案。
AMD 推出全新 Instinct MI325X 加速器
AMD 執行副總裁暨資料中心解決方案事業群總經理 Forrest Norrod 表示,AMD 持續執行產品藍圖,為客戶提供所需的效能和選擇,以更快的速度將 AI 基礎設施大規模推向市場。憑藉全新 AMD Instinct 加速器、EPYC 處理器和 AMD Pensando 網路引擎、開放軟體產業體系的持續成長,以及將這一切整合至最佳化 AI 基礎設施中的能力,AMD 展現建置和部署世界級 AI 解決方案的關鍵專業知識與能力。
AMD Instinct MI325X 擴展 AI 效能的領先優勢
AMD Instinct MI325X 加速器提供領先業界的記憶體容量及頻寬,包括 256GB HBM3E 記憶體容量支援 6.0TB/s,提供比 H200 高 1.8 倍的容量和 1.3 倍的頻寬,以及 1.3 倍的 FP16 理論峰值和 FP8 運算效能。
AMD Instinct MI325X 加速器的記憶體和運算能力可較 H200 提供高達 1.3 倍的 Mistral 7B FP16 推論效能、1.2 倍的 Llama 3.1 70B FP8 推論效能,以及 1.4 倍的 Mixtral 8x7B FP16 推論效能。
AMD Instinct MI325X 加速器目前如期在 2024 年第 4 季量產出貨,預計將於 2025 年第 1 季起,由戴爾科技集團、Eviden、技嘉、HPE、聯想、美超微 (Supermicro) 等平台供應商廣泛提供。
AMD 持續履行年度產品藍圖的節奏,預覽了下一代 AMD Instinct MI350 系列加速器。相對於 AMD CDNA 3 架構的加速器,基於 AMD CDNA 4 架構的 AMD Instinct MI350 系列加速器將帶來 35 倍推論效能提升。
AMD Instinct MI350 系列將持續鞏固記憶體容量的領先地位,每加速器容量高達 288GB HBM3E 記憶體,將如期於 2025 年下半年推出。
AMD 新一代 AI 網路解決方案
AMD 正在運用超大規模供應商 (hyperscalers) 部署最廣泛的可程式化 DPU 來為新一代 AI 網路提供動能。AI 網路分為兩部分:前端 (向 AI 叢集提供資料和資訊) 和後端 (管理加速器和叢集之間的資料傳輸),對於確保 CPU 和加速器在 AI 基礎設施中高效利用至關重要。
為了有效管理這兩個網路並推動整個系統的高效能、可擴展性和效率,AMD 推出用於前端的 AMD Pensando Salina DPU 和用於後端、業界首款 UEC 就緒的 AMD Pensando Pollara 400 AI NIC。
AMD Pensando Salina DPU 是全球效能最強大可程式化 DPU 的第 3 代產品,與前一代 DPU 相比,效能、頻寬和規模提升高達 2 倍。AMD Pensando Salina DPU 支援 400G 吞吐量以實現快速資料傳輸速率,是 AI 前端網路叢集的關鍵元件,為資料驅動的 AI 應用帶來最佳化的效能、效率、安全性和可擴展性。
UEC 就緒的 AMD Pensando Pollara 400 由 AMD P4 可程式化引擎提供動能,是業界首款 UEC 就緒的 AI NIC,支援新一代 RDMA 軟體,並由開放的網路產業體系提供支援。AMD Pensando Pollara 400 對於在後端網路中提供領先的效能、可擴展性和加速器間通訊的效率至關重要。
AMD Pensando Salina DPU 和 AMD Pensando Pollara 400 於 2024 年第 4 季送樣,並將如期在 2025 年上半年推出。
AMD AI 軟體為生成式 AI 提供全新功能
AMD 持續推進軟體功能和開放產業體系的發展,在 AMD ROCm 開放軟體堆疊中提供強大的全新特性和功能。
在開放軟體社群中,AMD 正推動 PyTorch、Triton、Hugging Face 等最為廣泛採用的 AI 框架、函式庫和模型對 AMD 運算引擎的支援。這項工作為 AMD Instinct 加速器提供了即時效能與支援,適用於 Stable Diffusion 3、Meta Llama 3、3.1 和 3.2 等熱門的生成式 AI 模型,以及 Hugging Face 超過 100 萬個模型。
除了社群之外,AMD 持續推進其 ROCm 開放軟體堆疊,帶來支援生成式 AI 工作負載訓練和推論的最新功能。ROCm 6.2 現在對 FP8 資料類型、Flash Attention 3、Kernel Fusion 等關鍵 AI 功能提供支援。憑藉這些新增功能,ROCm 6.2 較 ROCm 6.0 提供高達 2.4 倍的推論效能提升以及 1.8 倍的大型語言模型 (LLM) 訓練效能提升。