AMD 正式推出 ROCm 7 開放式軟體堆疊,支援 MI350 AI GPU,加強推論性能、引入 FP8 / FP6 演算法與新模型框架,相較前代 ROCm 6,AI 效能最高提升 3.8 倍,並將支援 Ryzen 筆電與 Windows 平台。
AMD ROCm 7 平台將強化 AI 推論與通用部署
AMD 正式發表其新一代開放式 AI 軟體平台 ROCm 7,為其 Instinct MI350 系列加速器提供完整支援,並針對 AI 推論場景進行大量最佳化。相較前代 ROCm 6 平台,ROCm 7 可帶來高達 3.5 倍的推論效能提升,並在訓練任務上也有明顯進步,顯示 AMD 正全面加速其 AI 生態系發展。
ROCm 7 內建對下列進階 AI 演算法的支援:
-
GEMM 自動調校 (Autotuning)。
-
MoE (Mixture of Experts) 模型。
-
多層次 Attention 運算。
-
基於 Python 的核心函式 (Kernel Authoring)。
此外,該平台支援全新低精度格式,包括 FP8、FP6、FP4 與混合精度 (Mixed Precision),進一步提升 AI 加速器的吞吐表現與能源效率。
AMD 也提供了具體實測資料佐證 ROCm 7 平台的效能提升:
-
Llama 3.1 70B:效能提升 3.2 倍。
-
Qwen2-72B:效能提升 3.4 倍。
-
DeepSeek R1:效能提升 3.8 倍。
值得注意的是,ROCm 7 在 DeepSeek R1 測試中,搭配 MI355X GPU 可超越 NVIDIA Blackwell B200 平台 (使用 CUDA) 約 30% 的推論吞吐效能 (FP8 計算),顯示 AMD 在某些特定場景已具備實質競爭力。
ROCm 7 在訓練任務上也有穩定提升:
-
Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B:平均效能提升 3 倍。
更重要的是,AMD 計畫在今年下半年將 ROCm 延伸支援至:
-
搭載 Ryzen 處理器的筆電與工作站。
-
完整 in-box Linux 整合。
-
正式支援 Windows 系統。
這代表 ROCm 將從僅限於資料中心部署,走向更加廣泛的應用場景,擴大其 AI 軟體生態。
延伸閱讀