AMD Ryzen 7040 系列配備了第一代 NPU,而 Ryzen 8040 系列則搭載了第二代 NPU,皆基於 XDNA 架構。現在 Ryzen AI 300 系列更進一步,採用了基於 XDNA 2 架構的 NPU,使算力飆升至 50 TOPS,遠超微軟 Copilot PC+ 的 40 TOPS 性能需求及眾多競爭對手。XDNA 2 架構究竟具備何種優勢,為何能提供遠超一般處理器的 AI 運算效能?這邊將為你揭曉答案!
專業的 AI 運算交給 AMD XDNA 2
在 AI PC 時代,AI 應用的專門需求,促使我們需要採用一種全新的架構來實現更高的能源效率。從圖中可以看出,隨著 AI 應用負載的日益特殊化,CPU 和 GPU 在運算能效比方面已經捉襟見肘,而專為 AI 運算設計的 NPU,在這方面顯示出明顯的優勢。
為什麼 NPU 成為 AI PC 的必備功能?在 AI 應用領域,模型的規模和多樣性不斷增長,已成為作業系統不可或缺的一部分。因此提高 AI 運算效率,比以往任何時候都顯得更加重要。從 AI 模型每瓦性能的比較來看,相對於 CPU,整合圖形的內顯提供了約 8 倍的能效,而 NPU 則能提供高達 35 倍的能效,NPU 明顯在 AI 運算方面的能效表現無與倫比。
AMD Ryzen AI 300 系列處理器作為新一代全能 AI 處理器,同時提供全新的 CPU、NPU 和 GPU 架構,帶來更好的 AI PC 使用體驗。到了 2024 年,第三代 AMD Ryzen AI 已經擁有超過 150 個 AI 輔助的 ISV,AI 生態圈發展非常迅速。
Ryzen AI 所使用的 XDNA 架構之所以最適合 AI 運算,主要原因在於它採用了靈活的運算結構和更具適應性的記憶體層次結構。相較於傳統的多核心處理器架構,XDNA 架構避免了資料堵塞的情況。同時透過軟體管理記憶體,避免了快取未命中的問題,因此能提供穩定而準確的性能表現。其可程式互聯設計有效降低記憶體頻寬消耗,並實現了資源隔離。
這兩大特點讓 XDNA 架構能實現計算單元的靈活分區。正如圖片所示,它可以使用 8 個 AIE 來處理即時視訊,另 8 個 AIE 來處理即時音訊,再用 16 個 AIE 來處理內容創作。其空間的可重構性和高效的多工性能,保證了 AI 運算的即時性能。搭載在 Ryzen 7040 / 8040 系列上的 NPU 便採用了 XDNA 架構,從實際表現來看,達到了預期的高能效 AI 計算效果。
XDNA 2 架構領先技術
AMD XDNA 2 架構顯著提升了 AI 運算性能,相較於 XDNA,AI 引擎單元數量從 20 個增加至 32 個,NPU 性能從 10 TOPS 增至 50 TOPS。新架構提供了每個單元雙倍的 MACs、1.6 倍的記憶體,並支援 Block Floating Point 模式及增強的非線性運算能力。這些改進不僅大幅提升了運算能力,還增強了多工處理能力和續航效能。
相較於 Ryzen 7040 系列,第三代 Ryzen AI 300 系列提供高達 5 倍的計算能力,支援最多 8 個並發空間流,顯著提升多工處理效能。同時其能源效率提升高達 2 倍,採用基於列的電源閘控技術,可延長電池續航時間。
重點來了,Block Floating Point 模式可以說是 XDNA 2 的核心亮點。目前大多數 AI 應用使用的是 16 位精度,也就是 FP16 (16 位浮點) 模式,而筆電平台則為了提高效率而選擇 8 位精度,即 INT8 (8 位整數) 模式。FP16 提供了更高的精度,而 INT8 則更具效率。AMD 在 XDNA 2 中引入了 Block FP16 模式,就是兼顧兩者的性能與精度優勢。
AMD 官方資料,Block FP16 的吞吐量幾乎與 INT8 / W8A8 持平,比 INT8 / W8A16 高出約兩倍。雖然 Block FP16 在 9 位元儲存模型的體積上僅略高於 INT8,但遠低於 FP16,有效節省了儲存空間。使用 Llama2-7B 模型時,Block FP16 的精度達到 FP16 的約 99.9%,比 INT8 / W8A16 更高,甚至是 INT8 / W8A8 的兩倍。這表明 Block FP16 結合了 INT8 的高效能與 FP16 的高精度,讓 XDNA 2 架構的第三代 Ryzen AI NPU 在 AI 算力上領先對手。即便與 FP32 基線相比,Block FP16 幾乎沒有精度損失,為 ISV 提供了一條強而有力的通道。
基於 XDNA 2 架構的第三代 Ryzen AI NPU,達到最高 50 TOPS 的 Float16 峰值效能,遠超 Apple M4 ANE、Intel Lunar Lake NPU 和高通 Snapdragon Elite X NPU。XDNA 2 在 XDNA 的基礎上擴大規模,支援 Block FP16,實現了業界領先的 AI 算力,提供非常強大的 AI 加速體驗。
強大的生態圈
在硬體方面 XDNA 2 已經展示了卓越性能。配套的生態圈方面,AMD 與微軟的多年合作,已經顯著推進了 AI 生態系統的發展,涵蓋感知、生成式 AI 及協作與溝通等領域。目前所有模型均能在基於 XDNA 2 架構的 NPU 上提供出色的 Copilot+ 體驗。
最常用的 Stable Diffusion XL Turbo 本地 AI 圖片生成工具支援 Block FP16,可在 XDNA 2 架構的 NPU 上實現超快速的圖片生成。
Llama2 大語言模型使用 Block FP16 實現高精度與高效能。基於 Llama2 7B 模型的 AI 響應速度,XDNA 2 架構的 Ryzen AI NPU 提供了比 Intel Core Ultra 7 155H 內建 NPU 的反應速度還快上了五倍。
在本地檢索增強生成 (RAG) 測試中,Llama2-7B 模型能在第三代 Ryzen AI NPU 上完美執行。使用者可以隨時更新本地 RAG 的資料,以提高回答問題的準確性。
對於開發者來說,Ryzen AI 讓開發各種模型變得簡單。它支援超過 1000 種模型,包括 CNN 和 Transformer,並相容 INT4 / 8、Block FP16、FP16 等資料類型。Ryzen AI 還最佳化了 Halo 模型,支援 Llama、Mistral、Qwen 大語言模型和 Stable Diffusion 文生圖。在執行端 Ryzen AI 支援 ONNX 運行時,實現了在 Ryzen AI 筆電上的應用整合。
AMD 統一 AI 軟體堆疊,使 Ryzen AI APU 的 CPU+NPU+GPU 三部分融為一體,加速架構能提供卓越的 AI 應用體驗。它對開源平台如 PyTorch、TensorFlow 和 ONNX 提供良好支援,並為 CPU (Zen 5)、GPU (RDNA 3.5) 和 NPU (XDNA 2) 都提供了運行時,AI 工作負載分區、編譯和最佳化功能。硬體方面,強大的 CPU、GPU 和 NPU 架構支撐了整體 AI 加速性能。
總結
AMD Ryzen AI 300 處理器內建的 XDNA 2 架構 Ryzen AI NPU,是目前性能最強的 NPU。XDNA 2 在 XDNA 基礎上擴展規模和提升性能,達到 50 TOPS 的峰值算力,成為 Copilot+PC 的最佳選擇。XDNA 2 還支援獨特的 Block FP16 模式,結合 INT8 的性能和 FP16 的精準度,同時支援高級資料類型和廣泛的模型。統一 AI 軟體堆疊進一步提升了 ISV 的 AI 應用體驗。綜合來看 XDNA 2 架構的第三代 Ryzen AI NPU 的 Ryzen AI PC,無疑能提供當前最佳的 AI 應用體驗,並支援未來深度整合 AI 功能的 Windows 作業系統。
延伸閱讀