MLCommons 於美國當地時間本月 27 日公布業界 AI 效能基準測試 MLPerf Traning 3.0 的結果,其中英特爾的 Habana Gaudi2 深度學習加速器和第 4 代 Intel Xeon 可擴充處理器,均取得優異的訓練成績,展現英特爾在這方面耕耘的成果。
Intel Xeon 與 Habana Gaudi2 展現 AI 訓練競爭力
「MLCommons 所公布的最新 MLPerf 結果,驗證了 Intel Xeon 處理器和 Intel Gaudi 深度學習加速器在 AI 領域帶給客戶的 TCO (Total Cost of Ownership) 價值。Xeon 內建加速器是在通用處理器上執行大量 AI 工作負載的理想解決方案,Gaudi 則在大型語言模型和生成式 AI 方面提供具競爭力的效能。英特爾的可擴展系統搭配最佳化、易於程式設計的開放式軟體,降低了客戶和合作夥伴於資料中心部署各類雲端到智慧邊緣 AI 解決方案的門檻。」
-Sandra Rivera,英特爾執行副總裁暨資料中心與 AI 事業群總經理
業界傳聞生成式 AI 和大型語言模型 (LLM) 僅能在 NVIDIA GPU 上執行。新資料顯示,英特爾的 AI 解決方案產品組合,為希望擺脫限制效率和規模的封閉生態系的客戶,提供極具競爭力的選項。
最新的 MLPerf Traning 3.0 結果,突顯出英特爾產品在一系列深度學習模型上的效能。以 Gaudi2 為基礎的軟體和系統,其訓練成熟度在大型語言模型 GPT-3 上獲得大規模的證實。在僅有兩款提交 GPT-3 LLM 訓練基準測試效能結果的半導體解決方案當中,Gaudi2 是其中之一。
Gaudi 也為客戶提供極具競爭力的伺服器和系統成本優勢。該加速器在 GPT-3、電腦視覺和自然語言模型上經過 MLPerf 驗證的效能,加上即將推出的軟體進展,讓 Gaudi2 相對於 NVIDIA H100 而言,在性價比上成為極具吸引力的選擇。
在 CPU 方面,搭載英特爾 AI 引擎的第 4 代 Xeon 處理器所展現出的深度學習訓練效能,讓客戶可以使用 Xeon 伺服器建構單一通用 AI 系統,用以資料預處理、模型訓練和部署,藉此提供 AI 效能、效率、準確性和可擴展性的正確組合。
Habana Gaudi2 結果:訓練生成式 AI 和大型語言模型需要伺服器叢集來滿足大規模的運算需求,GPT-3 是款具備 1750 億個參數的嚴苛模型,MLPerf 結果確切驗證了 Habana Gaudi2 在 GPT-3 上的出色效能和高效擴展性。
成果亮點:
- Gaudi2 在 GPT-3 上達成令人印象深刻的訓練時間:384 個加速器的訓練時間為 311 分鐘。
- 在 GPT-3 模型上,從 256 個加速器增加至 384 個加速器的效能提升比例接近線性 95%。
- 電腦視覺-ResNet-50 8 個加速器、Unet3D 8 個加速器、自然語言處理-BERT 8 個和 64 個加速器均取得優異的訓練結果。
- 與去年 11 月提交的資料相較之下,BERT 和 ResNet 模型的效能分別提升 10% 和 4%,證明 Gaudi2 軟體日益成熟。
- Gaudi2 採用「開箱即用」的方式提交結果,意味著客戶在本地或是雲端部署 Gaudi2 時,均可獲得相當的效能結果。
Gaudi2 軟體成熟度:Gaudi 平台的軟體支援日益成熟,並與流行、越來越多的生成式 AI 和 LLM 需求保持同步。
- Gaudi2 的 GPT-3 提交結果使用 PyTorch,並採用流行的 DeepSpeed 最佳化函式庫 (大規模 Microsoft AI 的其中一部分),而非客製化軟體。DeepSpeed 能夠同時支援 3D 並行 (資料、張量、管線),進一步最佳化 LLM 的擴展效能效率。
- Gaudi2 的 3.0 基準測試提交結果使用 BF16 資料類型。預計於 2023 年第三季推出 FP8 軟體支援和新功能時,Gaudi2 的效能將有顯著提升。
第 4 代 Xeon 處理器結果:作為眾多替代解決方案中唯一提交結果的 CPU,MLPerf 的結果證明 Intel Xeon 處理器為企業提供開箱即用的能力,讓企業可以在通用系統上部署 AI,並避免導入專用 AI 系統的成本與複雜性。
對於少數從頭開始間歇性訓練大型模型的客戶而言,他們可以使用通用 CPU 進行訓練,且往往是透過已部署於日常業務營運的英特爾伺服器。然而,大多數人將使用預先訓練好的模型,並使用他們自己的小型資料集進行微調。英特爾先前發表的結果表示,透過英特爾 AI 軟體和標準業界開放原始碼軟體,這種微調作業能夠在短短幾分鐘內完成。
MLPerf 成果亮點:
- 在封閉分區,第 4 代 Xeon 可以分別在不到 50 分鐘 (47.93 分鐘) 和不到 90 分鐘 (88.17 分鐘) 的時間內,訓練 BERT 和 ResNet-50 模型。
- 對於開放分區的 BERT,當擴展至 16 個節點時,結果顯示 Xeon 能夠在大約 30 分鐘 (31.06 分鐘) 的時間訓練模型。
- 對於較大的 RetinaNet 模型,在 16 個節點上,Xeon 能以 232 分鐘訓練完成,讓客戶可以靈活地在非尖峰時段運用 Xeon 訓練他們的模型,例如一個上午、午餐時間或是過夜進行。
- 具備 Intel Advanced Matrix Extensions (Intel AMX) 的第 4 代 Xeon,提供顯著的開箱即用效能提升,並涵蓋多個框架、端到端資料科學工具和廣泛的智慧解決方案生態系。
MLPerf 被普遍認為是最具信譽的 AI 效能基準測試,能夠在各款解決方案之間進行公平且可重現的效能比較。此外,英特爾已達成突破百次提交結果的里程碑,且仍然是唯一透過業界標準深度學習生態系軟體來提交公開 CPU 結果的供應商。
這些結果還另外突顯出,當使用具成本效益和容易取得的 Intel Ethernet 800 系列網路介面卡時,能夠達成優秀的擴展效能;這些網路介面卡使用以 Intel oneAPI 為基礎的開源 Intel Ethernet Fabric Suite Software。