英特爾第 4 代 Intel Xeon 與 Habana Gaudi2 在最新 MLCommons 測試中取得佳績

Press Release

MLCommons 於美國當地時間本月 27 日公布業界 AI 效能基準測試 MLPerf Traning 3.0 的結果，其中英特爾的 Habana Gaudi2 深度學習加速器和第 4 代 Intel Xeon 可擴充處理器，均取得優異的訓練成績，展現英特爾在這方面耕耘的成果。

Intel Xeon 與 Habana Gaudi2 展現 AI 訓練競爭力

「MLCommons 所公布的最新 MLPerf 結果，驗證了 Intel Xeon 處理器和 Intel Gaudi 深度學習加速器在 AI 領域帶給客戶的 TCO (Total Cost of Ownership) 價值。Xeon 內建加速器是在通用處理器上執行大量 AI 工作負載的理想解決方案，Gaudi 則在大型語言模型和生成式 AI 方面提供具競爭力的效能。英特爾的可擴展系統搭配最佳化、易於程式設計的開放式軟體，降低了客戶和合作夥伴於資料中心部署各類雲端到智慧邊緣 AI 解決方案的門檻。」
－Sandra Rivera，英特爾執行副總裁暨資料中心與 AI 事業群總經理

業界傳聞生成式 AI 和大型語言模型 (LLM) 僅能在 NVIDIA GPU 上執行。新資料顯示，英特爾的 AI 解決方案產品組合，為希望擺脫限制效率和規模的封閉生態系的客戶，提供極具競爭力的選項。

最新的 MLPerf Traning 3.0 結果，突顯出英特爾產品在一系列深度學習模型上的效能。以 Gaudi2 為基礎的軟體和系統，其訓練成熟度在大型語言模型 GPT-3 上獲得大規模的證實。在僅有兩款提交 GPT-3 LLM 訓練基準測試效能結果的半導體解決方案當中，Gaudi2 是其中之一。

Gaudi 也為客戶提供極具競爭力的伺服器和系統成本優勢。該加速器在 GPT-3、電腦視覺和自然語言模型上經過 MLPerf 驗證的效能，加上即將推出的軟體進展，讓 Gaudi2 相對於 NVIDIA H100 而言，在性價比上成為極具吸引力的選擇。

在 CPU 方面，搭載英特爾 AI 引擎的第 4 代 Xeon 處理器所展現出的深度學習訓練效能，讓客戶可以使用 Xeon 伺服器建構單一通用 AI 系統，用以資料預處理、模型訓練和部署，藉此提供 AI 效能、效率、準確性和可擴展性的正確組合。

Habana Gaudi2 結果：訓練生成式 AI 和大型語言模型需要伺服器叢集來滿足大規模的運算需求，GPT-3 是款具備 1750 億個參數的嚴苛模型，MLPerf 結果確切驗證了 Habana Gaudi2 在 GPT-3 上的出色效能和高效擴展性。

成果亮點：

Gaudi2 在 GPT-3 上達成令人印象深刻的訓練時間：384 個加速器的訓練時間為 311 分鐘。
在 GPT-3 模型上，從 256 個加速器增加至 384 個加速器的效能提升比例接近線性 95％。
電腦視覺－ResNet-50 8 個加速器、Unet3D 8 個加速器、自然語言處理－BERT 8 個和 64 個加速器均取得優異的訓練結果。
與去年 11 月提交的資料相較之下，BERT 和 ResNet 模型的效能分別提升 10％和 4％，證明 Gaudi2 軟體日益成熟。
Gaudi2 採用「開箱即用」的方式提交結果，意味著客戶在本地或是雲端部署 Gaudi2 時，均可獲得相當的效能結果。

Gaudi2 軟體成熟度：Gaudi 平台的軟體支援日益成熟，並與流行、越來越多的生成式 AI 和 LLM 需求保持同步。

Gaudi2 的 GPT-3 提交結果使用 PyTorch，並採用流行的 DeepSpeed 最佳化函式庫 (大規模 Microsoft AI 的其中一部分)，而非客製化軟體。DeepSpeed 能夠同時支援 3D 並行 (資料、張量、管線)，進一步最佳化 LLM 的擴展效能效率。
Gaudi2 的 3.0 基準測試提交結果使用 BF16 資料類型。預計於 2023 年第三季推出 FP8 軟體支援和新功能時，Gaudi2 的效能將有顯著提升。

第 4 代 Xeon 處理器結果：作為眾多替代解決方案中唯一提交結果的 CPU，MLPerf 的結果證明 Intel Xeon 處理器為企業提供開箱即用的能力，讓企業可以在通用系統上部署 AI，並避免導入專用 AI 系統的成本與複雜性。

對於少數從頭開始間歇性訓練大型模型的客戶而言，他們可以使用通用 CPU 進行訓練，且往往是透過已部署於日常業務營運的英特爾伺服器。然而，大多數人將使用預先訓練好的模型，並使用他們自己的小型資料集進行微調。英特爾先前發表的結果表示，透過英特爾 AI 軟體和標準業界開放原始碼軟體，這種微調作業能夠在短短幾分鐘內完成。

MLPerf 成果亮點：

在封閉分區，第 4 代 Xeon 可以分別在不到 50 分鐘 (47.93 分鐘) 和不到 90 分鐘 (88.17 分鐘) 的時間內，訓練 BERT 和 ResNet-50 模型。
對於開放分區的 BERT，當擴展至 16 個節點時，結果顯示 Xeon 能夠在大約 30 分鐘 (31.06 分鐘) 的時間訓練模型。
對於較大的 RetinaNet 模型，在 16 個節點上，Xeon 能以 232 分鐘訓練完成，讓客戶可以靈活地在非尖峰時段運用 Xeon 訓練他們的模型，例如一個上午、午餐時間或是過夜進行。
具備 Intel Advanced Matrix Extensions (Intel AMX) 的第 4 代 Xeon，提供顯著的開箱即用效能提升，並涵蓋多個框架、端到端資料科學工具和廣泛的智慧解決方案生態系。

MLPerf 被普遍認為是最具信譽的 AI 效能基準測試，能夠在各款解決方案之間進行公平且可重現的效能比較。此外，英特爾已達成突破百次提交結果的里程碑，且仍然是唯一透過業界標準深度學習生態系軟體來提交公開 CPU 結果的供應商。

這些結果還另外突顯出，當使用具成本效益和容易取得的 Intel Ethernet 800 系列網路介面卡時，能夠達成優秀的擴展效能；這些網路介面卡使用以 Intel oneAPI 為基礎的開源 Intel Ethernet Fabric Suite Software。

Tags: Intel

英特爾第 4 代 Intel Xeon 與 Habana Gaudi2 在最新 MLCommons 測試中取得佳績

在 AI 訓練方面提供領先的效能和最佳的成本

芝奇推出白色款 Trident Z5 RGB DDR5 記憶體，最高速達到 DDR5-8200

Intel Arc & Iris Graphics Driver 31.0.101.4514 BETA 驅動更新重點整理

Press Release

Intel Arc & Iris Graphics Driver 31.0.101.4514 BETA 驅動更新重點整理

微軟發佈 Windows 11 22H2 累積更新 KB5027303

MSI GeForce RTX 4060 GAMING X 8GB 評測開箱，新一代萬元入門顯示卡

發佈留言取消回覆

關於我們

熱門架站軟體教學

英特爾第 4 代 Intel Xeon 與 Habana Gaudi2 在最新 MLCommons 測試中取得佳績

在 AI 訓練方面提供領先的效能和最佳的成本

Intel Xeon 與 Habana Gaudi2 展現 AI 訓練競爭力

芝奇推出白色款 Trident Z5 RGB DDR5 記憶體，最高速達到 DDR5-8200

Intel Arc & Iris Graphics Driver 31.0.101.4514 BETA 驅動更新重點整理

Press Release

Intel Arc & Iris Graphics Driver 31.0.101.4514 BETA 驅動更新重點整理

微軟發佈 Windows 11 22H2 累積更新 KB5027303

MSI GeForce RTX 4060 GAMING X 8GB 評測開箱，新一代萬元入門顯示卡

發佈留言 取消回覆

關於我們

熱門標籤

熱門架站軟體教學

發佈留言取消回覆