Habana Labs 推出 Gaudi2 深度學習訓練處理器

Press Release

在 Intel Vision 中，英特爾公司旗下的 Habana Labs 推出 Gaudi2 處理器，這是用於訓練的第 2 代 Gaudi 處理器，並針對推論部署推出即將上市的 Greco 處理器，其為 Goya 處理器的後續產品。這些處理器專為 AI 深度學習應用而設計，建立在 Habana 的高效率架構之上並採用 7nm 製程打造，能夠在資料中心當中，針對電腦視覺與自然語言處理的模型訓練與推論效能，提供客戶更高的效能。

Habana Labs Gaudi2 處理器能有效提高深度學習效率

活動當下，Habana 展示 Gaudi2於電腦視覺 — ResNet-50(v1.1)和自然語言處理 — BERT Phase-1 和 Phase-2 的訓練吞吐量效能，其工作負載量幾乎是 Nvidia A100 80GB 處理器的 2 倍。

更多內容：關於 Habana Gaudi2 的更多資訊，包含推出新聞等，請造訪 Intel Newsroom、Habana 訓練解決方案、Habana Gaudi2 白皮書和深入研究 Habana Gaudi 處理器影片。

Gaudi2：專為深度學習訓練所設計

對於資料中心客戶而言，資料集和 AI 工作負載的規模和複雜性不斷提升，讓訓練深度學習模型工作越來越耗費時間與成本。Gaudi2 的設計，能夠為雲端運算和企業現場的客戶，帶來改良後的深度學習效能與效率。

為提升模型的準確性和時近性 (recency)，客戶需要更頻繁的訓練。根據 IDC 的資料，於 2020 年接受調查的機器學習 (ML) 從業者當中，74% 的人對他們的模型進行 5 到 10 次的訓練迭代，超過 50% 的人每週或是更頻繁地重新建立模型，超過 26% 的人每日甚至每小時就重建模型。56% 的受訪者認為，他們的組織汲取 AI 所能提供的洞察力、創新和強化終端使用者體驗，訓練成本為其最大障礙。Gaudi 平台解決方案包含第 1 代 Gaudi 和 Gaudi2，專為解決這項日益成長的需求而誕生。

更多內容：觀賞更多客戶和合作夥伴說明 Gaudi2 的深度學習優勢，請按此前往該公司網站了解。

為深度學習而生如今更提升至新境界

Habana Gaudi2 處理器顯著地提升訓練效能，其建立在同樣高效率的第 1 代 Gaudi 架構之上，讓客戶在雲端使用 Amazon EC2 DL1 執行個體，以及在現場使用 Supermicro Gaudi Training Server 時，相較現有的 GPU 解決方案，其價格效能比值要高出 40%。

從第 1 代 Gaudi 到 Gaudi2，架構上的進步包含：

製程技術從 16nm 提升至 7nm。
導入新的資料類型，包含在 Matrix Multiplication Engine (MME) 和 Tensor Processor Core 運算引擎當中的 FP8。
Tensor Processor Core 從 8 個提升至 24 個。
為了卸載主機子系統的負擔，晶片整合媒體處理引擎。
封裝記憶體容量從 32GB 變為 3 倍至 96GB，HBM2E 頻寬達 2.45TB/sec。
雙倍 SRAM 容量達 48MB。
為了在產業標準上提供高效率的垂直擴充 (scale-up) 和水平擴充 (scale-up) ，內建的 RDMA over Converged Ethernet (RoCE2) 從整合 10 個 NIC 提升至 24個。

100% AI 設計 200% 效能表現

希望增加訓練時間和營運效率的客戶，藉由立即可用 (out-of-the-box) 的各項訓練指標來評估深度學習的效能和價值。在 Intel Vision，Habana 向客戶展現相對於市場上其它領先解決方案，Gaudi2 處理器的效能。下列圖表是熱門的電腦視覺和自然語言處理模型的訓練結果，與其它解決方案所公布的指標比較。

相較使用相同製程節點的 A100 GPU，Gaudi2 提供明顯的訓練效能領先幅度，下列關鍵工作負載所展示的效能比較約為 2 倍，其中包含與框架一同整合的全套軟體。這些結果顯示出專門設計的 Gaudi2 深度學習加速框架，從根本上而言更具效率。

網路容量、靈活性、效率

每個 Gaudi2 處理器都整合了 24 個 100-Gigabit RoCE 連接埠，顯著地放大訓練頻寬。

垂直擴充：每個 Gaudi2 所具備的21個連接埠，專門用來連結內含 8 張 HLS-Gaudi2 伺服器內部的其它 7 個處理器，採用全速連結、無阻塞組態。
水平擴充：每個處理器所具備的 3 個連接埠，專門用於水平擴充，於 8 張 Gaudi 伺服器提供 2.4Tbps 的網路吞吐量。
符合 OCP OAM 標準：為了簡化客戶的系統設計，Habana 提供符合 OCP 規格的 Universal Baseboard (UBB) 標準產品。
方便且靈活使用：藉由在晶片上整合產業標準 RoCH，客戶能夠輕鬆地擴展和配置 Gaudi2 系統，符合他們的深度學習叢集需求，能夠從 1 個 Gaudi2 擴展至數千個。
建立系統選擇：透過在廣泛使用的產業標準乙太網路連結性上打造系統，Gaudi2 讓客戶可以從一系列乙太網路交換器和相關網路設備中進行選擇，進而節省成本。
整合效率：晶片整合網路介面控制器 (NIC) 連接埠，顯著地降低整體零件成本。

HLS-Gaudi2 伺服器
除了內含 8 片 Gaudi2 之外，HLS-Gaudi2 伺服器還配備雙插槽 Intel Xeon 可擴充處理器子系統。 Habana 提供此類伺服器讓客戶評估 Gaudi2，同時與系統 OEM 合作，為終端客戶的部署帶來市場解決方案。

Gaudi2 資料中心的進展
迄今為止，在以色列的 Habana Gaudi2 資料中心已部署 1000 台 HLS-Gaudi2，用來支援 Gaudi2 軟體最佳化的研發，並為即將推出的 Gaudi3 處理器的近一步發展提供參考。

更多內容：欲使用 Habana Gaudi2 打造深度學習訓練系統，詳見影片。

獲取 Habana Gaudi2 解決方案： Habana 正在跟 Supermicro 合作，將於 2022 年第 3 季在市場上推出 Supermicro Gaudi2 Training Server。更與 DDN 合作，提供包含 Supermicro 伺服器的一站式解決方案伺服器，並與 DDN AI400X2 儲存解決方案相互搭配達成擴增 AI 儲存。

簡化模型建立與遷移：滿足開發者需求

為了支援客戶將工作負載和系統，從現有的 GPU 模型轉換至 Gaudi2，並協助他們保留軟體開發的投資，Habana SynapseAI Software Suite 針對深度學習工作負載最佳化，專為簡化模型建立和遷移所設計。為了滿足深度學習開發者的需求，SynapseAI 整合 TensorFlow 和 PyTorch 框架，並提供超過 30 種熱門的電腦視覺和自然語言參考模型。開發者可以從 Habana Developer Site 取得文件、方法內容和社群支援等相關資訊，並在 Habana GitHub 上提供參考模型和模型路線圖。

更多內容：深入了解關於 Gaudi 和 Gaudi2 的開發者支援，請按此前往 Habana Developer 網站。

Tags: News 新聞新聞稿 Intel

Habana Labs 推出 Gaudi2 深度學習訓練處理器

Habana Gaudi2 於訓練熱門的電腦視覺和 NLP 模型時，展現出相較 Nvidia A100 2 倍的吞吐量效能

AMD 發表三款全新 Radeon RX 6000 系列顯示卡

技嘉突然推出新版本 Z690I AORUS ULTRA 主機板

intern

技嘉突然推出新版本 Z690I AORUS ULTRA 主機板

Intel 針對雲端到邊緣和現場的可信任度遠端驗證，推出 Project Amber

DDR5 水很深!! 問題到底是？

發佈留言取消回覆

關於我們

熱門架站軟體教學

Habana Labs 推出 Gaudi2 深度學習訓練處理器

Habana Gaudi2 於訓練熱門的電腦視覺和 NLP 模型時， 展現出相較 Nvidia A100 2 倍的吞吐量效能

Habana Labs Gaudi2 處理器能有效提高深度學習效率

AMD 發表三款全新 Radeon RX 6000 系列顯示卡

技嘉突然推出新版本 Z690I AORUS ULTRA 主機板

intern

技嘉突然推出新版本 Z690I AORUS ULTRA 主機板

Intel 針對雲端到邊緣和現場的可信任度遠端驗證，推出 Project Amber

DDR5 水很深!! 問題到底是？

發佈留言 取消回覆

關於我們

熱門標籤

熱門架站軟體教學

Habana Gaudi2 於訓練熱門的電腦視覺和 NLP 模型時，展現出相較 Nvidia A100 2 倍的吞吐量效能

發佈留言取消回覆