在 Intel Vision 中,英特爾公司旗下的 Habana Labs 推出 Gaudi2 處理器,這是用於訓練的第 2 代 Gaudi 處理器,並針對推論部署推出即將上市的 Greco 處理器,其為 Goya 處理器的後續產品。這些處理器專為 AI 深度學習應用而設計,建立在 Habana 的高效率架構之上並採用 7nm 製程打造,能夠在資料中心當中,針對電腦視覺與自然語言處理的模型訓練與推論效能,提供客戶更高的效能。
Habana Labs Gaudi2 處理器能有效提高深度學習效率
活動當下,Habana 展示 Gaudi2於 電腦視覺 — ResNet-50(v1.1)和自然語言處理 — BERT Phase-1 和 Phase-2 的訓練吞吐量效能,其工作負載量幾乎是 Nvidia A100 80GB 處理器的 2 倍。
更多內容:關於 Habana Gaudi2 的更多資訊,包含推出新聞等,請造訪 Intel Newsroom、Habana 訓練解決方案、Habana Gaudi2 白皮書和深入研究 Habana Gaudi 處理器影片。
Gaudi2:專為深度學習訓練所設計
對於資料中心客戶而言,資料集和 AI 工作負載的規模和複雜性不斷提升,讓訓練深度學習模型工作越來越耗費時間與成本。Gaudi2 的設計,能夠為雲端運算和企業現場的客戶,帶來改良後的深度學習效能與效率。
為提升模型的準確性和時近性 (recency),客戶需要更頻繁的訓練。根據 IDC 的資料,於 2020 年接受調查的機器學習 (ML) 從業者當中,74% 的人對他們的模型進行 5 到 10 次的訓練迭代,超過 50% 的人每週或是更頻繁地重新建立模型,超過 26% 的人每日甚至每小時就重建模型。56% 的受訪者認為,他們的組織汲取 AI 所能提供的洞察力、創新和強化終端使用者體驗,訓練成本為其最大障礙。Gaudi 平台解決方案包含第 1 代 Gaudi 和 Gaudi2,專為解決這項日益成長的需求而誕生。
更多內容:觀賞更多客戶和合作夥伴說明 Gaudi2 的深度學習優勢,請按此前往該公司網站了解。
為深度學習而生 如今更提升至新境界
Habana Gaudi2 處理器顯著地提升訓練效能,其建立在同樣高效率的第 1 代 Gaudi 架構之上,讓客戶在雲端使用 Amazon EC2 DL1 執行個體,以及在現場使用 Supermicro Gaudi Training Server 時,相較現有的 GPU 解決方案,其價格效能比值要高出 40%。
從第 1 代 Gaudi 到 Gaudi2,架構上的進步包含:
- 製程技術從 16nm 提升至 7nm。
- 導入新的資料類型,包含在 Matrix Multiplication Engine (MME) 和 Tensor Processor Core 運算引擎當中的 FP8。
- Tensor Processor Core 從 8 個提升至 24 個。
- 為了卸載主機子系統的負擔,晶片整合媒體處理引擎。
- 封裝記憶體容量從 32GB 變為 3 倍至 96GB,HBM2E 頻寬達 2.45TB/sec。
- 雙倍 SRAM 容量達 48MB。
- 為了在產業標準上提供高效率的垂直擴充 (scale-up) 和水平擴充 (scale-up) ,內建的 RDMA over Converged Ethernet (RoCE2) 從整合 10 個 NIC 提升至 24個。
100% AI 設計 200% 效能表現
希望增加訓練時間和營運效率的客戶,藉由立即可用 (out-of-the-box) 的各項訓練指標來評估深度學習的效能和價值。在 Intel Vision,Habana 向客戶展現相對於市場上其它領先解決方案,Gaudi2 處理器的效能。下列圖表是熱門的電腦視覺和自然語言處理模型的訓練結果,與其它解決方案所公布的指標比較。
相較使用相同製程節點的 A100 GPU,Gaudi2 提供明顯的訓練效能領先幅度,下列關鍵工作負載所展示的效能比較約為 2 倍,其中包含與框架一同整合的全套軟體。這些結果顯示出專門設計的 Gaudi2 深度學習加速框架,從根本上而言更具效率。
網路容量、靈活性、效率
每個 Gaudi2 處理器都整合了 24 個 100-Gigabit RoCE 連接埠,顯著地放大訓練頻寬。
- 垂直擴充:每個 Gaudi2 所具備的21個連接埠,專門用來連結內含 8 張 HLS-Gaudi2 伺服器內部的其它 7 個處理器,採用全速連結、無阻塞組態。
- 水平擴充:每個處理器所具備的 3 個連接埠,專門用於水平擴充,於 8 張 Gaudi 伺服器提供 2.4Tbps 的網路吞吐量。
- 符合 OCP OAM 標準:為了簡化客戶的系統設計,Habana 提供符合 OCP 規格的 Universal Baseboard (UBB) 標準產品。
- 方便且靈活使用:藉由在晶片上整合產業標準 RoCH,客戶能夠輕鬆地擴展和配置 Gaudi2 系統,符合他們的深度學習叢集需求,能夠從 1 個 Gaudi2 擴展至數千個。
- 建立系統選擇:透過在廣泛使用的產業標準乙太網路連結性上打造系統,Gaudi2 讓客戶可以從一系列乙太網路交換器和相關網路設備中進行選擇,進而節省成本。
- 整合效率:晶片整合網路介面控制器 (NIC) 連接埠,顯著地降低整體零件成本。
HLS-Gaudi2 伺服器
除了內含 8 片 Gaudi2 之外,HLS-Gaudi2 伺服器還配備雙插槽 Intel Xeon 可擴充處理器子系統。 Habana 提供此類伺服器讓客戶評估 Gaudi2,同時與系統 OEM 合作,為終端客戶的部署帶來市場解決方案。
Gaudi2 資料中心的進展
迄今為止,在以色列的 Habana Gaudi2 資料中心已部署 1000 台 HLS-Gaudi2,用來支援 Gaudi2 軟體最佳化的研發,並為即將推出的 Gaudi3 處理器的近一步發展提供參考。
更多內容:欲使用 Habana Gaudi2 打造深度學習訓練系統,詳見影片。
獲取 Habana Gaudi2 解決方案: Habana 正在跟 Supermicro 合作,將於 2022 年第 3 季在市場上推出 Supermicro Gaudi2 Training Server。更與 DDN 合作,提供包含 Supermicro 伺服器的一站式解決方案伺服器,並與 DDN AI400X2 儲存解決方案相互搭配達成擴增 AI 儲存。
簡化模型建立與遷移:滿足開發者需求
為了支援客戶將工作負載和系統,從現有的 GPU 模型轉換至 Gaudi2,並協助他們保留軟體開發的投資,Habana SynapseAI Software Suite 針對深度學習工作負載最佳化,專為簡化模型建立和遷移所設計。為了滿足深度學習開發者的需求,SynapseAI 整合 TensorFlow 和 PyTorch 框架,並提供超過 30 種熱門的電腦視覺和自然語言參考模型。開發者可以從 Habana Developer Site 取得文件、方法內容和社群支援等相關資訊,並在 Habana GitHub 上提供參考模型和模型路線圖。
更多內容:深入了解關於 Gaudi 和 Gaudi2 的開發者支援,請按此前往 Habana Developer 網站。