NVIDIA (輝達) 今天宣布推出第四代 NVIDIA DGX 系統,也是全球首個搭載全新 NVIDIA H100 Tensor 核心 GPU 的人工智慧 (AI) 平台。
NVIDIA 發表 DGX H100 系統
DGX H100 系統提供的運算規模足以滿足大型語言模型、推薦系統、醫療研究及氣候科學等領域所需進行的海量運算。每個系統搭載八個NVIDIA H100 GPU,以 NVIDIA NVLink® 技術互連,每個 DGX H100 系統在全新 FP8 精度下可提供 32 petaflops 的 AI 運算效能,比上一代產品高出六倍。
DGX H100 系統是下一代 NVIDIA DGX POD 及 NVIDIA DGX SuperPOD AI 基礎設施平台的基石。最新的 DGX SuperPOD 架構搭載全新的 NVIDIA NVLink 交換器系統,可以連接多達 32 個節點上總共 256 個 H100 GPU。
下一代 DGX SuperPOD 提供 1 exaflops 的 FP8 AI 運算效能,表現較上一代產品高出六倍,能夠運行有著上兆個參數的大規模 LLM 作業負載,並擴大了 AI 未來的發展領域。
NVIDIA 創辦人暨執行長黃仁勳表示:「AI 已經徹底改變了軟體功能及軟體生成的方式。用 AI 為他們身處的產業帶來變革的公司已體認到 AI 基礎設施的重要性。我們的全新 DGX H100 系統將驅動企業的 AI 基礎設施,將資料提煉成最寶貴的資源,也就是智慧。」
宣布推出全球最高速的 AI 超級電腦 NVIDIA Eos
NVIDIA 將率先採用具突破性的全新 AI 架構來打造 DGX SuperPOD,用以支持 NVIDIA 的研究人員推動氣候科學、數位生物學及未來 AI 的各項發展。這部名為「Eos」的超級電腦共搭載 576 個 DGX H100 系統及 4,608 個 DGX H100 GPU,在今年稍晚開始運行後,預計將成為世界上最快的 AI 系統。
NVIDIA Eos 超級電腦的 AI 運算表現預計將達 18.4 exaflops,較當前世界上最快的超級電腦,也就是日本的富岳 (Fugaku ) 系統的 AI 處理速度快四倍。而在處理傳統的科學運算方面,Eos 超級電腦預計將提供 275 petaflops 的運算效能。
Eos 超級電腦將成為 NVIDIA 及 OEM 業者和雲端運算合作夥伴在發展先進 AI 基礎設施時的藍圖。
DGX H100 系統、DGX POD 與 DGX SuperPOD 讓企業能輕鬆擴展 AI
DGX H100 系統讓企業能輕鬆進行擴展,隨著專案從發展初期到廣泛部署,可以輕鬆擴大系統規模以滿足 AI 的需求。
每個 DGX H100 系統上除了有八個 H100 GPU (電晶體總數達6,400億個),還有兩個 NVIDIA BlueField-3 DPU,用於卸載、加速和隔離先進的網路、儲存及安全服務。
用於連接運算單元與儲存裝置的八張 NVIDIA ConnectX-7 Quantum-2 InfiniBand 網路卡,提供每秒 400Gb 的傳輸量,速度是前一代系統的兩倍。而第四代 NVLink 加上 NVSwitch,在每個 DGX H100 系統的每個 GPU 之間提供每秒 900GB 的連線速度,比前一代系統高出 1.5 倍。
DGX H100 系統使用兩個 x86 CPU,可以搭配 NVIDIA 網路技術及 NVIDIA 合作夥伴提供的儲存裝置,組合成靈活的 DGX POD,適用於任何規模的 AI 運算作業。
DGX SuperPOD 藉由 DGX H100 系統,提供具擴充性的企業 AI 卓越中心。DGX SuperPOD 中的 DGX H100 節點和 H100 GPU 透過 NVLink 交換器系統及 NVIDIA Quantum-2 InfiniBand 互連,提供每秒總計 70TB 的頻寬,比上一代產品高出 11 倍。NVIDIA 合作夥伴提供的儲存裝置將經過測試和認證,以滿足 DGX SuperPOD AI 運算的需求。
組合多個 DGX SuperPOD 單元,將能提供汽車、醫療照護、製造、通訊、零售等各產業在發展大規模模型時所需的 AI 運算效能。
NVIDIA DGX Foundry 加上 DGX SuperPOD 協助客戶更快取得成果
NVIDIA DGX Foundry 代管開發解決方案在全球蓬勃發展,DGX SuperPOD 客戶在安裝系統之際,立刻就能使用先進的運算基礎設施。在北美、歐洲和亞洲等地新加入的據點,讓客戶能夠從遠端存取 DGX SuperPOD 或其中一部分的服務。
DGX Foundry 內含 NVIDIA Base Command 軟體,客戶使用這款軟體便能在 DGX SuperPOD 基礎設施上輕鬆管理端到端的 AI 開發生命週期。
符合條件的企業可以透過 NVIDIA LaunchPad 在遍布全球的 Equinix International Business Exchange (IBX) 資料中心代管的精選實驗室,免費體驗 NVIDIA Base Command 和 DGX 系統。
MLOps 和企業級 AI 軟體能支援客戶採用持續增加的 AI 應用
為了協助正在開發 AI 的 DGX 客戶,NVIDIA DGX-Ready 軟體合作夥伴所提出的 MLOps 解決方案都加入「NVIDIA AI Accelerated」計畫,這些合作夥伴包括 Domino Data Lab、Run:ai 及 Weights & Biases 在內。
NVIDIA 將對參與計畫的合作夥伴所提出的 MLOps 應用程式進行驗證,提供 DGX 客戶企業級的工作流程和叢集管理、排程和調度解決方案。
此外,NVIDIA DGX 系統現在還加入 NVIDIA AI Enterprise 軟體套件,這款套件已可支援裸機基礎設施。DGX 的客戶可以利用該軟體套件中已預先完成訓練的 NVIDIA AI 平台模型、工具套件和框架來加快各項作業,例如 NVIDIA RAPIDS、NVIDIA TAO 工具套件、NVIDIA Triton 推論伺服器等。
DGX-Ready 代管服務計畫簡化了 AI 部署作業
隨著企業採用 AI 的數量不斷增加,客戶一直在尋找更多業務轉型所需基礎設施的選擇。NVIDIA 將推動一項 DGX-Ready 代管服務計畫,以協助想和服務供應商合作監督其基礎設施的客戶。
勤業眾信 (Deloitte) 是第一個與 NVIDIA 攜手執行這項計畫的全球服務供應商,該公司也將獲得認證,為歐洲、北美和亞洲的客戶提供支援,區域性的服務供應商還有 CGit、ePlus inc.、Insight Enterprises 與 PTC System。
Deloitte Consulting LLP 負責人暨 AI 與資料營運產品部門負責人 Jim Rowan 表示:「只有當企業有能力將技術整合到營運中,才能運用 AI 來突破業務發展的極限。透過新的 DGX-Ready 代管服務計畫,客戶便能透過由全球的勤業眾信專家所管理的 NVIDIA DGX 系統和軟體,輕鬆採用引領全球的 AI 服務。」
DGX-Ready 生命週期管理計畫協助客戶輕鬆升級
客戶現在可以透過新的 DGX-Ready 生命週期管理計畫,以最新的 NVIDIA DGX 平台升級其現有的 DGX 系統。
加入 DGX-Ready 生命週期管理計畫的 NVIDIA 通路合作夥伴,將能夠更新前一代的 DGX 系統供新客戶購買,這樣便能讓更多人使用全球 AI 基礎設施通用系統。
供貨時程
NVIDIA 的全球合作夥伴將自第三季開始提供 NVIDIA DGX H100 系統、DGX PODs 和 DGX SuperPODs。客戶也可以選擇在 NVIDIA DGX-Ready 資料中心合作夥伴 (包括 Cyxtera、Digital Realty 及 Equinix IBX 資料中心) 經營的主機代管設施中部署 DGX 系統。
敬請觀看黃仁勳先生的 GTC 2022 主題演講,獲得更多關於 NVIDIA DGX 系統的資訊。免費報名 GTC 2022 大會,參加由 NVIDIA 及業界領導者主講的議程。