OpenAI 聯手五大科技巨頭打造 MRC 協議，讓 GPU 訓練叢集跑得更快更穩

OpenAI 聯手 AMD、NVIDIA、Intel、Microsoft 與 Broadcom，歷時兩年共同研發全新開放網路傳輸協議 MRC，專為大規模 AI 訓練叢集設計，能大幅提升 GPU 網路效能與穩定性。MRC 已正式透過 Open Compute Project (OCP) 開放給整個產業使用，並已實際部署於 OpenAI 旗下最大型的超級電腦群，包含德州 Abilene 的 Oracle Cloud Infrastructure 站點及微軟 Fairwater 超級電腦。

五大巨頭聯手 OpenAI 打造 MRC 協議

在大多數人的想像中，訓練一個大型 AI 模型，最關鍵的資源不外乎就是更多的 GPU。然而，OpenAI 的工程師們深知一個殘酷的現實：即便擁有數以萬計的高效能 GPU，只要網路一卡，整個訓練工作就可能瞬間停擺。

在前沿 AI 訓練系統中，一筆延遲的資料傳輸就可能讓數千個 GPU 在同步等待的過程中被迫閒置，這是一個長期存在卻難以根治的基礎建設痛點。更具體地說，訓練一個大型 AI 模型時，單一步驟就可能涉及數百萬次的資料傳輸，任何一次傳輸延遲都可能在整個訓練任務中引發連鎖反應。

OpenAI 明確指出，研發 MRC 的核心目標正是為了解決兩大根本挑戰：降低可預防的網路擁塞，以及將不可避免的硬體故障所造成的衝擊降到最低。

OpenAI 與 AMD、Broadcom、Intel、Microsoft 以及 NVIDIA 共同攜手，歷時兩年研發出一套全新的網路傳輸協議，命名為 MRC (Multipath Reliable Connection，多路徑可靠連接)，目標是提升大型訓練叢集中 GPU 網路的效能與韌性。

這份協議規格書於今年 5 月正式透過 Open Compute Project (OCP) 以開放授權形式對外發布，供整個產業社群自由取用與建置。OpenAI 的工作負載主管 Greg Steinbrecher 強調，MRC 並不是 OpenAI 意圖藉此形成差異化競爭優勢的技術，而是希望帶動整個業界跨越他們認為的「舊時代瓶頸」。

MRC 的問世也被分析師視為 Ethernet 在超大規模 AI 基礎建設領域崛起的重要里程碑。Dell'Oro Group 副總裁 Sameh Boujelbene 指出，過去主宰超大型訓練叢集的是 NVIDIA 的 InfiniBand，但 Ethernet 正在快速追趕，而 OpenAI 的 MRC 工作正是這股趨勢的有力佐證。

NVIDIA 將 MRC 的運作邏輯形容為：把一條橫貫城鎮的單線道公路，改造成一套配有即時導航 app 的智慧街道路網系統，讓車輛能即時繞開壅塞路段或封閉道路。

技術層面上，MRC 在既有的 RoCE (RDMA over Converged Ethernet) 標準基礎上進行延伸，並結合了 Ultra Ethernet Consortium (UEC) 開發的技術，以及基於 SRv6 (IPv6 Segment Routing) 的來源路由機制，以支援大規模 AI 網路架構。

MRC 已整合進最新的 800 Gb/s 網路介面卡，讓 AI 業者能夠將單一傳輸分散至數百條不間斷的路徑上同時傳送，並可在微秒級的時間內繞開故障節點，同時也簡化了網路控制平面的架構。

在網路拓樸設計上，MRC 帶來了革命性的「多平面」(multi-plane) 架構思維。舉例來說，一個傳統的 800 Gb/s 網路介面可以被拆分為八個分別連接至不同交換器的獨立鏈路，進而建立八個各自運行於 100 Gb/s 的平行網路平面，取代原本單一的 800 Gb/s 網路，大幅提升叢集架構的靈活度與容錯能力。

根據 OpenAI 的說明，MRC 的多平面網路設計能讓超過 10 萬個 GPU 的叢集，僅需使用兩層以太網路交換器即可完成連接，相比傳統 800 Gb/s 網路架構所需的三到四層交換器，不僅降低了電力消耗，也減少了硬體元件數量與整體建置成本。

傳統網路架構在發生故障後，可能需要數秒甚至數十秒才能恢復穩定；而 MRC 能在微秒級的時間內偵測到路徑故障並自動進行硬體層級的流量重新導向。

這個能力在實戰中已獲得驗證。在一次近期前沿模型的訓練過程中，OpenAI 需要重新啟動叢集內的四台第一層 (tier-1) 交換器。在 MRC 的保護下，整個重啟作業無需與負責訓練任務的工程師團隊進行協調，訓練工作幾乎不受影響地持續進行。

OpenAI 的網路主管 Mark Handley 也坦言，過去業界各大公司各自開發自有的私有網路協議，造成市場碎片化，對整個網路產業而言其實是個壞現象。MRC 的推出正是希望建立開放標準，讓整個產業一起往前走。

目前，MRC 已全面部署於 OpenAI 旗下所有最大型、搭載 NVIDIA GB200 GPU 的超級電腦，包括位於德克薩斯州 Abilene 的 Oracle Cloud Infrastructure 站點，以及微軟的 Fairwater 超級電腦群，並已實際用於訓練多個 OpenAI 模型。

MRC 協議同時也是 OpenAI 野心勃勃的 Stargate 超級電腦計畫的核心基礎建設。Stargate 計畫目標在 2029 年前部署高達 10 GW 的 AI 運算能力，且在過去三個月內已率先完成超過 3 GW 的部署。

OpenAI 的工業運算主管 Sachin Katti 表示，在 Blackwell 世代成功部署 MRC 是一次非常成功的里程碑，過程中與 NVIDIA 的緊密合作功不可沒。MRC 的端對端方案讓他們得以避免大量典型的網路延遲與中斷，維持了前沿模型訓練在大規模環境下的效率。

在這場跨產業協作中，AMD 也扮演了不可忽視的角色。AMD 主導撰寫了 NSCC 擁塞控制演算法，該演算法現已納入 UEC 擁塞控制規格，並成為 MRC 定義中的核心擁塞管理機制，專門解決大規模叢集網路中最複雜的擁塞管理挑戰。此外，AMD 也開發了 MRC 的 IB/RDMA 傳輸語義層擴充，讓 MRC 能與現有 RDMA 程式設計模型無縫整合，同時引入多路徑傳輸能力。

AMD 網路技術解決方案事業群企業副總裁 Krishna Doddapaneni 也強調，隨著 GPU 與 CPU 持續推動運算效能，在 AI 擴展規模的過程中，網路才是真正的瓶頸所在。

OpenAI 決定將 MRC 協議貢獻給 Open Compute Project，被業界解讀為一種有意推動更廣泛產業採用、而非將其私有化的策略信號。分析師指出，OCP 的開放舉措有助於超大規模業者降低對封閉式網路架構的依賴，同時提升 AI 工廠在大規模運作下的整體韌性。

在每週活躍用戶已突破 9 億人的 ChatGPT 背後，OpenAI 的系統正逐漸成為全球 AI 核心基礎建設，而 MRC 的誕生，正是確保這套基礎建設能夠持續穩定、高效地支撐未來更強大模型訓練的關鍵一步。

消息來源

OpenAI 聯手五大科技巨頭打造 MRC 協議，讓 GPU 訓練叢集跑得更快更穩

AI 基礎建設躍進

UL Solutions 新推出真實多工處理的基準測試 Procyon Essentials

AMD 執行長蘇姿丰表示代理式 AI 帶動 CPU 需求爆發，GPU 市場不減反增

JC

AMD 執行長蘇姿丰表示代理式 AI 帶動 CPU 需求爆發，GPU 市場不減反增

[更新] New Chewing 新酷音輸入法發佈 26.4.2.0 穩定版

GeIL 發表全新 8000MT/s JEDEC 標準記憶體，啟動高速記憶體新世代

發佈留言取消回覆

關於我們

熱門架站軟體教學

OpenAI 聯手五大科技巨頭打造 MRC 協議，讓 GPU 訓練叢集跑得更快更穩

AI 基礎建設躍進

五大巨頭聯手 OpenAI 打造 MRC 協議

UL Solutions 新推出真實多工處理的基準測試 Procyon Essentials

AMD 執行長蘇姿丰表示代理式 AI 帶動 CPU 需求爆發，GPU 市場不減反增

JC

AMD 執行長蘇姿丰表示代理式 AI 帶動 CPU 需求爆發，GPU 市場不減反增

[更新] New Chewing 新酷音輸入法發佈 26.4.2.0 穩定版

GeIL 發表全新 8000MT/s JEDEC 標準記憶體，啟動高速記憶體新世代

發佈留言 取消回覆

關於我們

熱門標籤

熱門架站軟體教學

發佈留言取消回覆