
NVIDIA 傳出將與 Groq 合作,於 2028 年推出的 Feynman 架構 GPU 中導入 LPU 單元。透過台積電混合鍵合技術,以類似 AMD X3D 的堆疊方式強化 AI 推論效能,但也面臨散熱與 CUDA 相容性的巨大挑戰。
NVIDIA AI 推論秘密武器 Feynman 曝光
雖然 NVIDIA 目前在 AI 訓練端無人能敵,但他們已將目光放到了更長遠的未來 2028 年。根據外媒最新報導,NVIDIA 正計畫在下一代代號為 Feynman (費曼) 的 GPU 架構中,整合 Groq 的 LPU (語言處理單元) 技術,試圖一舉攻佔 AI 推論市場的制高點。
這項傳聞指出,NVIDIA 不僅僅是單純的技術授權,更可能在硬體設計上做出重大變革,採用類似 AMD 3D V-Cache 的堆疊技術,將 LPU 單元直接整合進 GPU 晶片中。
根據知名 GPU 爆料專家 AGF 的分析,NVIDIA 預計在 2028 年推出的 Feynman 架構 (接替 Rubin 架構之後的世代),將會採用台積電的 SoIC 混合鍵合 (Hybrid Bonding) 技術。這項技術的概念與 AMD 的 X3D 處理器非常相似,但 NVIDIA 堆疊的不是普通的快取記憶體,而是專為推論加速設計的 Groq LPU 單元。
為什麼不直接做在同一顆晶片裡? 這背後有一個很現實的半導體物理限制:SRAM (靜態隨機存取記憶體) 的微縮困難。另外,這當中也有成本和效率的考量,如果將大量的 SRAM 直接做在最先進的製程 (如 Feynman 預計採用的 A16 1.6nm 製程) 上,不僅會佔用寶貴的晶片面積,成本也會高得驚人;而透過堆疊技術,NVIDIA 可以將運算核心 (Tensor Core、控制邏輯) 放在主晶片上,而將需要大量面積的 SRAM (LPU 的核心優勢) 獨立成另一層晶片堆疊上去。
這個設計聽起來相當合理,因為 Feynman 架構預計將採用台積電的 A16 製程 (1.6nm)。A16 製程的一大特色是支援背面供電技術 (Backside Power Delivery)。該技術能騰出晶片正面的空間,專門用來進行垂直的訊號連接。堆疊在上面的 LPU 晶片可擁有極高頻寬的介面,且傳輸每位元數據的能耗比傳統封裝外的記憶體更低,確保了 AI 推論所需的超低延遲反應。
Groq 的 LPU 技術以「確定性 (Deterministic)」著稱,透過編譯器驅動的資料流和靜態低延遲排程,能在低批次場景下大幅提升模型的浮點運算利用率 (MFU)。簡單來說,這將讓未來的 NVIDIA GPU 在處理即時 AI 回應時快得驚人。
雖然願景美好,但這條路並不好走。當中存在兩大潛在隱憂,一是散熱地獄,在已經擁有極高運算密度的 GPU 晶片上再堆疊一層晶片,對散熱設計是極大的挑戰。如何在高效能運作下避免晶片「熱當」,將是工程團隊的一大難題;另外,CUDA 的相容性難題是最棘手的部分,Groq 的 LPU 強調「確定性」執行順序,需要精確的記憶體配置。而 NVIDIA 引以為傲的 CUDA 生態系則是設計用於硬體抽象化。要讓 CUDA 核心在 LPU 風格的架構下順暢運作,甚至讓兩者完美協作,需要神級的軟體工程最佳化。
如果 NVIDIA 真的能在硬體層面克服散熱限制,並在軟體層面解決 CUDA 與 LPU 的排程衝突,這將是 AI 硬體發展史上的一個重要里程碑。也顯示出 NVIDIA 為了從「訓練霸主」轉型為「全方位 AI 霸主」,願意嘗試極具風險但也極具破壞力的創新設計。
延伸閱讀















