一項新研究發現,使用專用 GPU DRAM 快取可將其性能提高 12.5 倍,功耗顯著降低,有望取代傳統 HBM 配置,成為下一代 GPU 創新解決方案。
研究論文發現 GPU DRAM 快取大有可為
GPU 行業,包括消費級、工作站和 AI GPU,正在朝著快取容量和頻寬不斷提升的方向發展,但這麼做並不能長久,如果不採取創新的方法,最終可能會達到硬體極限。
目前已經看到 GPU 製造商通過增加大量二級 LLC (最後一級快取) 或增加 L2 快取的大小來推進這一領域。考慮到這一點,研究人員提出了一種開發 GPU 快取 (尤其是 HBM) 的新方法,以突破現代容量和頻寬限制,並使資料傳輸和管理更加高效。
The results show that the proposed approach significantly improve performance by up to 12.5x (2.9x overall) and reduce energy consumption by up to 89.3% (48.1% overall) compared to HBM, with low hardware overhead. pic.twitter.com/uIKFCOwHZi
— Underfox (@Underfox3) March 18, 2024
基於 ArVix 上發表的一篇研究論文,研究人員提出在 GPU 快取上使用專用的 DRAM 快取,類似於我們在現代 SSD 中看到的那樣。DRAM 快取是一個以記憶體作為高速儲存的位置,允許有效「獲取和執行」過程。然而,這種快取跟 SSD 中看到的有所不同,因為它牽扯到使用 SCM (儲存級記憶體),這是現代 HBM 一個更可行的替代方案,讓每位元的美元成本低於 DRAM。
研究人員提出了一種混合方法,同時利用 SCM 和 DRAM,以減少和避免記憶體過度超載,並確保更高的性能。
研究內容非常深入,它涉及多個資料模型以幫助 SCM 資料獲取過程,其中之一是最末列聚合元資料 (Aggregated Metadata-In-Last-column, AMIL) DRAM 快取組織,這是一種加快「資料標籤」獲取過程的嘗試,它告訴我們資料位於每個快取行的位置。AMIL 方法建議將所有標籤一起保存於 DRAM 快取中單個行的最後一列中,以便更快取得,減少標籤探測開銷,並維護糾錯碼 (ECC) 保護。
論文內容提及:
與 HBM 相比,HMS 將性能提高 12.5 倍 (總體提高 2.9 倍),能耗降低 89.3% (總體降低 48.1%)。與先前的工作相比,我們將 DRAM 快取探測和 SCM 寫入流量分別減少 91-93% 和 57-75%。
論文提出的解決方案保證了顯著的性能提升,與 HBM 相比提高了 12.5 倍,能效提高了 89.3%。這些樂觀的數字可能標誌著行業向更「創新」的 GPU 解決方案下一代過渡,前提是 SCM 與 DRAM 的結合在通過特定的品質測試後成為現實。
延伸閱讀
背插式生態系 ASUS TUF GAMING RTX 4070 Ti SUPER BTF WHITE & Z790-BTF WIFI 開箱評測 – 硬體解析