我們相信大家對於這次 AMD RDNA 2 架構的顯示卡效能提升非常驚艷,近日有參加了一個線上會議,邀請了 AMD Radeon 繪圖技術事業群工程部全球資深副總裁王啟尚 David Wang 先生,他擁有超過 25 年的繪圖與晶片工程相關經驗,是當年一手締造 GCN 架構的傳奇人物,如今又憑藉他主導的 RDNA 2 架構再一次站在產業技術的最前端並延續傳奇。王啟尚 David Wang 先生會議中介紹了 RDNA 2 架構的更多深入的技術,接下來 PJ Lab 將為大家來介紹 RDNA 2 架構的更多深入內容。
RDNA 2 架構超乎想像
這次 AMD RDNA 2 效能提升非常顯著,不僅效能和對手站在同個等級上,能耗比也領先對手以及自己前代的產品。在記憶體方面不像之前 Vega 去使用 HBM 高成本的記憶體去提高記憶體頻寬,而是使用 Infinity Cache 技術,不僅較能已經達到 HBM 的目標,能耗效率也是非常高。這次 AMD 非常重視 PPA ( Performance Power Area ) 越大的電路設計、越大的核心面積,就會需要越多的電量,在這次全新的設計上能耗比提升的非常大。
AMD 全新的 RDNA 2 架構在效能上是 RX 5700 XT 的兩倍,每瓦效能提升高達 50%。
AMD RDNA 2 架構每瓦效能相對 RDNA 架構提升了 54%,主要提升是由三個方面:
- 更高的空間給高頻率設計。
- 透過整體設計優化提高電源效率。
- 透過每頻率效能和新的 Infinity Cache 增強。
在 RX 6900 XT 每瓦效能提升更高達 65%。
AMD 在 RDNA 2 架構上每 CU 頻率提升大於 1.3 倍,功耗少了超過一半。在頻率上的進展主要是依據現在 Zen 3 CPU 的高頻率經驗、精簡的微架構設計以及重新整理邏輯控制管道以提升速度。
CAC 和電源優化,透過不斷的精細控制時脈,重新設計以減少數據的移動,關閉運算時不必要的部分以達到節省電源消耗。以前顯示卡都會有不需運作的部分在運作,這次 RDNA 2 架構將他們關閉,在能耗比上才會有如此大的進展。
RDNA 2 - Infinity Cache
Infinity Cache 是 RDNA 2 中一個很關鍵的技術,再既有的頻寬下創造出來的神奇技術。
RDNA 架構 RX 5000 系列核心快取分布:
- L0 快取分布在每個 CU 中。
- 渲染引擎中都有自己的 L1 快取,有專屬 L2 快取訪問。
- 4MB 的 L2 快取則是為渲染引擎和指令處理器之間共享數據。
- 最後有 256bit 14Gb/s GDDR6 提供 448 GB/s 的頻寬。
RDNA 2 架構 RX 6000 系列核心則是重新設計過快取,總計 1MB 的 L1 分布在所有的渲染引擎中,4MB 的 L2 快取以及 128 MB 的 Infinity Cache。
相信大家看到了 AMD 在 RDNA 2 架構中導入了 Infinity Cache,那導入 Infinity Cache 有甚麼新的突破呢?
傳統上提升記憶體頻寬主要使用更高速的記憶體以及更多的記憶體匯流排。AMD 比較相同的 GDDR6 記憶體,提升頻寬去增加記憶體匯流排更多顆的記憶體需要更多的功耗,也會有更高的成本。使用 Infinity Cache 加上 256 bit GDDR6 記憶體,在沒有提前做過優化下,Infinity Cache 平均在 4K 下能達到 58% 的命中率,每瓦的記憶體頻寬提升高達 2.4 倍,不僅遠超 512 bit 的 GDDR6 記憶體還有更低的功耗。加入 Infinity Cache 解決了記憶體頻寬上的瓶頸,更比傳統記憶體上好上不少。
相信大家一定注意到 AMD RX 6800 和 RX 6900 系列 GPU 只提供 128 MB 的 Infinity Cache,相比 16 GB 的 GDDR6 記憶體有些人可能會懷疑他到底夠不夠用。AMD 內部測試下,在 64 MB 以前增加 Infinity Cache 命中率有顯著的提升,不過 1080p 開始趨緩,2K 則在100 MB 後開始趨緩,4K 儘管到了 128 MB 後還是會繼續增加。128 MB 的 Infinity Cache 1080p 和 2K 基本上提升已經持平,儘管繼續增加 Infinity Cache 在 4K 下仍會繼續增加命中率,不過快取越大也意味著體積也將繼續增大,最後 AMD在平衡點選擇 128 MB 的容量。
Infinity Cache 主要源自於 CPU 的 L3 快取,為了解決體積上的問題,AMD 採用 AMD EPYC Server 上的高密度快取設計,在Zen 2 (圖片為 Zen3) 上32MB 的 L3 快取僅只有 27 mm^2,密度相對 GPU 上的 L2 快取在 7nm 製程下密度高達 4倍,能有效的將 128 MB 的快取體積縮小。
AMD Infinity Cache 並不能單獨拿出來超頻,所以他非常依賴核心的高頻率以提高它的效率。這代 RDNA 2 架構搭載 Infinity Cache 下提升頻率效益比 RDNA 架構提升了不少。
在越大的核心上通常都會讓延遲提高,並且造成更多的電力浪費。不過 RX 6800 XT 透過 AMD Infinity Cache 延遲相對 RX 5700 XT 的記憶體延遲降低了 48%,更高的 AMD Infinity Fabric 頻率也讓原本的記憶體訪問速度更快。最後平均下來降低了 34% 的記憶體延遲。
RNDA 2 光線追蹤
AMD 的光線追蹤單元不像 NVIDIA 是單獨的一部份出來運算,而是在每組 CU 上都搭載光線加速器,Infinity Cache 也能讓他獲得最佳的效能,整體相較單純軟體運算有著高達 10 倍的效能表現。
另外說明會中也有提到,現有的遊戲多數是為 NVIDIA RTX 去做優化的,光線追蹤的效能主要成分是在軟體和遊戲本身上,未來 AMD 有很大的優化空間。
最後說明會中也有提到 AMD RDNA 2 不管在 PC 或者是家用遊戲機上都非常重要,增加開發商導入 AMD FidelityFX 套件以及光線追蹤等等開發工具。現在如 FidelityFX Super Resolution 等等功能都還在開發中,未來 FidelityFX 環境會更佳完善。
至於超頻的部分 Rage Mode 是在 AMD 出廠時就已經確認過 這次的 RX 6000 系列顯示卡的體質等等範圍,Rage Mode 能當安全的一鍵超頻以獲得更高的效能。
最後大家有些疑問,究竟 AMD 在 4K 下優勢變小到底是不是 256 bit 的 16G GDDR6 16Gbps 記憶體不夠力?增加記憶體頻寬會不會更好?PJ Lab 得到的答案是:不能說增加外部顯示記憶體頻寬不會去增加顯示卡的效能,但是 Infinity Cache 的效率是遠遠超過增加外部記憶體的效率的。PJ Lab 自己見解是對手在低解析度壓力較低的環境下 ”顯示卡使用率” 相對這次 RX 6000 系列顯示卡低的,低解析度下 RX 6000 系列顯示卡就有明顯的優勢,而 4K 壓力大很多的環境下兩者都能全速的運行而 RX 6000 系列顯示卡的優勢就消失了。這次 Infinity Cache 可以說是相當強大,不過在體積成本限制下取得甜蜜點只有給到 128 MB,前面文中也有提到 4K 在更多的快取下命中率還是會有所提升。
這次的 RDNA 2 架構,很樂見是由王啟尚 David Wang 先生主導一切,也希望可以重現當年 GCN 架構的榮耀再現!
這次 AMD RDNA 2 架構對 AMD 來說是一個重要的里程碑,結合了 CPU 一些技術讓顯示卡在頻率上有所突破,使用快取相關技術解決了記憶體頻寬的瓶頸,最後更能和對手旗艦顯示卡站在相同的位置。雖然還有些功能如光線追蹤還有一段路要走,不過相信未來的 RDNA 3 等等架構會更強大,讓我們玩家能有更好的顯示卡可以使用。