NVIDIA RTX 40 SUPER 三部曲最終回!GeForce RTX 4080 SUPER 顯示卡正式登場,升級至 AD103-400 繪圖核心,CUDA Cores 增量至 10,240 個,GDDR6X 記憶體速度提升至 23Gbps,更重要是 MSPR 定價由 US$ 1,199 降至 US$ 999。本次找來了 GeForce RTX 4080 SUPER Founder Edition 顯示卡,與 RTX 4080 及 RTX 4090 作對比測試,看一看到底效能到底差多少。
RTX 40 SUPER 壓軸 RTX 4080 SUPER
NVIDIA 31 日正式發布全新高階 GeForce RTX 4080 SUPER 顯示卡,這是 RTX 40 SUPER 三部曲的最終章,規格上 RTX 4080 SUPER 與 RTX 4080 差異較少,CUDA Cores 數目提升了 5.27%,記憶體介面與容量不變,記憶體顆粒時脈提升約 2.68%,因此不要期待 RTX 4080 SUPER 性能會比 RTX 4080 快多少,不過 NVIDIA 正式RTX 4080 SUPER 的 MSRP 售價由 US$ 1,199 降至 US$ 999,售價才是它的賣點。
有人說老黃的刀法越來越離譜,或許是 AMD 與 Intel 都不夠強,令 NVIDIA 無所顧忌,但資料卻是騙不了人,對比 RTX 20、RTX 30 與 RTX 40 世代的晶片規格,中高階型號的晶片規格與 Full Chip 的差異越來越大,玩家們批評 RTX 40 中高階型號性價比欠缺、吸引力很低。
GeForce RTX 4080 型號真的是毫無性價比可言,RTX 4080 晶片規模只有 RTX 4090 的 59.38%,但售價僅便宜 US$ 400,對比 RTX 3080 晶片規模是 RTX 3090 的 82.96%,售價便宜 US$ 800,難怪大家都說買 RTX 4090 就對啦!
撥亂反正的 RTX 40 SUPER
對於 NVIDIA 來說 RTX 40 SUPER 是一個大升級,但筆者認為用「撥亂反正」來形容會更貼切,NVIDIA 將會推出三款全新 RTX 40 SUPER 型號,包括 GeForce RTX 4070 SUPER、GeForce RTX 4070 TI SUPER 及 GeForce RTX 4080 SUPER,其中 RTX 4070 Ti SUPER 與 RTX 4080 SUPER 會取代舊型號,RTX 4070 Ti 及 RTX 4080 將完全停產,RTX 4080 SUPER 的 MSRP 定價會降至 US$ 999。
作為 NVIDIA RTX 40 SUPER 三部曲的最終章,GeForce RTX 4080 SUPER 規格是提升幅度最少的一張,CUDA Core 只增加了 5.27%、仍然只有 AD102 Full Chip 規格的 55.56%,記憶體介面和容量不變,記憶體顆粒時脈提升約 2.68%,因此不要期待 RTX 4080 SUPER 性能會比 RTX 4080 快多少,實際意義在於將 RTX 40 售價差距作出修正,向下調 US$ 200 後 MSPR 定於 US$ 999 水平,令整個 NVIDIA RTX 40 產品線佈局變得較為合理。
NVIDIA AD103-400 繪圖核心
與 RTX 4070 Ti SUPER / RTX 4080 一樣,GeForce RTX 4080 SUPER 同樣採用 AD103 繪圖核心,基於 NVIDIA Ada Lovelace GPU 微架構,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。
GeForce RTX 4080 SUPER 採用完整的 AD103-400 繪圖核心,採用 TSMC 4N NVIDIA Custom 製程,擁有 459 億個電晶體、 Die Size 379 mm² ,內建 7 個 GPC 單元、 40 個 TPC 紋理處理群集及 80 個 SM 串流多處理器,具備 10,240 個 CUDA Cores、80 個 RT Cores 及 320 個 Tensor Cores,規模相較 RTX 4080 提升約 5%。
核心時脈為面,GeForce RTX 4080 SUPER FE 預設時脈為 2,295MHz Base Clock、2,550MHz Boost Clock,時脈設定相較 RTX 4080 略微提升,最高 TDP 則與 RTX 4080 一樣維持在 320W 水平。
記憶體方面,NVIDIA GeForce RTX 4080 SUPER 同樣保持 256-bit 記憶體介面、16GB GDDR6X 記憶體容量,不過記憶體速度由 22.4Gbps 提升至 23Gbps,因此記憶體頻寬由 716.8GB/s 輕微提升至 736GB/s。
GeForce RTX 4080 SUPER Founder Edition
收到由 NVIDIA 送測的 GeForce RTX 4080 SUPER Founder Edition 顯示卡,由於 NVIDIA 把 RTX 40 SUPER 定義為半代更新,因此外觀設計上與 RTX 40 有明顯差異,和早前坊間流出、已胎死腹中 RTX 3090 Ti 原型一樣,整張卡都被「黑化」了,採用陽極化霧黑色金屬框架,X 框架亦變成電鍍亮黑面,在光源下會呈現亮面反射效果,坦白說質感更上一層樓。
卡的正面都是霧黑色的散熱鰭片,設計 RTX 4080 完全一樣沿用軸向式散熱設計,背面 RTX 4080 字樣只有坑紋沒有填色、SUPER 則是 Highlight 效果立體凸出,正反兩面各有一個 12 cm 軸向式散熱風扇,能夠將部份廢熱排向 CPU 區域及直接排出機殼,令機殼內部溫度變得更平均。
GeForce RTX 4080 SUPER Founder Edition 尺寸為 304 x 137 x 61 mm,基本上小機殼都可以直接略過,用上 Triple Slot 散熱器、雙 12 cm 軸向式散熱風扇,頂端 GeForce RTX 字樣在運作時會透出白色 LED 燈效,太炫砲了。
考慮到大部份人安裝顯示卡後,從機殼外看進去只會看到卡背,NVIDIA 將設計反轉了把背板變成正面,朝上顯示「RTX 4080 SUPER」字樣,整張卡所有螺絲孔都用磁吸隱藏了,NVIDIA 真的是從使用者的角度、在細節中作出了考量,難怪那麼多玩家想買 Founder Edition。
NVIDIA PG139 SKU 355
拆開散熱器後,可以看到 GeForce RTX 4080 SUPER Founder Edition 拆開散熱器,可以看到它採用 PG139 SKU 355 公板設計,與 RTX 4080 FE 幾乎相同 ,NVIDIA 刻意將電路板盡量縮小,讓卡身可以鏤空讓軸向式風扇將帶氣流帶到 CPU 區域,12 Layers PCB 設計並經過低阻抗提供訊號及電力傳輸最佳化,同時保留了不俗的超頻性能。
供電設計方面,升級至 13 相 Dual FET 供電模組設計,其中 10 相負責 GPU 供電、3 相負責 GDDR6X 供電,採用 Monolithic Power Systems MP2891 VRM 控制晶片配搭 Monolithic Power Systems MP86957 70A DrMOS 晶片。
NVIDIA AD103-400 繪圖核心
NVIDIA GeForce RTX 4080 SUPER 採用了完整的 AD103-400 繪圖核心,採用 TSMC 4N 製程、擁有 459 億個電晶體、Die Size 約為 379 mm²,部份單元作出了屏蔽,擁有 7 個 GPC 單元、40 個 TPC 紋理處理群集及 80 個 SM 串流處理器,具備 10,240 個 CUDA Cores、80 個 RT Cores 及 320 個 Tensor Cores、320 個 Texture Unit 及 112 個 ROP。
時脈方面,NVIDIA GeForce RTX 4080 SUPER Founder Edition 預設時脈為 2,295MHz Base、2,550MHz Boost,支援 GPU Boost 4.0 技術可因應負載自動超頻至更高時脈,Power Limit 預設為 320W 與 RTX 4080 相同。
升級 23Gbps GDDR6X 記憶體速度
記憶體方面,NVIDIA GeForce RTX 4080 SUPER 保持 16GB GDDR6X 記憶體容量及 256-bit 記憶體介面,不過記憶體速度由 22.4Gbps 提升至 23Gbps,因此記憶體頻寬由 716.8GB/s ,輕微提升至 736.3GB/s。
NVIDIA GeForce RTX 4080 SUPER Founder Edition 採用了 8 顆 Micron D8BZF GDDR6X 顆粒編號,為 MT61K512M32KPA-24,其最高速度為 24Gbps,因此擁有一定記憶體超頻空間 ,每顆單顆容量為 16Gbit (2GB),總容量為 16GB 繪圖記憶體容量。
3 Slot 軸向式散熱器設計
NVIDIA GeForce RTX 4080 SUPER Founder Edition 沿用軸向式散熱設計,設計與 RTX 4080 FE 完全一樣,Triple Slot 雙 12 cm 風扇,GPU / VRM 及 GDDR6X 記憶體位置被巨型 Vapor Chamber 均熱板覆蓋,再透過 6 支導熱管傳導致另一組散熱鰭片,搭配兩顆 12 cm 風扇,其中一顆反葉設計讓冷空間穿過卡身未端排向 CPU 區域。
採用 12VHPWR / 12V2x6 供電
其實早在 RTX 4770 Founder Edition 開始,NVIDIA 就已經使用了經過改進的 12VHPWR / 12V-2x6 接頭,相較舊有 12VHPWR 感應引腳僅向入偏移量 0.45 mm,GeForce RTX 4080 SUPER Founders Edition 使用具有向入偏移 1.7 mm 的感應引腳,更短的感應引腳可以檢測連接器是否完全插入。如果沒有完全插入這樣,GPU 就會被限制最大功率負載,理論上講應該可解決過去發生的接頭燒毀問題,然而效果仍有待觀察,產品隨附一條 PCIe 8-Pin x 3 to 12VHPWR / 12V2x6 轉接線 (450W)。
2 個 8K@60Hz HDR 顯示輸出
提供了 3 組 Display Port 1.4a + DSC 及 2 組 HDMI 2.1 影像輸出埠口,兩種輸出介面皆可提供最高 4K@240Hz 或 8K@60Hz 12bit HDR 解析度輸出,支援 VESA DSC 1.2 無損壓縮顯示功能,單卡能提供最高 2 個 8K@60Hz HDR 顯示輸出,或是組合 2 組 DisplayPort 埠口提供單一 8K@120Hz HDR 輸出。
效能測試
本次收到由 NVIDIA 送測 GeForce RTX 4080 SUPER FE 顯示卡樣本,同時亦找來 RTX 4080 / RTX 4090 作對比測試,以了解 NVIDIA GeForce RTX 4080 SUPER 的效能水平。
時脈方面,NVIDIA GeForce RTX 4080 SUPER FE 預設核心時脈為 2,295MHz Base Clock、2,550MHz Boost Clock,支援 GPU Boost 4.0 技術最高可達 2,870MHz,最高 Power Limit 預設為 320W,可在 -55% 至 +11% 作出調整,最高可調至 355W。
散熱方面,NVIDIA GeForce RTX 4070 SUPER FE 在約 21°C 的室溫環境下閒置約 30分鐘,GPU溫度維持在 36°C。接著採用 Furmark 進行 3D 負載測試,將 GPU 完全負載 30 分鐘後,溫度會提升至62°C,GPU 時脈保持在 2,325MHz,TGP 為 320W。
測試平台
- Intel Core i9-12900K CPU
- ASUS ROG Z790 Maximus APEX
- ANACOMDA DDR5-6400 CL36-38-38-68 32GB x 2 @1.35V
- Windows 11 Professional 23H2
- NVIDIA GeForce Driver 551.22 WHQL
Fire Strike / Time Spy
GPU | FireStrike | FireStrike Extreme | FireStrike Ultra | Time Spy | Time Spy Extreme |
GeForce RTX 3090 Ti | 52761 | 27160 | 14264 | 21627 | 11295 |
GeForce RTX 4070 Ti SUPER | 58860 | 29262 | 14280 | 24410 | 11827 |
GeForce RTX 4080 | 68414 | 34594 | 17490 | 28669 | 14199 |
GeForce RTX 4080 SUPER | 68670 | 34756 | 17740 | 28897 | 14344 |
Radeon RX 7900 XT | 68214 | 34843 | 17589 | 27888 | 13295 |
Radeon RX 7900 XTX | 73609 | 39522 | 20142 | 29463 | 14592 |
GeForce RTX 4090 | 82162 | 46953 | 25294 | 37263 | 19630 |
3DMark Ray-Tracing
GPU | Port Royal | Speed Way |
GeForce RTX 3090 Ti | 14533 | 5981 |
GeForce RTX 4070 Ti SUPER | 15582 | 6304 |
GeForce RTX 4080 | 18056 | 7379 |
GeForce RTX 4080 SUPER | 18440 | 7479 |
Radeon RX 7900 XT | 14499 | 5436 |
Radeon RX 7900 XTX | 15951 | 6010 |
GeForce RTX 4090 | 25955 | 9998 |
3DMark DLSS 測試
GPU | DLSS Off | DLSS2 | DLSS3 |
GeForce RTX 3090 Ti | 32.88 | 81.16 |
|
GeForce RTX 4070 Ti SUPER | 33.21 | 88.38 | 144.11 |
GeForce RTX 4080 | 39.71 | 104.09 | 166.12 |
GeForce RTX 4080 SUPER | 40.32 | 104.58 | 167.86 |
GeForce RTX 4090 | 56.35 | 138.32 | 201.22 |
3DMark DirectX Raytracing feature test 測試
GPU | RT |
GeForce RTX 3090 Ti | 61.69 |
GeForce RTX 4070 Ti SUPER | 72.01 |
GeForce RTX 4080 | 84.78 |
GeForce RTX 4080 SUPER | 87.2 |
GeForce RTX 4090 | 139.98 |
UL Procyon AI 測試
在 UL Procyon AI Inference Benchmark (Windows) AI 推理基準測試中,使用常見的電腦視覺的神經網絡模型,透過 CPU 或 GPU 運行相同操作進行比較,以測量 AI 加速器的性能,並設有浮點數或整數的測試方式。
測試採用 14900K、RTX 4080 / RTX 4080 SUPER 配置、float32 精度。在 Microsoft Windows ML 版本及 NVIDIA Tensor RT 版本中,RTX 4070 Ti SUPER 分別獲得 1,204 和 1,694 分數,而 RTX 4080 分別獲得 1,199 和 1,682 分數。AI 運算性能跑分方面,RTX 4080 與 RTX 4080 SUPER 非常接近。
GPU | Windows ML | TensorRT |
GeForce RTX 4070 Ti | 1049 | 1512 |
GeForce RTX 4070 Ti SUPER | 1129 | 1593 |
GeForce RTX 4080 | 1199 | 1682 |
GeForce RTX 4080 SUPER | 1204 | 1694 |
Stable Diffusion AI 生成應用測試
Stable Diffusion 是於 2022 年發佈的深度學習 text-to-image 模型工具,只需要輸入文字內容,配合含有大量素材的訓練模型,便可即時繪畫 (AI 生成) 圖像。透過不同的文字內容和特定主題的訓練模型,Stable Diffusion 主要用於生成真實人像、二次元人像、不同藝術風格等圖像類型,帶來千變萬化、創意無限的圖片內容,更是 2023 年熱門使用的 AI 創作工具。
Stable Diffusion 支援 WebUI 介面,可在瀏覽器中顯示圖形化界面,能讓一般電腦使用者也能輕鬆使用及調整不同的選項,亦相容不同的系統平台及電腦硬體,加上不是太過複雜的安裝過程,深受不同程度的電腦使用者歡迎。不過 Stable Diffusion 對於電腦硬體中的 GPU VRAM 容量有一定的需求,太低 VRAM 容量將會影響圖片生成時的速度或是生成變化,普遍建議使用 8GB VRAM 容量或以上的顯示卡。
在不超過 8GB VRAM 容量下,RTX 4080 SUPER 完成時間為 8.9 秒,而 RTX 4080 為 9.1秒,兩者相差 0.2 秒。少許規格提升的 RTX 4080 SUPER 在低需求的 AI 圖像生成只有非常輕微的差異。
GPU | Second(s) |
GeForce RTX 4080 | 9.1 |
GeForce RTX 4080 SUPER | 8.9 |
NVIDIA 於 2023 年 11 月推出全新 TensorRT Extension 工具,適用於 Stable Diffusion WebUI 安裝及使用的擴充插件。TensorRT Extension 可把一般的 Checkpoint 或 LoRA等模型,轉換到 TensorRT 格式的設定檔,並可自訂設定檔的數值設定,目前支援 Text-2-image、Image-2-image、Stable Diffusion 1.5 / 2.1 / XL、LoRA 等。NVIVIDA 表示運行 TensorRT Extension 時,將會使用 NVIDIA GPU 的 Tensor Core 計算,Stable Diffusion 的效能可提升 1 倍以上。
測試使用 Stable Diffusuion 模組的 SDXL Turbo 1.0,並使用 TensorRT Extension 工具,轉換合適的設定置。以 1024x1024 解析度、Step 20、Batch count 1、Batch size 1、簡單的提示詞等設定運行,並分別開啟或關閉 xformers 指令、開啟或關閉 TensorRT 功能。
在運行 SDXL Turbo 模式時,預載時已超過 8GB VRAM 容量,以 1024x1024 解析度算圖時,更會超出 12GB 或以上 VRAM 容量。在 PyTorch、PyTorch + xformers、TensorRT 框架運算下,RTX 4080 SUPER 16GB 完成時間為 6.4 秒、5.1 秒、3.9 秒,而 RTX 4080 16GB 完成時間分別為 6.9 秒、5.5 秒、4.4 秒,兩者時間相差 7% ~ 12%。相比 RTX 4080 16GB,當場景變得越複雜 RTX 4080 SUPER 16GB 才會有更明顯的性能差異。
在使用 Stable Diffusion 高需求模組並以高解析度運行時,所需的 VRAM 容量隨即增加,在使用 xfomers 指令後,雖然完成時間減少了,但 VRAM 容量佔用反而更多,失去了原來減少 VRAM 佔用的優點。在使用 TensorRT 框架後,相比純 PyTorch 運算,VRAM 容量佔用明顯降低,而且縮短了 50% ~ 60% 完成時間,對於 AI 生成圖片更有幫助。
遊戲效能測試
以下的遊戲測試除另外註明外,全部皆以 3840 x 2160 解析度全螢幕執行,畫質皆設定為最高品質,若遊戲支援光線追蹤技術則同時將光追品質全開。而 DLSS 方面則統一使用 Performance 設定,當中 GeForce RTX 40 系列會啟用 DLSS 3 中新增的 Frame Generation 技術。
A Plague Tale : Requiem 瘟疫傳說:安魂曲 (RT + DLSS 3)
GPU | 4K DLSS Off | 4K DLSS On |
GeForce RTX 3090 Ti | 46 | 83 |
GeForce RTX 4070 Ti SUPER | 52 | 119 |
GeForce RTX 4080 | 60 | 142 |
GeForce RTX 4080 SUPER | 61 | 145 |
GeForce RTX 4090 | 81 | 183 |
Control (RT + DLSS2)
GPU | 4K DLSS Off | 4K DLSS On |
GeForce RTX 3090 Ti | 41 | 65 |
GeForce RTX 4070 Ti SUPER | 43 | 64 |
GeForce RTX 4080 | 55 | 81 |
GeForce RTX 4080 SUPER | 56 | 83 |
GeForce RTX 4090 | 72 | 116 |
CyberPunk 2077 RT Ultra (RT+ DLSS 3)
GPU | 4K DLSS Off | 4K DLSS on |
GeForce RTX 3090 Ti | 28 | 66 |
GeForce RTX 4070 Ti SUPER | 31 | 84 |
GeForce RTX 4080 | 42 | 114 |
GeForce RTX 4080 SUPER | 44 | 118 |
GeForce RTX 4090 | 53 | 149 |
F1 22 (RT + DLSS 3)
GPU | 4K DLSS off | 4K DLSS on |
GeForce RTX 3090 Ti | 61 | 132 |
GeForce RTX 4070 Ti SUPER | 63 | 136 |
GeForce RTX 4080 | 68 | 167 |
GeForce RTX 4080 SUPER | 69 | 169 |
GeForce RTX 4090 | 96 | 232 |
Forza Horizon 5 (DLSS 3)
GPU | 4K DLSS off | 4K DLSS on |
GeForce RTX 3090 Ti | 78 | 114 |
GeForce RTX 4070 Ti SUPER | 84 | 130 |
GeForce RTX 4080 | 96 | 147 |
GeForce RTX 4080 SUPER | 98 | 149 |
GeForce RTX 4090 | 119 | 189 |
Tom Clancy's Rainbow Six Siege 虹彩六號:圍攻行動
GPU | 1080p | 2K | 4K |
GeForce RTX 3090 Ti | 598 | 513 | 321 |
GeForce RTX 4070 Ti SUPER | 592 | 544 | 361 |
GeForce RTX 4080 | 610 | 586 | 395 |
GeForce RTX 4080 SUPER | 611 | 591 | 401 |
GeForce RTX 4090 | 613 | 586 | 517 |
Microsoft Flight Simulator 微軟模擬飛行 (DLSS 3)
GPU | 4K DLSS Off | 4K DLSS on |
GeForce RTX 3090 Ti | 55 | 81 |
GeForce RTX 4070 Ti SUPER | 54 | 118 |
GeForce RTX 4080 | 69 | 146 |
GeForce RTX 4080 SUPER | 71 | 149 |
GeForce RTX 4090 | 89 | 170 |
Watch Dogs Legion (RT + DLSS)
GPU | 4K DLSS Off | 4K DLSS On |
GeForce RTX 3090 Ti | 39 | 55 |
GeForce RTX 4070 Ti SUPER | 38 | 57 |
GeForce RTX 4080 | 52 | 69 |
GeForce RTX 4080 SUPER | 53 | 71 |
GeForce RTX 4090 | 71 | 94 |
總結
雖然 GeForce RTX 4080 SUPER 在晶片規模增加了 5.28%、記憶體頻寬增加了 2.68%,但在 3D 遊戲運算下你並不可能每次都將運算單元 100% 填滿,所以 GeForce RTX 4080 SUPER 實際的遊戲性能提升只有 1~3% 不等,越高解析度、越複雜的場景差異才會較為明顯,所以 RTX 4080 SUPER 的重點並不在於規格及性能上的提升,而是 MSPR 定價由 US$ 1,199 降至 US$ 999。
其實大家也不必將 RTX 4080 SUPER 與 RTX 4080 作過多的比較,就當作是一樣的東西好了,反正 NVIDIA 已經將 RTX 4080 停產,其地位由 RTX 4080 SUPER 取而代之。
以上內容及測試資料為 HKEPC 獨家授權給 UNIKO's Hardware 編譯
延伸閱讀
請問文中提到“單卡能提供最高 2 個 8K@60Hz HDR 顯示輸出,或是組合 2 組 DisplayPort 埠口提供單一 8K@120Hz HDR 輸出”組合2個DP?這是怎麼做到的呢?
這個功能我也還沒體驗過,據說要透過兩條DP線跟支援的螢幕實現。