NVIDIA 正式發佈全新 GeForce RTX 4090 顯示卡,採用全新 AD102 繪圖核心、升級新一代 Ada GPU 微架構、CUDA Core 增加至 16,384 個、第 3 代 RT Core 及第 4 代 Tensor Core、24GB GDDR6X 容量,與上代架構相比光刪化性能提升 2 倍、Ray Tracing 性能提升 4 倍,並且在絕大部份遊戲下 4K 光追能夠達至 100 FPS+,這麼威猛的規格與性能值得硬體愛好者深入了解一下。
NVIDIA GeForce RTX 40 系列技術說明
GeForce RTX 40 系列登場
NVIDIA 11 日正式發佈首款 Ada Lovelance GPU 架構產品、核心代號為 AD102 的旗艦級 GeForce RTX 4090 顯示卡,現代 GPU 圖形運算技術不斷提升,遊戲畫面的幾何複雜性與光線運算技術皆大大提升,畫面亦變得更加逼真,當 NVIDIA 發佈 Turing GPU 架構時,Battlefield 5 僅為每個像素需要 39 次光線追踪操作來計算典型場景中的光照效果,但 4 年過後 Cyberpunk 的 RT:Overdrive 模式已經增至每像素推動超過 600 次光線追踪計算,因此需要更強大的 GPU 才能滿足遊戲的進步。
與之前的 Ampere GPU 架構相比,NVIDIA Ada Lovelance GPU 在光柵化遊戲中的速度高達 2 倍,在光線追踪遊戲中的速度高達 4 倍,是 NVIDIA 歷史上最大的一代性能升級 (每一代都這樣說 XD) ,主要得四大關鍵創新︰
革命性的架構規模提升:
Ada Lovelance GPU 架構規模大大提升,在製程創新下 NVIDIA 工程師能製造出具有 763 億個電晶體、擁有高達 18,432 個 CUDA Core 晶片,並且能運作超過 2.5GHz 時脈以上,卻可以保持與 GeForce RTX 3090 Ti 相同的 450W TGP 功耗表現。
更強大的 Ada Lovelance RT Core :
為了實現更強大的光線追踪能力,Ada Lovelance GPU 架構升級第 3 代 RT Core 新增了兩個硬體單元;Opacity Micromap Engine 可將經過 alpha 測試的幾何體的光線追踪速度提升 2 倍,而 Displaced Micro-Mesh Engine 可即時產生 Displaced Micro-Triangles 以建立額外的幾何體,能大大增加光線追踪的復雜卻不會對 GPU 性能及儲存造成負擔。
著色器執行重新排序︰
Ada Lovelance GPU 架構的 SM 支援著色器執行重新排序,可以動態組織及重新排程著色器的工作負載,令光線追踪的著色效率大大提升,在 Cyberpunk 的 RT:Overdrive 模式中,性能相較上代 SM 提升 44%。
NVIDIA DLSS 3 技術︰
Ada Lovelance GPU 架構新增 DLSS 3 技術,升級第 4 代 Tensor Cores 新增全新的光流加速器能提供 AI 畫幀生成功能,可將 DLSS 3 的幀速率提升至之前的 DLSS 2.0 的 2 倍,同時保持或超過原生圖像品質,並且新增 FP8 張量運算能力,與傳統的蠻力圖形渲染相比,DLSS 3 最終速度提高了 4 倍,同時提供了低系統延遲。
NVIDIA 11 日將會正式發佈 GeForce RTX 4090 型號,基於 AD102 繪圖核心、擁有 16,384 個 CUDA Cores、24GB GDDR6X 容量,MSRP 定價 NT$ 56,990,能夠在大部份 4K + RT 啟動下提供 100FPS+ 遊戲性能。
緊接 11 月會將會再發佈 2 款 GeForce RTX 4080 型號,RTX 4080 12GB 基於 AD104 繪圖核心,擁有 7,680 個 CUDA Cores、12GB GDDR6X 記憶體,RTX 4080 16GB 基於 AD103 繪圖核心,擁有 9,728 個 CUDA Cores、16GB GDDR6X 記憶體,MSRP 售價分別為 NT$ 32,990 與 NT$ 42,990。
TSMC 4N 製程、NVIDIA AD102 繪圖核心
NVIDIA AD102 繪圖核心基於全新 Ada Lovelance 微架構,並用於 GeForce RTX 4090 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 快取容量及全新著色器執行排序技術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追踪性能上提升近 4 倍。
GeForce RTX 4090 採用 AD102-300 繪圖核心,採用 TSMC 4N NVIDIA Custom 製程,擁有 763 億個電晶體、 Die Size 608.5mm² 相較上代 GA102 的 628mm² 還要小,完整的 AD102 晶片內建 12 個 GPC 單元、72 個 TPC 紋理處理群集及 144 個 SM 串流多處理器,增至 18432 個 CUDA Cores、144 個 RT Cores 及 336 個 Tensor Cores。
不過,GeForce RTX 4090 部份單元作出了遮蔽,精簡至只有 11 個 GPC 單元、64 個 TPC 紋理處理群集及 128 個 SM 串流多媒體處理器,具備 16,384 個 CUDA Cores、128 個 RT Cores 及 512 個 Tensor Cores。
核心時脈方面,雖然晶片規模大幅提升但時脈仍然保持於超高水平,GeForce RTX 4090 預設時脈 2.23GHz、Boost 時脈為 2.52GHz,最高 TGP 為 450W。
此外,GeForce RTX 4090 採用 21Gbps GDDR6X 記憶體,384-bit 記憶體介面總頻寬為 1008GB/s,更重要是 L2 快取容量大幅增加至 73,732KB,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6X 記憶體頻寬使用。
Founders Edition | RTX 4080 12G | RTX 4080 16G | RTX 4090 |
---|---|---|---|
GPU Codename | AD104 | AD103 | AD102 |
GPU Architecture | NVIDIA AdaLovelance |
NVIDIA AdaLovelance |
NVIDIA AdaLovelance |
GPCs | 5 | 7 | 11 |
TPCs | 30 | 38 | 64 |
SMs | 60 | 76 | 128 |
CUDA Cores / SM | 128 | 128 | 128 |
CUDA Cores / GPU | 7680 | 9728 | 16384 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 240 (4th Gen) | 304 (4th Gen) | 512 (4th Gen) |
RT Cores | 60 (3rd Gen) | 76 (3rd Gen) | 128 (3rd Gen) |
GPU Boost Clock (MHz) | 2610 | 2505 | 2520 |
Peak FP32 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak FP16 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak BF16 TFLOPS (non-Tensor) | 40.1 | 48.7 | 82.6 |
Peak INT32 TOPS (non-Tensor) | 10.6 | 24.4 | 41.3 |
RT TFLOPS | 92.7 | 112.7 | 191 |
Peak FP8 Tensor TFLOPS with FP16 Accumulate |
320.7/641.4 | 389.9/779.8 | 660.6/1321.2 |
Peak FP8 Tensor TFLOPS with FP32 Accumulate |
320.7/641.4 | 389.9/779.8 | 660.6/1321.2 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate |
160.4/320.8 | 194.9/389.8 | 330.3/660.6 |
Peak FP16 Tensor TFLOPS with FP32 Accumulate |
80.2/160.4 | 97.5/195 | 165.2/330.4 |
Peak BF16 Tensor TFLOPS | 80.2/160.4 | 97.5/195 | 165.2/330.4 |
Peak TF32 Tensor TFLOPS | 40.1/80.2 | 48.7/97.4 | 82.6/165.2 |
Peak INT8 Tensor TOPS | 320.7/641.4 | 389.9/779.82 | 660.6/1321.2 |
Peak INT4 Tensor TOPS | 641.4/1282.8 | 779.8/1559.6 | 1321.2/2642.4 |
Frame Buffer Memory Size and Type | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
Memory Interface | 192-bit | 256-bit | 384-bit |
Memory Clock (Data Rate) | 21 Gbps | 22.4 Gbps | 21 Gbps |
Memory Bandwidth | 504 GB/sec | 716.8 GB/sec | 1008 GB/sec |
ROPs | 80 | 112 | 176 |
Pixel Fill-rate (Gigapixels/sec) | 208.8 | 280.6 | 443.5 |
Texture Units | 240 | 304 | 512 |
Texel Fill-rate (Gigatexels/sec) | 626.4 | 761.5 | 1290.2 |
L1 Data Cache/SharedMemory | 7680 KB | 9728 KB | 16384 KB |
L2 Cache | 49152 KB | 65536 KB | 73728 KB |
Register File Size | 15360 KB | 19456 KB | 32768 KB |
Video Engines | 2x NVENC (Gen8) | 2x NVENC (Gen 8) | 2x NVENC (Gen 8) |
1x NVDEC (Gen5) | 1x NVDEC (Gen5) | 1X NVDEC (Gen 5) | |
TGP Power | 285W | 320W | 450W |
Transistor Count | 35.8 Billion | 45.9 Billion | 76.3 Billion |
Die Size | 294.5mm² | 378.6mm² | 608.5mm² |
Manufacturing Process | TSMC 4N | TSMC 4N | TSMC 4N |
PCIe Interface | Gen4 | Gen4 | Gen 4 |
經改良的 Ada Lovelance 架構
GPC 是 NVIDIA GPU 中最頂層的硬體區塊,所有關鍵圖形處理單元都位於 GPC 中。 Ada Lovelace 每個 GPC 包括 1 個專用的光柵引擎、 2 個光柵操作 (ROP) 分區,每個分區包含 8 個單獨的 ROP 單元和 6 個 TPC,每個 TPC 包括 1 個 PolyMorph 引擎和 2 個 SM。
AD102 GPU 中的每個 SM 包含 128 個 CUDA Core、 1 個 Ada Lovelace 第三代 RT 核心、4 個 Ada Lovelace 第四代 Tensor Cores、4 個 Texture 紋理單元、 1 個 256 KB 檔案暫存器和 128 KB 的 L1 / 共享記憶體,可根據圖形或計算工作負載需求分配成不同的記憶體大小。
與 Ampere GPU 一樣,AD102 的 SM 單元分為 4 個分區,每個分區包含 1 個 64 KB 檔案暫存器、一個 L0 指令緩存、一個 warp 調度程序、一個調度單元、16 個專用於處理 FP32 的 CUDA 核心操作,每個週期最多可處理 16 個 FP32 操作,16 個可以處理 FP32 或 INT32 操作的 CUDA 核心,每個週期 16 個 FP32 操作或每個時鐘 16 個 INT32 操作, 4 個加載 / 存儲單元,以及執行超越和圖形插值指令的特殊功能的 SFU 單元,除了換上第 4 代的 Tensor Core 設計,FP 單元在微架構上並沒有太大變動。
與上代 Ampere GPU 相比,Ada Lovelace GPU 的 L2 快取進行了徹底改造,完整的 AD102 GPU 擁有高達 98304 KB 的 L2 快取,比 GA102 中的 6144 KB 提高了 16 倍,所有應用程式都將受益於擁有如此龐大、更高速的 L2 快取,例如 Ray Tracing 光線追踪當中的路徑追踪之類的複雜操作將產生最大的好處,相較 AMD 的 Infinity Cache 作為 L3 快取擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6X 記憶體頻寬使用。
此外,AD102 GPU 受惠於 TSMC 4N 製程,在 NVIDIA 工程師與 TSMC 密切合作下令 AD102 能包含更多的運算核心,AD102 包含的 CUDA 核心比上一代 GA102 GPU 多 70%,擁有高達 763 億個電晶體,並且關鍵路徑中使用高速晶體管設計,令 AD102 GPU 時脈可運作於 2.5GHz 甚至更高,並且提供了出色的能耗比,對比 RTX 3090 Ti GPU 在相同功耗運作時,RTX 4090 GPU 可以提供接近 2 倍的性能表現,如果啟用 DLSS 3 技術後甚至最高可達 4 倍。
升級第 3 代 Ray Tracing 引擎
Ray Tracing 光線追踪技術是一種密集型渲染技術,可以逼真地模擬場景及物件的光線,即時以物理方式渲染正確的反射、折射、陰影及間接照明效果。過去的 GPU 架構並無法對遊戲及圖形進行複雜的即時光線追踪處理,NVIDIA 經過過 10 年的研究及開發,終於在上代 GeForce RTX 20 的「Turing」GPU 微架構中加入硬體光線追踪加速引擎 —「RT Cores」,結合 NVIDIA RTX 軟體引擎,實現逼真的實時光線場景效果。
到了 GeForce RTX 30 系列的 Ampere GPU 升級了第 2 代的 RT Cores,BVH 遍歷與射線三角交測運算能力提升了 2 倍,第 1 代 Turning SM 在 Ray Tracing 運算時不能同時執行繪圖或運算,到了 Ampere SM 強化了異步運算能力,當執行 Ray Tracing 運算時可同步進行繪圖或運算,令 Ray Tracing 的遊戲執行效率大大提升。
來到 GeForce RTX 40 的 Ada Lovelace GPU 升級至第 3 代 RT Cores,它的 Triangle Intersection Engine 相較上代快 2 倍的 Ray-Triangle 相交吞吐量,能為遊戲場景中加入更多細節,同時有快 2 倍的 Alpha Traversal 處理能力,新增 Opacity Micromap Engine 直接對幾何物件進行 alpha 測試,並顯著減少基於著色器的 alpha 運算量。
在 Ada Lovelace GPU 之前,當光線扭曲投射到不同程度透明級別的物件時,例如葉子或火焰等複雜形狀通常使用紋素的 alpha 通道來表示,單個光線運算也可能需要多次著色器調用才能完成,即使光線只是簡單地表徵為命中或未命中都需要大量的運算成本。
為了更有效處理此類內容,NVIDIA 工程師在第 3 代 RT Core 中增加了 Opacity Micromap Engine,為非不透明物件產生微三角形的虛擬網格,每個微三角形都具有不透明狀態,RT Core 使用該狀態直接解析與非透明三角形的光線交叉點,令 Alpha 場景遍歷性能大幅提升,性能升幅很大程度取決於使用情況,如果場景出現大量投射在 alpha 測試幾何體上的陰影光線時會看到最大的收益。
第 3 代 RT Core 另一個重要提升是添加 Displaced Micro-Mesh Engine,透過將幾何結構換置成微網格,利用 LOD 細節層進行光柵化,相較使用傳統三角幾何光線追蹤處理,不僅擁有更多細節,相較上代 BVH 數據構建速提升了 10 倍, BVH 所需資料容量減少了 20 倍,而且對複雜環境進行光線追踪時,追踪成本緩慢增加,幾何增加 100 倍可能只會增加 1 倍追踪時間。
上代 Ampere GPU 可能需要 1024 個三角幾何與複雜的 BVH 結構進行的光線追踪,同樣的效果透過 Displaced Micro-Mesh Engine,只需要 1 個基礎三角形和 1個更換貼圖定義及簡單的 BVH 結構就能完成,可以在不相應增加處理時間或記憶體消耗的情況下實現豐富度的數量級增加。
Shader Execution Reording 技術
為實現遊戲即時光線追踪的逼真渲染,運算時增加了大量的環境中模擬光線運動,同時亦意味著 GPU 原始處理工作量變得越來越不連貫。例如,用於反射、間接照明和半透明效果的二次光線往往會射入,不同的方向並擊中不同的材質,導致二次擊中著色器的有序性和效率較低,不規律性的運算會導致 GPU 的處理單元 SM 的低效使用,因此 NVIDIA 在 Ada Lovelace GPU 架構中加入 Shader Execution Reording 著色器執行重新排序技術,它可以動態地重新排序著色工作以實現更好的執行效率。
透過 Shader Execution Reording 技術,著色器執行重排序時在光線追踪管道中添加了一個新階段,該階段對二次命中著色進行重新排序和分組,以具有更好地執行局部性,在 Cyperpunk 2077 RT: Overdrive 模式下,啟動 ShaderExecution Reording 技術後性能提升高達 44%,相當驚人。
升級第 4 代 Tensor Cores、全新 DLSS 3 技術
Tensor Cores 是專門為在 AI 和 HPC 應用程式中使用的矩陣乘法和累加數學運算量身定制的高性能運算,可以用於為矩陣計算提供了突破性的性能,這對於深度學習神經網路訓練和邊緣發生的推理針對遊戲應用層面,Tensor Cores 其中一個重點就是加入全新 DLSS 深度學習超級採樣技術,透過深度神經網絡提取渲染場景的多維特徵,並智能地組合來自多個幀的細節,以構建高品質 3D 影像。與傳統的 AA 技術相比,DLSS 使用更少的輸入樣本,同時避免了透明度和其他復雜場景元素的算法難度。
全新 Ada Lovelace GPU 微架構升級至第 4 代 Tensor Cores 運算單元,相較上代在 FP16、BF16、TF32、INT8 和 INT4 性能提升2 倍以上,新增 FP8 運算能力 AD102 可提供超過 1.3 PetaFLOPS 的張量處理,並且升級至 DLSS 3 技術能透過深度學習使用 AI 生成整幀以大幅提升性能。
DLSS 3 技術是將先前 DLSS 2 技術,透過 Tensor Cores 運動矢量運算與超解析度技術下,在幀與幀之間加插由以 AI 運算生成的新幀,啟用 DLSS 3 後,AI 將使用 DLSS 超解析度重建第一幀的 3/4,並使用 DLSS AI 幀生成重建整個第二幀,因此 DLSS 3 重建了總顯示像素的 7/8,因此顯著提高了性能。
為了令 AI 幀成生的影像不會出現重影、卡頓和模糊等偽影, ADA Lovelace GPU 新增 Optical Flow Accelerator 光流加速器,它能捕獲粒子、反射、陰影和照明等資訊,DLSS 3 可以計算場景中的一切是如何從一個像素移動到另一個像素的,令遊戲畫面不會出現異常重建。
更重要的是 DLSS 3 可以減低 CPU 造成的性能瓶頸,一些需要 CPU 物理模擬的遊戲例如 Microsoft Flight Simulator (微軟模擬飛行),對於 CPU 的性能要求十分高,因此 GPU 經常處於空閒狀態等待指令,DLSS 3 可以將 CPU 密集型遊戲轉換為 GPU 密集型遊戲,因為在 AI 生成幀中全由 GPU 負責,因此在執行 CPU 受限的遊戲,例如那些需要大量物理或涉及大型開放世界的遊戲, GeForce RTX 40 系列顯卡在相同 CPU 運算能力下,幀速率高達兩倍的幀速率進行渲染。
升級第 8 代 NVENC 編碼引擎
為提升 GPU 編輯性能,NVIDIA AD102 GPU 配搭了兩個第 8 代 NVENC 編碼器,上代 Ampere GPU 只提供 AV1 解碼支援,Ada Lovelace 新增 AV1 編碼支援能力,其編碼效率相較 H.264 編碼器提升了 40%,可支援 8K/60 HDR 或是同時為 4 個 4K/60 HDR 影片編碼運算。
解碼器方面,NVIDIA AD102 GPU 與上代一樣擁有 1 個第 5 代 NVDEC 解碼器,支持 MPEG-2、VC-1、H.264 (AVCHD)、H.265 (HEVC)、VP8、VP9 和 AV1 影片格式的硬體加速影片解碼,支援 8K/60 解析度。
NVIDIA GeForce RTX 4090 Founder Edition 外觀簡介
收到由 NVIDIA 送測的 GeForce RTX 4090 Founder Edition 顯示卡,外觀設計與上代 GeForce RTX 3090 Ti 相似,只有少許細節上的差異,例如金屬外框向內微凹,使用的字體亦有所改動,上手後可以感受到 NVIDIA 對細節的重視,卡的正面都是霧黑色的散熱鰭片,邊緣採用鈦金色鋁金屬框架,並且印有 RTX 4090 字樣,沿用軸向式散熱設計,正反兩面各有一個 12cm 散熱風扇,能夠將部份廢熱排向 CPU 區域及直接排出機殼,令機殼內部溫度變得更平均。
GeForce RTX 4090 Founder Edition 相較 RTX 3090 Ti 更龐大,尺寸為 304mm x 137mm x 61mm 根本上小機殼都可以直接略過,用上 Triple Slot 散熱器、雙 12cm 軸向式散熱風扇,頂端 GeForce RTX 字樣在運作時會透出白色 LED 燈效,可惜不是 RGB 燈效。
考慮到大部份人安裝顯示卡後,從機殼外看進去只會看到卡背,NVIDIA 將設計反轉,把背板變成正面,並顯示著「RTX 4090」字樣,整張卡所有螺絲孔都用磁吸隱藏了,NVIDIA 真的是從使用者的角度、在細節中作出了考量,難怪那麼多玩家想買 Founder Edition。
NVIDIA PG136D 公板設計
拆開散熱器後,以看到它採用 PG136D 公板設計,與 RTX 3090 Ti PCB 佈局非常相似 ,NVIDIA 刻意將電路板盡量縮小,讓卡身可以鏤空,讓軸向式風扇將帶氣流帶到 CPU 區域,12 Layers PCB 設計並經過低阻抗提供訊號及電力傳輸最佳化,同時保留了不俗的超頻性能。
供電設計方面,升級至 23 相 Dual FET 供電模組設計,其中 20 相負責 GPU 供電、3 相負責 GDDR6X 供電,採用 Monolithic Power Systems MP2891 VRM 控制晶片配搭 Monolithic Power Systems MP86957 70A DrMOS 晶片。
NVIDIA AD102-300 繪圖核心
NVIDIA GeForce RTX 4090 Ti 採用了經刪減後的 AD102-300 繪圖核心,採用 TSMC 4N 製程、擁有 763 億個電晶體、Die Size 約為 608.5mm²,部份單元作出了遮蔽,刪減至只有 11 個 GPC 單、64 個 TPC 紋理處理群集及 128 個 SM 串流多媒體處理器,具備 16,384 個 CUDA Cores、128 個 RT Cores 及 512 個 Tensor Cores。
核心時脈方面,雖然晶片規模大幅提升但受惠於 TSMC 4N 製程,GPU 時脈相較上代大幅提升,GeForce RTX 4090 FE 預設為 2.23GHz 基礎時脈、2.52MHz 加速時脈,支援 GPU Boost 4.0 技術可因應負載自動超頻至更高時脈,最高 TGP 為 450W 與 RTX 3090 Ti 相同。
384-bit 24GB GDDR6X 記憶體容量
記憶體方面,GeForce RTX 4090 具備 24GB GDDR6X 記憶體容量及 384-bit 記憶體控制器,記憶體頻寬由 448GB/s 提升至高達 1008GB/s (1TB/s),再加上更高的 74MB L2 快取容量,以滿足更高解析度、更複雜的著色器渲染運算畫面。
採用了12 顆 Micron D8BZC GDDR6X 顆粒編號,為 MT61K512M32KPA-21:U 並支援 ECC 功能,每顆單顆容量為 16Gbit (2GB),總供 24GB 顯示記憶體容量,採用單面 24GB GDDR6X 記憶體配置,可避免 RTX 3090 雙面 24GB GDDR6X 記憶體配置的背面記憶體顆粒過熱問題,在 NVIDIA Control Panel 程式中,使用者可以看到 GeForce RTX 4090 能支援 NVIDIA Quadro / Tesla 系列專業繪圖卡才能擁有的 ECC 功能。
Triple Slot 軸向式散熱器設計
NVIDIA GeForce RTX 4090 FE 沿用軸向式散熱設計,設計與 RTX 3090 Ti 相同只是變得更巨型了,Triple Slot 雙 12 cm 風扇,GPU / VRM 及 GDDR6X 記憶體位置被巨型 Vapor Chamber 均熱板覆蓋,再透過 6 支導熱管傳導至另一組散熱鰭片,搭配兩顆 12cm 風扇,其中一顆反葉設計讓冷空間穿過卡身末端排向 CPU 區域。
採用 12VHPWR 供電接頭
供電方面,GeForce RTX 4090 Founder Edition 採用 12 +4 Pin 的 12VHPWR 供電接頭,單一接頭最高可提供 600W 供電,由於原生支援 12VHPWR 連接線的電源供應器太少,NVIDIA 隨產品附 PCIe 8Pin x4 轉 12VHPWR 轉接線,要記住轉接線有物理限制,在其接觸點開始磨損之前,可以重複插拔的最大次數為 30 次,同時不要過份彎曲使用,否則可能會導致短路。
軸向式散熱器設計
NVIDIA GeForce RTX 4090 Founder Edition 提供了 3 組 Display Port 1.4a + DSC 及 2 組 HDMI 2.1 影像輸出,兩種輸出介面皆可提供最高 4K@240Hz 或 8K@60Hz 12bit HDR 解析度輸出,支援 VEGA DSC 1.2 無損壓縮顯示功能,單卡能提供最高 2 個 8K@60Hz HDR 顯示輸出,或是組合 2 組 DisplayPort 介面提供單一 8K@120Hz HDR 輸出。
效能測試:對決 GeForce RTX 3090 Ti FE
要測試 GeForce RTX 4090 Founder Edition 顯示卡當然要有一個強悍的對手,上代卡皇 GeForce RTX 3090 Ti Founder Edition 能扮演此一角色,方便大家了解新一代 GeForce RTX 4090 的效能水平。
時脈方面,NVIDIA GeForce RTX 4090 FE 預設為 2,235MHz 基礎時脈、2,520MHz 加速時脈,支援 GPU Boost 4.0 技術最高可達 2,745MHz。
散熱方面,NVIDIA GeForce RTX 4090 FE 在約 25℃ 的室溫環境下閒置約 30分鐘,GPU溫度維持在 36℃。接著採用 Furmark 進行 3D 負載測試,將顯示卡燒機 30 分鐘後,溫度則提升至 70°C 的水平,GPU 時脈保持在 2,535MHz,在全負載時的時脈相較 NVIDIA GeForce RTX 3090 Ti FE 高了近 1GHz。
Open CL Memory Benchmark 記憶體頻寬測試︰
測試平台︰
CPU | Intel Core i9-12900K |
---|---|
主機板 | ASROCK Z690 AQUA OC |
顯示卡 | NVIDIA GeForce RTX 3090 Ti FE |
顯示卡 | NVIDIA GeForce RTX 4090 FE |
顯示卡 | AMD Radeon RX 6950 XT |
記憶體 | G.SKILL DDR5-6000 CL30-38-38-39 16GB x 2 @1.35V |
系統 | Windows 11 Professional 22H2 |
驅動 | NVIDIA GeForce Driver 521.90 WHQL |
3DMark 測試︰
3DMark 作為最廣泛的 3D 性能基準測試,性能對比結果當然不可缺少,根據測試顯示 GeForce RTX 4090 遊戲性能相較上代產品有明顯提升。
Time Spy | Time Spy Extreme | |
---|---|---|
Radeon RX 6950 XT | 19457 | 9290 |
GeForce RTX 3090 Ti | 19555 | 10046 |
GeForce RTX 4090 | 33100 | 16861 |
FireStrike | FireStrike Extreme | FireStrike Ultra | |
---|---|---|---|
Radeon RX 6950 XT | 41745 | 26992 | 14819 |
GeForce RTX 3090 Ti | 36189 | 24486 | 14225 |
GeForce RTX 4090 | 54895 | 39440 | 24946 |
3DMark Ray-Tracing 測試︰
3DMark Port Royal 是首款針對即時光線追蹤所設計的測試工具,支持 Microsoft DirectX Raytracing 技術,讓玩家測試不同顯卡對於光線追蹤的效能,擁有第 3 代 RT Core 的 RTX 4090 絕對是神一般的存在,測試得分為 25995 大幅壓倒 RTX 3090 Ti 與 RX 6950 XT。
Port Royal | |
---|---|
Radeon RX 6950 XT | 10789 |
GeForce RTX 3090 Ti | 14771 |
GeForce RTX 4090 | 25995 |
遊戲效能測試:
以下的遊戲測試除另外指明外,全部皆以 3840 x 2160 解析度全螢幕執行,畫質皆設定為最高品質,若遊戲支援光線追蹤技術則同時將光追特效全開。而 DLSS 方面則統一使用 Performance 設定,當中 GeForce RTX 4090 亦會啟用 DLSS 3 中新增的 Frame Generation 技術。
A Plague Tale : Requiem 瘟疫傳說:安魂曲
4K + DLSS Off | 4K + DLSS On | |
---|---|---|
GeForce RTX 3090 Ti | 44.9 | 80.4 |
GeForce RTX 4090 | 78.5 | 174.9 |
Cyberpunk 2077 (New RT Overdrive)
4K RT + DLSS OFF | 4K RT + DLSS On | |
---|---|---|
GeForce RTX 3090 Ti | 24.1 | 66.4 |
GeForce RTX 4090 | 43.2 | 149.8 |
F1 22
4K RT + DLSS OFF | 4K RT + DLSS ON | |
---|---|---|
GeForce RTX 3090 Ti | 60 | 137 |
GeForce RTX 4090 | 96 | 232 |
Justice Online 逆水寒
4K RT + DLSS Off | 4K RT + DLSS On | |
---|---|---|
GeForce RTX 3090 Ti | 7.9 | 26.6 |
GeForce RTX 4090 | 51.4 | 110.7 |
Microsoft Flight Simulator 微軟模擬飛行
4K + DLSS OFF | 4K + DLSS ON | |
---|---|---|
GeForce RTX 3090 Ti | 54.1 | 81.7 |
GeForce RTX 4090 | 77.4 | 169.9 |
Tom Clancy's Rainbow Six Siege 虹彩六號:圍攻行動
1080P | 2K | 4K | |
---|---|---|---|
GeForce RTX 3090 Ti | 592 | 513 | 321 |
GeForce RTX 4090 | 613 | 586 | 517 |
Unreal Engine 5 : Lyra Demo
4K RT + DLSS Off | 4K RT + DLSS On | |
---|---|---|
GeForce RTX 3090 Ti | 58.1 | 114.3 |
GeForce RTX 4090 | 90.7 | 197.2 |
DaVinci Resolve Studio 18 硬體編碼效能測試:
除了遊戲性能的提升外,對於許多創作者來說顯示卡的硬體的編解碼速度同樣重要。NVIDIA GeForce RTX 4090 就擁有兩個第 8 代 NVENC 編碼器,不但新增了 AV1 編碼能力,在 H.264 及 H.265 編碼速度上亦有明顯的提升。
測試採用 DaVinci Resolve Studio 18 影片剪輯軟體,分別使用 GeForce RTX 4090 及 RTX 3090 Ti 以 H.265 及 AV1 編碼格式各輸出一條 4K 及 8K 的影片,結果顯示 RTX 4090 的 H.265 編碼速度比 RTX 3090 Ti 快了一倍以上,而在 AV1 編碼上更比 RTX 3090 Ti 快了 N 倍,因為 RTX 3090 Ti 根本不支援 AV1 硬體編碼。
測試項目 | GeForce RTX 3090 Ti FE | GeForce RTX 4090 FE |
---|---|---|
4K30 - H.265 | 00 : 32 | 00 : 14 |
8K30 - H.265 | 01 : 55 | 00 : 46 |
4K30 - AV1 | 不支援 | 00 : 14 |
8K30 - AV1 | 不支援 | 00 : 50 |
*結果為輸出影片完成時間,時間越短代表編碼速度越快。
編輯評語︰
NVIDIA GeForce RTX 4090 將遊戲性能帶到另一個高度,讓所有 3A 遊戲大作也可以用 4K 解析度 + RTX On 運作,尤其在 DLSS 3 模式下其性能更是跳躍式成長,現時已知悉會有 35 款遊戲支援 DLSS 3,年底前將會有 100 款遊戲支援。
相信在 RTX 40 系列推動下,RT On 將會變成玩遊戲的基本配置,不過 NVIDIA 真的需要在 GPU 功耗方面多下功夫,450W 已經有點誇張了。
以上內容及測試數據為 HKEPC 獨家授權給 UNIKO's Hardware 編譯