NVIDIA 正式發佈 GeForce RTX 5090 顯示卡,採用全新 GB202 繪圖核心、升級新一代 Blackwell GPU 微架構,CUDA Core 增加至 21,760 個 、第 4 代 RT Core、第 5 代 Tensor Core 及 32GB GDDR7 記憶體。全新的神經渲染架構與 RTX 神經著色器開啟了生成式 AI 遊戲渲染新世代,加上 DLSS 4 的多幀生成功能令 FPS 幀率大幅提升。以下為各位介紹顯示卡的架構與技術資訊。
GeForce RTX 50 系列登場
終於來了 !! NVIDIA 在 24 日正式發佈首款採用 Blackwell GPU 架構、核心代號 GB202 的旗艦級 GeForce RTX 5090 / RTX 5090 D 顯示卡。由於摩爾定律逐漸失效,傳統 GPU 設計已經無法以原生渲染方式維持理想的遊戲幀率,因此 NVIDIA 與遊戲業界正朝向 Neural Rendering 神經渲染技術發展,將 AI 技術導入遊戲應用中。Microsoft 亦宣布在未來的 DirectX 中正式支援向量運算協作,完全解放 Tensor Cores 用於遊戲運算,PC 遊戲界正迎來重大變革。
因此,NVIDIA 新一代 Blackwell GPU 非常著重於 Neural Rendering 神經渲染的性能提升,透過原生傳統渲染的一小部分成本生成絕大多數圖元。配合 DLSS 4 超解析度和 MFG 多幀生成技術,大幅提高遊戲幀率;再透過 DLSS 光線重建 (RR),通過使用先進的 AI 方法對缺失的細節進行降噪和重建,以更低的運算成本和記憶體佔用達成原生渲染級畫質。
此外,全新 Neural Rendering 神經渲染與 Neural Shaders 神經著色技術將加速遊戲開發人員對 AI 的應用,例如即時生成和建立各種地形、物理模擬、更複雜的 NPC 角色行為,甚至即時生成遊戲背景故事等等。Blackwell GPU 正在改變整個 PC 遊戲的生態發展。
與上代相比,NVIDIA Blackwell GPU 在 Shader Cores 性能提升大約為 20~25%,雖然幅度不算顯著,但在 RT Core 和 Tensor Core 的全新 FP4 技術支持下,遊戲性能卻能實現倍數增長。以下是 Blackwell GPU 的主要關鍵創新:
- 為神經渲染而生的全新 SM 單元︰大幅增強神經渲染運算能力。與 NVIDIA Ada GPU 相比,NVIDIA RTX Blackwell SM 在每個時鐘週期的整數數學輸送量提高了一倍,這對於提高神經著色中至關重要的位址生成工作負載性能極為有利。
- 全新第 4 代 RT Core︰Blackwell GPU 對 RT Core 架構進行了重大革新,帶來全新的光線追蹤體驗和神經渲染技術,進一步提升圖形性能。
- 全新第 5 代 Tensor Core︰引入全新的 FP4 功能,能將 AI 輸送量提升一倍,同時將記憶體需求減半。此外,Blackwell 的資料中心級 GPU 還搭載第二代 FP8 Transformer 引擎,進一步提升處理效能。
- NVIDIA DLSS 4︰全新 NVIDIA RTX Blackwell 架構支援 AI 多幀生成功能,能將 DLSS 4 的幀速率提升至上一代 DLSS 3 / 3.5 的兩倍,同時保持甚至超越原生畫質,並確保低系統延遲。
- RTX 神經著色器︰引入小型神經網路至可程式化著色器,開啟 GPU 圖形運算的新時代,為遊戲開發者提供更靈活的創作工具。
- AI 管理處理器 (AMP)︰AMP 支援多個 AI 模型 (包括語音、翻譯、視覺、動畫、行為等) 與圖形工作負載同時共用 GPU,提升多任務處理能力。
- GDDR7 記憶體︰採用全新的超低電壓 GDDR 顯示記憶體標準,並使用 PAM3 (脈衝幅度調製) 訊號技術,實現更高速的顯示記憶體子系統,同時進一步提升能效。
- Mega Geometry 技術︰一種新的 RTX 技術,旨在大幅提升光線追蹤應用中的幾何細節,帶來更逼真的視覺效果。
GeForce RTX 50 新卡定價
定價方面,NVIDIA 將會於 1/30 正式發佈 GeForce RTX 5080 及 GeForce RTX 5090 / 5090 D 顯示卡。GeForce RTX 5080 型號基於 GB203 繪圖核心,擁有 10,752 個 CUDA Cores、16GB GDDR7 記憶體,MSRP 定價 US$ 999。官方宣稱其性能等同於 RTX 4080 的兩倍。GeForce RTX 5090 / 5090 D 型號則基於 GB202 繪圖核心,擁有 21,760 個 CUDA Cores、32GB GDDR7 記憶體,MSRP 定價 US$ 1,999,官方聲稱可實現 4K 240Hz 特效全開並啟用 Path Tracing。
緊接著,NVIDIA 將於 2 月發佈 GeForce RTX 5070 及 GeForce RTX 5070 Ti 顯示卡。兩者同樣採用 GB205 繪圖核心。GeForce RTX 5070 型號擁有 6,144 個 CUDA Cores、12GB GDDR7 記憶體,MSRP 定價 US$ 549,官方聲稱其性能等同於 RTX 4090。GeForce RTX 5070 Ti 型號則擁有 8,960 個 CUDA Cores、16GB GDDR7 記憶體,MSRP 定價 US$ 749,官方宣稱其性能等同於 RTX 4070 Ti 的兩倍。需要注意的是,以上性能宣稱均基於 DLSS 4 的情況下作出的。
TSMC 4N 製程、NVIDIA GB202 繪圖核心
NVIDIA GB202 繪圖核心基於全新 Blackwell 微架構,並應用於 GeForce RTX 5090 系列產品之中。由於今代仍然維持採用 TSMC 4N 製程,CUDA Core 運算單元的提升幅度並沒有上代那麼明顯,加上時脈反而有所下降,傳統光柵圖形運算性能提升約 20~25%。因此,今代主要的遊戲性能提升來自第 4 代 RT Cores 與第 5 代 Tensor Cores,光線追蹤性能以及神經渲染運算能力大約提升了近 1 倍。
GB202 GPU 晶片尺寸由 AD102 的 608 mm² 大幅增至 750 mm²,已達 Max Reticle Area 的 87%。電晶體數目亦由 763 億個增至 922 億個。完整的 GB202 晶片包含了 12 個圖形處理集群 (GPC)、96 個紋理處理集群 (TPC)、192 個串流多處理器 (SM),總計 24,576 個 CUDA Cores、192 個 RT Cores、768 個 Tensor Cores 及 768 個 Texture Units。
GB202 GPU 還包括 384 個 FP64 核心 (每個 SM 配備兩個),這些核心並未在上圖中描繪。此外,FP64 的 TFLOP 速率是 FP32 操作 TFLOP 速率的 1/64,並包含少量 FP64 核心及極少量的 FP64 Tensor Core,以確保任何用到 FP64 的程式能夠正常運作。
值得注意的是,GeForce RTX 5090 所採用的 GB202-300 晶片大約遮蔽了 11.5% 的運算單元,減少至僅有 11 個 GPC 單元、85 個 TPC 紋理處理群集及 170 個 SM 串流多處理器,總計 21,760 個 CUDA Cores、170 個 RT Cores 及 680 個 Tensor Cores。
在核心時脈方面,由於 GPU 規模進一步提升,因此時脈相較上代略有下降。GeForce RTX 5090 的預設時脈為 2,017MHz,Boost 時脈為 2,407MHz,最高 TGP 為 575W。
此外,GeForce RTX 5090 採用了 28Gbps 的 GDDR7 記憶體,配備 512-bit 記憶體介面,總頻寬達 1,792GB/s,L2 Cache 容量大幅增加至 96MB。如此大的 Cache 快取容量令所有應用程式均能受益,尤其是在光線追蹤 (特別是路徑追蹤) 等複雜操作中,將帶來巨大的性能提升。
GeForce RTX 5090 vs GeForce RTX 4090 vs GeForce RTX 3090 規格
Graphics Card | NVIDIA GeForce RTX 3090 | NVIDIA GeForce RTX 4090 | NVIDIA GeForce RTX 5090 |
GPU Codename | GA102 | AD102 | GB202 |
GPU Architecture | NVIDIA Ampere | NVIDIA Ada Lovelace | NVIDIA Blackwell |
GPCs | 7 | 11 | 11 |
TPCs | 41 | 64 | 85 |
SMs | 82 | 128 | 170 |
CUDA Cores / SM | 128 | 128 | 128 |
CUDA Cores / GPU | 10496 | 16384 | 21760 |
Tensor Cores / SM | 4 (3rd Gen) | 4 (4th Gen) | 4 (5th Gen) |
Tensor Cores / GPU | 328 (3rd Gen) | 512 (4th Gen) | 680 (5th Gen) |
RT Cores | 82 (2nd Gen) | 128 (3rd Gen) | 170 (4th Gen) |
GPU Boost Clock (MHz) | 1695 | 2520 | 2407 |
Peak FP32 TFLOPS (non-Tensor) | 35.6 | 82.6 | 104.8 |
Peak FP16 TFLOPS (non-Tensor) | 35.6 | 82.6 | 104.8 |
Peak BF16 TFLOPS (non-Tensor) | 35.6 | 82.6 | 104.8 |
Peak INT32 TOPS (non-Tensor) | 17.8 | 41.3 | 104.8 |
RT TFLOPS | 69.5 | 191 | 317.5 |
Peak FP4 Tensor TFLOPS with FP32 Accumulate (FP4 AI TOPS) | N/A | N/A | 1676/3352 |
Peak FP8 Tensor TFLOPS with FP16 Accumulate | N/A | 660.6/1321.2 | N/A |
Peak FP8 Tensor TFLOPS with FP32 Accumulate | N/A | 30.3/660.6.2 | 419/838 |
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 142.3/284.6 | 330.3/660.6 | N/A |
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 71.2/142.4 | 165.2/330.4 | 209.5/419 |
Peak BF16 Tensor TFLOPS with FP32 Accumulate | 71.2/142.4 | 165.2/330.4 | 209.5/419 |
Peak TF32 Tensor TFLOPS¹ | 35.6/71.2 | 82.6/165.2 | 104.8/209.5 |
Peak INT8 Tensor TOPS¹ | 284.7/569.4 | 660.6/1321.2 | 838/1676 |
Frame Buffer Memory Size and Type | 24 GB GDDR6X | 24 GB GDDR6X | 32 GB GDDR7 |
Memory Interface | 384-bit | 384-bit | 512-bit |
Memory Clock (Data Rate) | 19.5 Gbps | 21 Gbps | 28 Gbps |
Memory Bandwidth | 936 GB/sec | 1008 GB/sec | 1792 GB/sec |
ROPs | 112 | 176 | 176 |
Pixel Fill-rate (Gigapixels/sec) | 189.8 | 443.5 | 423.6 |
Texture Units | 328 | 512 | 680 |
Texel Fill-rate (Gigatexels/sec) | 555.96 | 1290.2 | 1636.8 |
L1 Data Cache/Shared Memory | 10496 KB | 16384 KB | 21760 KB |
L2 Cache Size | 6144 KB | 73728 KB | 98304 KB |
Register File Size | 20992 KB | 32768 KB | 43520 KB |
Video Engines | 1 x NVENC (7th Gen) 1 x NVDEC (5th Gen) | 2 x NVENC (8th Gen) 1 x NVDEC (5th Gen) | 3 x NVENC (9th Gen) 2 x NVDEC (6th Gen) |
TGP (Total Graphics Power) | 350 W | 450 W | 575 W |
Transistor Count | 28.3 Billion | 76.3 Billion | 92.2 Billion |
Die Size | 628.4 mm² | 608.5 mm² | 750 mm² |
Manufacturing Process | Samsung 8nm Custom Process | TSMC 4nm 4N NVIDIA Custom Process | TSMC 4nm 4N NVIDIA Custom Process |
PCI Express Interface | Gen 4 | Gen 4 | Gen 5 |
經改良的 Blackwell SM 單元
GPC 是 NVIDIA GPU 中最頂層的硬體塊,所有關鍵圖形處理單元都位於 GPC 中。 Blackwell GPU 每個 GPC 包括 1 個專用的光柵引擎、 2 個光柵操作 (ROP) 分區,每個分區包含 8 個單獨的 ROP 單元和 8 個 TPC,每個 TPC 包括 1 個 PolyMorph 引擎和 2 個 SM 單元。
完整的 GB202 GPU 擁有 128 MB 的 L2 快取,而 RTX 5090 則有 96 MB 的 L2,所有應用程式都受益於如此大的快取記憶體池,並且光線追蹤 (尤其是路徑追蹤) 等複雜操作將產生巨大的好處。
NVIDIA 串流多處理器 (SM) 是 NVIDIA GPU 架構的核心元件,在 GPU 的並行處理能力中發揮著關鍵作用,通過其各種內核 (CUDA、Tensor、RT) 實現大規模並行性、高效的 warp 調度、記憶體管理,並支援 AI 等現代工作負載。每個完整的 GB202 晶片包含 192 個 SM,每個 SM 包括 128 個 CUDA 核心、1 個 Blackwell 第四代 RT Core、4 個 Blackwell 第五代 Tensor Core、4 個 Texture Units、 1 個 256 KB 暫存器和 128 KB 的 L1/共用記憶體,可以根據圖形和計算工作負載的需求分配不同的記憶體大小。
相較上代 Ada Lovelace 的 SM 設計,每個分區的 32 個 CUDA Core 當中 16 個是專門於處理 FP32 操作,另外 16 個可選擇處理 FP32 或 INT32 操作,所以每個分區可提供 32 個 FP32 指令或 16 個 INT32 + 16 個 FP32 指令。新一代 Blackwell 的 SM 設計作出了更改,每個分區同樣是 32 個 CUDA Core 但全部可以執行處理 FP32 或 INT32 操作,因此 Blackwell 的 INT32 整數運算數量與 Ada Loverlace 相比增加了一倍,由上代 41.3 TOPS 提升至 104.8 TOPS。
Texture Units 的數量也從 GeForce RTX 4090 的 512 個增加到 GeForce RTX 5090 的 680 個。Texture Units 的主要功能是處理紋理映射操作,包括提取紋素、應用紋理篩選以及處理座標。隨著 Texture Units 的增加,Blackwell 在雙線性過濾的紋素速率大幅提升,相比 GeForce RTX 4090 每秒 1290.2 Gigatexels/s 的性能,GeForce RTX 5090 提升至 1636.76 GT/s。
Blackwell 的 Texture Units 在每個週期的紋理採樣性能相比 Ada Lovelace 提高了一倍,這主要得益於加速部份紋理訪問的演算法改進,例如與 Blackwell 神經紋理壓縮方法一同使用的隨機紋理過濾 (STF)。因此,GeForce RTX 5090 在 Texture 性能上實現了顯著的提升。
升級至 Blackwell 第 5 代 Tensor Cores
Tensor Core 是 NVIDIA GPU 專用的高性能運算核心,專為滿足 AI 和 HPC 應用程式中矩陣乘法和累加數學運算的需求而設計。它對深度學習神經網絡的訓練和推理操作至關重要。與 Ada Lovelace 架構的 Tensor Core 一樣,Blackwell 的 Tensor Core 支援 FP16、BF16、TF32、INT8、INT4,以及 Hopper 的 FP8 Transformer 引擎。而 Blackwell 更進一步,新增了對 FP4 和 FP6 的 Tensor Core 操作支援,並引入了第二代 FP8 Transformer 引擎,其功能與資料中心級 Blackwell GPU 完全一致。
其中最值得關注的是對 FP4 格式的新增支援。隨著 AI 模型參數和大小的逐漸增加,對 GPU 性能及記憶體容量的需求也在快速上升,即使是最新硬件也可能面臨挑戰。GeForce RTX 50 系列透過其全新 Tensor Core 引入了對 FP4 資料格式的支援。FP4 提供了一種更低的量化方法,類似於檔案壓縮,可顯著縮小模型大小。
與 FP16 精度相比 (大多數模型預設使用的精度方法),FP4 精度僅需要不到一半的記憶體空間。同時,GeForce RTX 50 系列 GPU 的性能是在上一代的兩倍以上。當 AI 模型選擇 FP4 格式,並使用 NVIDIA TensorRT Model Optimizer 提供的高級量化技術時,輸出的作品幾乎不會有品質下降。
舉例來說,Black Forest Labs 的 FLUX.dev 模型在使用 FP16 精度時需要超過 23GB 的 VRAM,這意味著只有 GeForce RTX 4090、RTX 5090 和專業級 GPU 才能支援。然而,在使用 FP4 格式後,FLUX.dev 需要的記憶體降至不到 10GB,這使得更多 GeForce RTX GPU 能夠在本機使用該模型。
性能方面,使用 FP16 的 GeForce RTX 4090,FLUX.dev 模型可以在 15 秒內完成 30 個步驟生成圖像。而使用 FP4 的 GeForce RTX 5090,只需約 5 秒即可完成相同的生成操作。
升級第 4 代 RT-Cores 單元
為了令遊戲場景變得更加逼真,場景及物件的光影細節至關重要。光線追蹤技術可實現物理上精確的照明、陰影和反射,從而創建與現實緊密相關的虛擬環境。遊戲開發商可以透過增加幾何細節以及使用各種高階著色技術,來提升遊戲畫面的真實感。與舊代 Turing、Ampere 和 Ada Lovelace 的 RT Cores 相比,Blackwell 的 RT Cores 提供了 2 倍的資料結構遍歷運算能力。
NVIDIA 工程師針對 Blackwell GPU 的第 4 代 RT Cores 新增了多項重要功能,以支援高度複雜幾何體的高效光線追蹤,包括全新的 Mega Geometry 技術、升級的 Triangle Cluster Intersection 引擎,以及全新的 Linear Swept Spheres 硬體加速路徑。這些專用光線追蹤資源能將部分工作從 SM (串流多處理器) 中卸載,讓 SM 能夠專注於執行其他圖元、頂點和渲染任務,進一步提升整體性能。
此外,Blackwell GPU 追加全新 Mega Geometry 技術,旨在大幅增加光線追蹤應用中的幾何細節。特別是,Mega Geometry 使 Epic 的虛幻引擎 5 等遊戲引擎,能夠以全保真度對幾何體進行光線追蹤,這些引擎採用 Nanite 等現代細節級別 (LOD) 系統,無需將光線追蹤效果的低解析度代理,從而將陰影、反射和間接照明的品質提升到新的水準。
Mega Geometry 還有助於將以前用於生產渲染的技術 (例如置換的細分曲面) 引入即時光線追蹤領域,遊戲引擎可以在 GPU 上高效運行 LOD 選擇、動畫、剔除等邏輯,同時最大限度地減少與 CPU 的往返。通過有效使用 Mega Geometry API,應用程式幾乎可以消除 CPU 的開銷。
著色器執行重新排序 (SER) 2.0
為了讓光線追蹤運算更加高效,NVIDIA 工程師在 Ada Lovelace GPU 中引入了著色器執行重新排序 (Shader Execution Reordering,簡稱 SER) 技術。SER 能夠有效重組 GPU 上的大規模並行線程,以實現硬體的最大化利用率。這項技術在 GPU 處理需要大量記憶體訪問分歧的光線追蹤工作負載 (例如 Path Tracing) 時,特別有效。
在 Blackwell GPU 架構中,NVIDIA 將 SER 技術升級至 2.0,並通過硬體和軟體的多項創新進一步增強其功能。SER 2.0 的核心重新排序邏輯效率提高了一倍,從而減少了光線追蹤重新排序時的開銷,並顯著提升其精度。更高的精度能實現更一致的資料提取,從而進一步提升整體的 RT 性能。
SER 2.0 完全由應用程式透過簡單的 API 控制,使遊戲開發商能夠輕鬆將重新排序技術整合至開發流程中。該 API 還能將光線追蹤著色器調用納入程式設計模型中,進一步提升靈活性和渲染效率。一些已經具備 Path Tracing 功能的遊戲如果使用了 SER 技術,將能夠直接在 Blackwell GPU 的 SER 2.0 中獲得性能提升,而無需更改任何現有程式碼。
新增 AI Management Processor (AMP)
過去,不論是 AI 程式還是遊戲,都需要由 CPU 進行指令調度。然而,NVIDIA 工程師在 Blackwell GPU 中新增了 AI Management Processor (AMP),以更高效地管理在 GPU 上運行的不同工作負載。尤其是在多任務處理的情況下,例如 GPU 同時進行遊戲渲染與 AI 模型運算工作 (包括 Avatar Cloud Engine 的語音、翻譯、視覺、動畫和行為模型等),AMP 能夠更好地隔離這些任務,確保多個應用程式能夠同時共用 GPU 資源而不發生衝突。
Blackwell GPU 的 AMP 單元由專用的 RISC-V 處理器構成,位於 GPU 管道的前端。相比傳統由 CPU 驅動 GPU 任務的方法,AMP 單元使 GPU 可以更高效地管理自身的記憶體,從而減少延遲並可能提升遊戲和其他圖形密集型應用程式的運算性能。
簡而言之,AMP 的主要功能是接管由 CPU 調度 GPU 任務,減少 PC 系統對 CPU 的依賴,特別是在避免 CPU 成為遊戲性能瓶頸方面發揮了重要作用。實際上,允許 GPU 自行管理任務佇列能夠顯著降低 GPU 延遲,因為 GPU 和 CPU 之間的頻繁通訊通常會產生較高的延遲。AMP 的引入使得遊戲可以實現更流暢的幀速率,並讓 Windows 系統中的多任務處理更加高效,同時減輕了 CPU 的負擔。
對於 DLSS 4 的多幀生成運算,Blackwell GPU 透過 AMP 能夠有效調度 AI 和遊戲圖形的工作負載,提供更快的反應時間以防止輸入延遲或卡頓現象,從而確保遊戲的反應速度和流暢性不會受到影響。
Blackwell 的絕招︰DLSS 4 多幀生成 (MFG)
由於摩爾定律逐漸失效,傳統 GPU 設計已難以透過原生渲染方式維持理想的遊戲幀率,DLSS 幀生成技術已成為 PC 遊戲業界的最佳解決方案。通過神經渲染技術,利用 AI 提高 FPS、減少延遲並提升圖像品質。
新一代 Blackwell GPU 推出了最新的 DLSS 4 技術,支援全新的 MFG (多幀生成) 技術。透過第 5 代 Tensor Core,新增了 FP4 精度支援,令 GPU 可以實現更高的性能及更低的記憶體使用量。此外,它結合了改進的 Transformer 模型,包括超解析度 (SR)、光線重建 (RR) 及深度學習抗鋸齒 (DLAA),進一步提升 PC 遊戲的畫面品質。
Frame Generation 技術最早於 2022 年隨 GeForce RTX 40 系列的 Ada Lovelace 架構推出,利用光流場、遊戲運動向量及 AI 模型,於每個傳統渲染幀之間生成額外的幀。Blackwell GPU 架構專為神經渲染而設計,配備第五代 Tensor Core,使 DLSS 多幀生成技術可在每個傳統渲染幀之間生成多達三個額外幀,顯著提升 FPS 表現。
上代 DLSS 3 技術透過 Tensor Core 的 FP8 運動向量運算及硬體光流加速器,在幀與幀之間插入由 AI 運算生成的新幀。啟用 DLSS 3 後,AI 會使用 DLSS 超解析度重建第一幀的 3/4,並利用 DLSS AI 幀生成重建整個第二幀,從而重建了總顯示像素的 7/8,為遊戲性能帶來顯著改善。
新一代 DLSS 4 的多幀生成 (DLSS 4 Multi Frame Generation) 技術結合了第五代 Tensor Core 與 DLSS 軟體創新,實現了多幀生成。使用全新的 FP4 幀生成 AI 模型,與之前的 FP8 幀生成方法相比,速度提升了 40%,VRAM 使用量減少了 30%。此外,改用高效的 AI 模型取代硬體光流加速器,大幅加快光流生成速度,令每個渲染幀可以生成多個幀。DLSS 4 可重建總顯示像素的 15/16,相較上一代 DLSS 3 性能提升近一倍。
另外,上一代 DLSS 3 的幀生成採用了基於 CPU 的調度方式,其可變性可能導致幀與幀之間的同步不一致,影響反應速度及流暢度。為了解決生成多幀的複雜性,Blackwell GPU 引入了 AI Management Processor (AMP) 單元,將幀同步邏輯轉移至 GPU 的顯示引擎,使 GPU 能更精確地管理顯示時間,並更有效地調度 DLSS AI 處理、圖形渲染及幀同步演算法。
DLSS 4 引入 Transformer AI Models
NVIDIA 自 2020 年推出 DLSS 2 後,開始採用名為卷積神經網路 (CNN) 的技術。CNN 的運作原理是將圖元局部聚合,以樹狀結構形式從較低層級到較高層級分析資料,並追蹤這些區域在連續幀中的變化以生成新像素。到了 Blackwell GPU,NVIDIA 工程師進一步引入了更強大的基於 Transformer 的 AI 模型,應用於 DLSS 超解析度 (SR)、DLSS 光線重建 (RR) 及深度學習抗鋸齒 (DLAA)。這些模型透過 NVIDIA 的超級電腦進行訓練,能更準確地理解和渲染複雜場景,顯著提升圖像品質及渲染流暢度。
基於 Transformer 的 AI 模型擅長處理涉及順序資料及結構化資料的任務,能夠評估每個像素在整體幀及多個幀中的相對重要性。新的 Transformer 模型雖然採用了 CNN 模型的兩倍參數,但運算速度卻提升了四倍,並且能利用更多的 Tensor Core 進行平行處理,進一步提升圖像重建的品質。這使得幀與幀之間的穩定性提高,照明細節顯著增強,運動中的細節更加豐富,令圖像品質在多數情況下實現了顯著的飛躍。
在使用大量光線追蹤的內容中,全新的 DLSS 光線重建 (RR) 透過 Transformer 模型可大幅提升影像畫質,尤其在光線條件嚴苛的場景更是如此。例如,在《Alan Wake 2》的這些場景中,相較 CNN 模型能帶來更細緻的鐵絲網,風扇上的重影也減少、電力線上的閃爍也消失了,玩家能夠更融入在遊戲世界當中。
在《Horizon Forbidden West》中,全新的 DLSS 超解析度 (SR) 技術透過 Transformer 模型,可進一步提升角色服裝與配件的紋理細節及整體清晰度。它利用 AI 從較低解析度的輸入生成更高解析度的幀以提高性能,並使用運動資料及來自前一幀的回饋來構建高品質的圖像。與之前的 CNN 模型相比,Transformer 模型生成的圖像在時間上更加穩定,重影更少,運動中的細節更多,並且抗鋸齒功能有所改進。
75+ 款遊戲已支援 DLSS 4
根據 NVIDIA 的說法,DLSS 多幀生成功能與最新 Transformer 模型可向下相容於現有的 DLSS 技術。當 GeForce RTX 50 系列顯示卡上市時,已有超過 75 款遊戲支援 DLSS 4 多幀生成功能以提升效能,另有 50 多款遊戲支援 Transformer 模型的 DLSS 光線重建、DLSS 超解析度及 DLAA 技術。
對於尚未更新至最新 DLSS 4 模型與功能的遊戲,玩家可透過 NVIDIA App 的全新 DLSS Override 功能獲得支援。GeForce RTX 50 使用者只需安裝最新的 GeForce Game Ready 驅動程式及 NVIDIA App 更新,即可在 NVIDIA App 中找到各款遊戲的 DLSS Override 選項,親身體驗 DLSS 4 帶來的性能與畫質提升。
Blackwell GPU 經改良的顯示引擎
大家知道嗎?影片檔案是使用 YUV 顏色格式,顏色不是儲存為紅色、綠色和藍色 (RGB) 值,而是儲存為明亮度 (Y)、藍色差異色度 (U) 和紅色差異色度 (V)。上代 GeForce RTX 40 或以前的 GPU,在 H.264 和 H.265 視訊中同時支援 4:4:4 和 4:2:0 色度格式,但新一代 GeForce RTX 50 的 Blackwell GPU 追加了 4:2:2 色度採樣視頻的硬體編碼和解碼支援。
究竟 GeForce RTX 50 支援 YUV 4:2:2 有什麼值得拿出來討論?事實上,色度採樣利用了人類眼睛對亮度變化比色彩更敏感的特性。在 YUV 4:4:4 影片中,所有色度保留完整的值,但這會導致檔案變得相當大,並且傳輸影像資料所需的頻寬更高。對於 YUV 4:2:0 影片,明亮度通道中保留完整資訊,但兩個色度通道僅包含 25% 的原始顏色資訊,代價就是顏色資訊的損失。儘管如此,目前大部分主流影音平台仍以 YUV 4:2:0 格式提供串流影片內容。
NVIDIA 加入 YUV 4:2:2 硬體編碼和解碼支援,能在保留更多顏色資訊的同時,於檔案大小和頻寬要求之間取得平衡。在 YUV 4:2:2 影片中,完整的明亮度值得以保留,同時保留一半的原始色度資訊。YUV 4:2:2 檔案大小僅為未壓縮的 4:4:4 視訊幀的 2/3,但顏色解析度卻是 YUV 4:2:0 色度壓縮幀的 2 倍。
由於 YUV 4:2:2 色度採樣提供比 4:4:4 更低的資料需求,但卻比 4:2:0 更高的色彩精度,因此它已成為高階專業創作者和專業攝像師的熱門選擇。然而,基於 YUV 4:2:2 只支援軟體編碼及解碼,會對系統 CPU 帶來高負載,但新一代 GeForce RTX 50 GPU 可以完美解決此問題。
第 9 代 NVENC + 第 6 代 NVDEC
新一代 Blackwell GPU 升級至第 9 代 NVENC 編碼器,為 AV1 和 HEVC 的 BD-BR PSNR 影像品質提升 5%,並增加了對 YUV 4:2:2 的 H.264 和 HEVC 編碼支援。此外,第 9 代 NVENC 編碼器還新增了 AV1 超高品質 (UHQ) 模式,可進一步提供額外 5% 的影片品質改進。
除了品質上的進步,GeForce RTX 5090 配備 3 個第 9 代 NVENC 編碼器,相較於 GeForce RTX 4090 的 2 個第 8 代 NVENC 編碼器,多出一個,因此編碼速度提升 50%。若與只有 1 個第 7 代 NVENC 編碼器的 GeForce RTX 3090 比較,編碼速度提升達 4 倍。
在解碼方面,Blackwell GPU 具備經改良的第 6 代 NVDEC 硬體解碼器,H.264 解碼速度提升 2 倍 (與 HEVC 和 AV1 解碼速度相匹配),並支援 4:2:2 的 H.264 和 HEVC 解碼。
升級至 Display Port 2.1b 連接埠
Blackwell GPU 引入了對 DisplayPort 2.1b 的支援,利用 UHBR 20 (超高位元率,每通道 20Gbps) 傳輸模式提供高達 80Gbps 的頻寬。DisplayPort 2.1b UHBR 20 可支援高解析度螢幕以盡可能高的更新率運作:8K (7680x4320) @ 165Hz (需要 DSC) 和 4K (3840x2160) @ 480Hz (需要 DSC)。請注意,達到最高鏈路速率需要具備 DP80LL 認證的影像傳輸線。
以上內容及測試數據為 HKEPC 獨家授權給 UNIKO's Hardware 編譯