NVIDIA 正式發佈全新 GeForce RTX 4070 顯示卡,採用 AD104-250 繪圖核心,具備 5,888 個 CUDA Core、46 個 RT Core 及 184 個 Tensor Core,擁有 192bit 記憶體介面、12GB GDDR6X 記憶體,最高 TDP 僅 200W,定價 USD 599,NVIDIA 表示在 DLSS 3 下性能是 RTX 3080 的 140%,那沒有使用 DLSS 呢 ? 以下將以 RTX 3070 Ti / RTX 3080 進行比對測試,讓大家一窺 RTX 4070 的效能表現。
GeForce RTX 4070 技術架構
NVIDIA AD104-250 繪圖核心
NVIDIA AD104 繪圖核心基於全新 Ada Lovelace 微架構,並用於 GeForce RTX 4070 與 RTX 4070 Ti 產品之中,性能提升主要來自 FP32 運算單元數目及時脈倍增,更大的 L2 Cache 容量及全新著色器執行排序技術,升級第 3 代 RT Cores、升級第 4 代 Tensor Cores,與上代比較 Ampere GPU 微架構比較,傳統光柵圖形運算提高了 2 倍,同時在光線追蹤性能上提升近 4 倍。
採用 TSMC 4N NVIDIA Custom 製程,擁有 358 億個電晶體、 Die Size 294.5mm² 與上代 GeForce RTX 3060 的 GA106-300 Die Size 276mm² 接近,完整的 AD104 晶片內建 5 個 GPC 單元、 30 個 TPC 紋理處理群集及 60 個 SM 串流多媒體處理器,具備 7,680 個 CUDA Cores、60 個 RT Cores 及 240 個 Tensor Cores。
GeForce RTX 4070 採用 AD104-250 繪圖核心作出了刪減,降至 4 個 GPC 單元、但減至 23 個 TPC 紋理處理群集及 46 個 SM 串流多媒體處理器,具備 5,888 個 CUDA Cores、46 個 RT Cores、184 個 Tensor Cores、184 個 Texture Unit 及 64 個 ROP。
核心時脈方面,採用 TSMC 4N 製程令這代 Ada Lovelace 的核心時脈可大幅提升,NVIDIA GeForce RTX 4070 FE 預設時脈 1,920MHz、Boost 時脈為 2,475MHz,最高 TDP 為 200W。
記憶體方面,NVIDIA GeForce RTX 4070 與 RTX 4070 Ti 一樣維持 192-bit 記憶體介面,搭配 21Gbps GDDR6X 記憶體顆粒,最高記憶體頻寬為 504GB/s,雖然上代 GeForce RTX 3070 是採用 256-bit 記憶體,但採用較慢的 14Gbps GDDR6 記憶體顆粒,記憶體頻寬只有 448GB/s,相較 GeForce RTX 4070 為低。
此外,Ada Lovelace 其中一個重大改良是 L2 Cache 容量大幅增加,上代 RTX 3070 的 L2 Cache 只有 4096 KB,今代 RTX 4070 則大幅提升至 36864 KB,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲達並減少 GDDR6X 記憶體頻寬使用。
經改良的 Ada Lovelace 架構
GPC 是 NVIDIA GPU 中最頂層的硬體塊,所有關鍵圖形處理單元都位於 GPC 中。 Ada Lovelace 每個 GPC 包括 1 個專用的光柵引擎、 2 個光柵操作 (ROP) 分區,每個分區包含 8 個單獨的 ROP 單元和 6 個 TPC,每個 TPC 包括 1 個 PolyMorph 引擎和 2 個 SM。
AD102 GPU 中的每個 SM 包含 128 個 CUDA Core、 1 個 Ada Lovelace 第三代 RT 核心、4 個 Ada Lovelace 第四代 Tensor Cores、4 個 Texture 紋理單元、 1 個 256 KB 檔案暫存器和 128 KB 的 L1 / 共享記憶體,可根據圖形或計算工作負載需求分配成不同的記憶體大小。
與 Ampere GPU 一樣,AD102 的 SM 單元分為 4 個分區,每個分區包含 1 個 64 KB 檔案暫存器、一個 L0 指令快取、一個 warp 調度程序、一個調度單元、16 個專用於處理 FP32 的 CUDA 核心操作,每個週期最多可處理 16 個 FP32 操作,16 個可以處理 FP32 或 INT32 操作的 CUDA 核心,每個週期 16 個 FP32 操作或每個時鐘 16 個 INT32 操作, 4 個加載 / 存儲單元,以及執行超越和圖形插值指令的特殊功能的 SFU 單元,除了換上第 4 代的 Tensor Core 設計,FP 單元在微架構上並沒有太大變動。
與上代 Ampere GPU 相比,Ada Lovelace GPU 的 L2 Cache 進行了徹底改造,完整的 AD104 GPU 擁有高達 49152 KB 的 L2 Cache,相比 GA104 中的 4096 KB 提高了 10 倍,所有應用程式都將受益於擁有如此龐大、更高速的 L2 Cache,例如 Ray Tracing 光線追踪當中的路徑追踪之類的複雜操作將產生最大的好處,相較 AMD 的 Infinity Cache 作為 L3 Cache 擁有更高效率,能大幅升遊戲 Workload 資料命中率,降低讀取延遲並減少 GDDR6X 記憶體頻寬使用。
此外,AD104 GPU 受惠於 TSMC 4N 製程,在 NVIDIA 工程師與 TSMC 密切合作下令 AD104 包含的 CUDA 核心比上一代 GA104 更多,但 Die Size 卻縮減少約 24%,擁有高達 358 億個電晶體較上代多 51%,並且關鍵路徑中使用高速晶體管設計,令 AD104 GPU 時脈可運作於 2.5GHz 甚至更高,並提供了更出色的能耗比,RTX 4070 Ti 性能是 RTX 3070 Ti 的 1 倍,但功耗表現卻相約,如果啟用 RT + DLSS 3 技術後,性能提升甚至最高可達 2 倍。
升級第 3 代 Ray Tracing 引擎
Ray Tracing 光線追踪技術是一種密集型渲染技術,可以逼真地模擬場景及物件的光線,即時以物理方式渲染正確的反射、折射、陰影及間接照明效果。過去的 GPU 架構並無法對遊戲及圖形進行複雜的即時光線追踪處理,NVIDIA 經過過 10 年的研究及開發,終於在 GeForce RTX 20 的「Turing」GPU 微架構中加入硬體光線追踪加速引擎 —「RT Cores」,結合 NVIDIA RTX 軟體引擎,實現逼真的實時光線場景效果。
到了 GeForce RTX 30 系列的 Ampere GPU 升級了第 2 代的 RT Cores,BVH 遍歷與射線三角交測運算能力提升了 2 倍,第 1 代 Turning SM 在 Ray Tracing 運算時不能同時執行繪圖或運算,到了 Ampere SM 強化了異步運算能力,當執行 Ray Tracing 運算時可同步進行繪圖或運算,令 Ray Tracing 的遊戲執行效率大大提升。
來到 GeForce RTX 40 的 Ada Lovelace GPU 升級至第 3 代 RT Cores,它的 Triangle Intersection Engine 相較上代快 2 倍的 Ray-Triangle 相交吞吐量,能為遊戲場景中加入更多細節,同時有快 2 倍的 Alpha Traversal 處理能力,新增 Opacity Micromap Engine 直接對幾何物件進行 alpha 測試,並顯著減少基於著色器的 alpha 運算量。
在 Ada Lovelace GPU 之前,當光線扭曲投射到不同程度透明級別的物件時,例如葉子或火焰等複雜形狀通常使用紋素的 alpha 通道來表示,單個光線運算也可能需要多次著色器調用才能完成,即使光線只是簡單地表徵為命中或未命中都需要大量的運算成本。
為了更有效處理此類內容,NVIDIA 工程師在第 3 代 RT Core 中增加了 Opacity Micromap Engine,為非不透明物件產生微三角形的虛擬網格,每個微三角形都具有不透明狀態,RT Core 使用該狀態直接解析與非透明三角形的光線交叉點,令 Alpha 場景遍歷性能大幅提升,性能升幅很大程度取決於使用情況,如果場景出現大量投射在 alpha 測試幾何體上的陰影光線時會看到最大的收益。
第 3 代 RT Core 另一個重要提升是添加 Displaced Micro-Mesh Engine,透過將幾何結構換成微網格,利用 LOD 細節層進行光柵化,相較使用傳統三角幾何光線追蹤處理,不僅擁有更多細節,相較上代 BVH 數據構建速提升了 10 倍, BVH 所需資料容量減少了 20 倍,而且對複雜環境進行光線追踪時,追踪成本緩慢增加,幾何增加 100 倍可能只會增加 1 倍追踪時間。
上代 Ampere GPU 可能需要 1024 個三角幾何與複雜的 BVH 結構進行的光線追踪,同樣的效果透過 Displaced Micro-Mesh Engine,只需要 1 個基礎三角形和 1個更換貼圖定義及簡單的 BVH 結構就能完成,可以在不相應增加處理時間或記憶體消耗的情況下實現豐富度的數量級增加。
Shader Execution Reording 技術
為實現遊戲即時光線追踪的逼真渲染,運算時增加了大量的環境中模擬光線運動,同時亦意味著 GPU 原始處理工作量變得越來越不連貫。例如,用於反射、間接照明和半透明效果的二次光線往往會射入,不同的方向並擊中不同的材質,導致二次擊中著色器的有序性和效率較低,不規律性的運算會導致 GPU 的處理單元 SM 的低效使用,因此 NVIDIA 在 Ada Lovelace GPU 架構中加入 Shader Execution Reording 著色器執行重新排序技術,它可以動態地重新排序著色工作以實現更好的執行效率。
透過 Shader Execution Reording 技術,著色器執行重排序時在光線追踪管道中添加了一個新階段,該階段對二次命中著色進行重新排序和分組,以具有更好地執行局部性,在 Cyperpunk 2077 RT : Overdrive 模式下,啟動 ShaderExecution Reording 技術後性能提升高達 44%,相當驚人。
升級第 4 代 Tensor Cores、全新 DLSS 3 技術
Tensor Cores 是專門為在 AI 和 HPC 應用程式中使用的矩陣乘法和累加數學運算量身定制的高性能運算,可以用於為矩陣計算提供了突破性的性能,這對於深度學習神經網路訓練和邊緣發生的推理針對遊戲應用層面,Tensor Cores 其中一個重點就是加入全新 DLSS 深度學習超級採樣技術,透過深度神經網絡提取渲染場景的多維特徵,並智能地組合來自多個幀的細節,以構建高品質 3D 影像。與傳統的 AA 技術相比,DLSS 使用更少的輸入樣本,同時避免了透明度和其他復雜場景元素的算法難度。
全新 Ada Lovelace GPU 微架構升級至第 4 代 Tensor Cores 運算單元,相較上代在 FP16、BF16、TF32、INT8 和 INT4 性能提升2 倍以上,新增 FP8 運算能力 AD102 可提供超過 1.3 PetaFLOPS 的張量處理,並且升級至 DLSS 3 技術能透過深度學習使用 AI 生成整幀以大幅提升性能。
DLSS 3 技術是將先前 DLSS 2 技術,透過 Tensor Cores 運動矢量運算與超解析度技術下,在幀與幀之間加插由以 AI 運算生成的新幀,啟用 DLSS 3 後,AI 將使用 DLSS 超解析度重建第一幀的 3/4,並使用 DLSS AI 幀生成重建整個第二幀,因此 DLSS 3 重建了總顯示像素的 7/8,因此顯著提高了性能。
為了令 AI 幀成生的影像不會出現重影、卡頓和模糊等偽影, ADA Lovelace GPU 新增 Optical Flow Accelerator 光流加速器,它能捕獲粒子、反射、陰影和照明等資訊,DLSS 3 可以計算場景中的一切是如何從一個像素移動到另一個像素的,令遊戲畫面不會出現異常重建。
更重要的是 DLSS 3 可以減低 CPU 造成的性能瓶頸,一些需要 CPU 物理模擬的遊戲例如 Microsoft Flight Simulator (微軟模擬飛行),對於 CPU 的性能要求十分高,因此 GPU 經常處於空閒狀態等待指令,DLSS 3 可以將 CPU 密集型遊戲轉換為 GPU 密集型遊戲,因為在 AI 生成幀中全由 GPU 負責,因此在執行 CPU 受限的遊戲,例如那些需要大量物理或涉及大型開放世界的遊戲, GeForce RTX 40 系列顯卡在相同 CPU 運算能力下,幀速率高達兩倍的幀速率進行渲染。
升級第 8 代 NVENC 編碼引擎
為提升 GPU 編輯性能,AD104 GPU 配備了兩個第 8 代 NVENC 編碼器,上代 Ampere GPU 只提供 AV1 解碼支援,Ada Lovelace 新增 AV1 編碼支援能力,其編碼效率相較 H.264 編碼器提升了 40%,可支援 8K / 60 HDR 或是同時為 4 個 4K / 60 HDR 影片進行編碼運算。
解碼器方面,AD104 GPU 與上代一樣擁有 1 個第 5 代 NVDEC 解碼器,支援 MPEG-2、VC-1、H.264 (AVCHD)、H.265 (HEVC)、VP8、VP9 和 AV1 影片格式的硬體加速影片解碼,支援 8K / 60 解析度。以下為在同等位元率設定下 H.264 (左) 及 AV1 (右) 的畫質表現對比,建議用 4K 解析度觀看。
由於 AV1 編碼格式比 H.264 格式的編碼效率提升了 40%,變相在相同的位元率設定下 AV1 能提供更高的畫面品質,從上述的比較影片中可以看到左面的 H.264 編碼格式無法在 8Mbps Bandwidth 下滿足 4K 60FPS 的內容,出現了大量不連續的小方塊,反之 AV1 在相同位元率下卻仍能提供清晰的動態畫面,兩者可說是高下立見。
NVIDIA GeForce RTX 4070 Founder Edition
顯示卡外觀
NVIDIA GeForce RTX 4070 Founder Edition 顯示卡外觀設計上與 RTX 4080 / RTX 4090 有所不同,變得較像舊代 RTX 30 FE 設計,例如金屬外框不再向內微凹,換回鈦灰色金屬框架,X 框架亦回復至銀白色,如果不是上面刻有 RTX 4070 字樣,同時 GeForce RTX 字體亦換上新版,還以為是寄錯了舊卡來呢。
卡的正面都是霧黑色的散熱鰭片,沿用軸向式散熱設計,正反兩面各有一個 10 cm 軸向式散熱風扇,能夠將部份廢熱排向 CPU 區域及直接排出機殼,令機殼內部溫度變得更平均,唯一美中不足是 RTX 4070 FE 的 GeForce RTX 字樣並不會發光,變成了 RTX 4080 / 4090 FE 的專利。
NVIDIA GeForce RTX 4070 Founder Edition 相較 RTX 4080 / 4090 來說體積小巧玲瓏,Dual Slot 設計、尺寸只有 230 mm x 122 mm x 40 mm、重量為 1,014g,大部份 A4 機殼都可以放得下,官方指出在閒置下功耗大約 10W,播放影片約 16W,遊戲平均功耗 (AGP) 約 186W,最高 TGP 為 200W,建議使用 650W 或以上的電源供應器。
考慮到大部份人安裝顯示卡後,從機殼外看進去只會看到卡背,NVIDIA 將設計反轉了把背板變成正面,並顯示著「RTX 4070」字樣,整張卡所有螺絲孔都用磁吸隱藏了,NVIDIA 真的是從使用者的角度、在細節中作出了考量,難怪那麼多玩家想買 Founder Edition。
NVIDIA PG141-SKU344 公板設計
拆開散熱器,可以看到 GeForce RTX 4070 Founder Edition 採用 PG141-344 公板設計,NVIDIA 刻意將電路板盡量縮小,讓卡身可以鏤空讓軸向式風扇將帶氣流帶到 CPU 區域,8 Layers PCB 設計並經過低阻抗提供訊號及電力傳輸最佳化,同時保留了不俗的超頻性能。
供電設計方面, 5 相為 GPU 供電、3 相為 GDDR6X 供電,全面採用 Alpha & OMEGA BLN3 (AOZ5311NQI) Synchronous Buck Regulator,在單一封裝內加入上下橋 MOSFET 及集成驅動器,單相能提供 55A 持續電流輸出。
NVIDIA AD104-250 繪圖核心
GeForce RTX 4070 使用 AD104-250 繪圖核心,採用 TSMC 4N 製程、擁有 358 億個電晶體、Die Size 約為 295mm²,相較 RTX 4070 Ti 的 AD104-400 繪圖核心,運算單元數目作出了刪減,由 5 個 GPC 單元減至 4 個、共 23 個 TPC 紋理處理群集及 46 個 SM 串流多媒體處理器,具備 5,888 個 CUDA Cores、46 個 RT Cores、 184 個 Tensor Cores、184 個 Texture Unit 及 64 個 ROP。
時脈方面,GeForce RTX 4070 亦較 RTX 4070 Ti 低,NVIDIA GeForce RTX 4070 FE 預設時脈為 1,920MHz、加速時脈 2,475MHz,支援 GPU Boost 4.0 技術可因應負載自動超頻至更高時脈,Power Limit 預設為 200W。
192-bit 12GB GDDR6X 記憶體容量
記憶體方面,GeForce RTX 4070 支援 192bit 記憶體控制器,雖然比 RTX 3070 的 256bit 下降了,但採用 21Gbps GDDR6X 記憶體顆粒,速度較 RTX 3070 的 14Gbps GDDR6 高出不少,因此最高記憶體頻寬由上代 448GB/s 提升至 504GB/s, 與 RTX 4070 Ti 看齊。
NVIDIA GeForce RTX 4070 FE 採用了 6 顆 Micron D8BZC GDDR6X 顆粒編號,為 MT61K512M32KPA-21:U,每顆單顆容量為 16Gbit (2GB),總容量 12 GB 繪圖記憶體容量。
Dual Slot 軸向式散熱器設計
NVIDIA GeForce RTX 4070 FE 沿用軸向式散熱設計,設計與 RTX 4080 / 4090 相似只是規模變細了,Dual Slot、雙 10 cm 風扇,由於 RTX 4070 只有 200W TGP,因此沒有用上 Vapor Chamber 均熱板,僅使用銅底部搭配 4 支 Heatpipe 導熱管便足夠。
採用 12VHPWR 供電接頭
採用 12 +4 Pin 的 12VHPWR 供電接頭,相較 PCIe 8 Pin 能提供大於 225W 的供電潛力,由於目前原生支援 12VHPWR 連接線的 PSU 並不普及,隨產品就附了一條 PCIe 8-Pin x 2 轉 12VHPWR 的轉接線 (300W)。
提供了 3 組 Display Port 1.4a + DSC 及 2 組 HDMI 2.1 影像輸出孔,兩種輸出介面皆可提供最高 4K@240Hz 或 8K@60Hz 12bit HDR 解析度輸出,支援 VEGA DSC 1.2 無損壓縮顯示功能,單卡能提供最高 2 個 8K@60Hz HDR 顯示輸出,或是組合 2 組 DisplayPort 提供單一 8K@120Hz HDR 輸出。
GeForce RTX 4070 FE 效能測試
以下將以 RTX 3070 / RTX 3070 Ti / RTX 3080 / RTX 4070 Ti 作對比測試,以了解 NVIDIA GeForce RTX 4070 的效能水準。
時脈方面,NVIDIA GeForce RTX 4070 FE 預設核心時脈為 1,920MHz、加速時脈 2,475MHz,支援 GPU Boost 4.0 技術最高可達 2,820MHz。
散熱方面,NVIDIA GeForce RTX 4070 FE 在約 24°C 的室溫環境下閒置約 30分鐘,GPU溫度維持在 35°C。接著採用 Furmark 進行 3D 負載測試,將 GPU 完全負載 30 分鐘後,溫度會提升至 66°C,GPU 時脈保持在 1,995MHz,TGP 為 196.9W。
測試平台︰
- Intel Core i9-12900K CPU
- ASUS ROG Z690 Maximus Hero MB
- NVIDIA GeForce RTX 3080 FE
- NVIDIA GeForce RTX 3070 Ti FE
- NVIDIA GeForce RTX 4070 FE
- G.SKILL DDR5-6000 CL30-38-38-39 16GB x 2 @1.35V
- Windows 11 Professional 22H2
- NVIDIA GeForce Driver 531.42 WHQL
3DMark Fire Strike 與 Time Spy 作為最廣泛的 DX11 / 12 性能基準測試,性能對比結果當然不可缺少,根據測試顯示 GeForce RTX 4070 遊戲性能較舊代 RTX 3070 / 3070 Ti 優勝,與 RTX 3080 性能非常相近。
GPU | 3DMFS | 3DMFSE | 3DMFSU |
---|---|---|---|
GeForce RTX 3070 | 33077 | 16589 | 8571 |
GeForce RTX 3070 Ti | 34983 | 17793 | 9137 |
GeForce RTX 3080 | 41576 | 20626 | 10650 |
GeForce RTX 3080 Ti | 45131 | 23312 | 12098 |
GeForce RTX 3090 | 49102 | 24964 | 12912 |
GeForce RTX 3090 Ti | 52761 | 27160 | 14264 |
GeForce RTX 4070 | 44927 | 21740 | 10100 |
GeForce RTX 4070 Ti | 55197 | 27345 | 13547 |
GeForce RTX 4080 | 65508 | 33865 | 16270 |
GeForce RTX 4090 | 82162 | 46953 | 25294 |
GPU | 3DMTS | 3DMTS |
---|---|---|
GeForce RTX 3070 | 13641 | 6821 |
GeForce RTX 3070 Ti | 14385 | 7237 |
GeForce RTX 3080 | 17130 | 8639 |
GeForce RTX 3080 Ti | 18742 | 9697 |
GeForce RTX 3090 | 20716 | 10507 |
GeForce RTX 3090 Ti | 21627 | 11295 |
GeForce RTX 4070 | 17889 | 8539 |
GeForce RTX 4070 Ti | 22826 | 10987 |
GeForce RTX 4080 | 28252 | 14074 |
GeForce RTX 4090 | 37263 | 19630 |
3DMark Ray-Tracing 測試
3DMark Port Royal 與 Speed Way 是針對即時光線追蹤所設計的測試工具,支援 Microsoft DirectX Raytracing 技術,讓玩家測試不同顯卡對於光線追蹤的效能,NVIDIA GeForce RTX 4070 Ti 的測試較 RTX 3070 / 3070 Ti 高,同樣與 RTX 3080 不相上下。
GPU | 3DMPR | 3DMSW |
---|---|---|
GeForce RTX 3070 | 8219 | 3501 |
GeForce RTX 3070 Ti | 8726 | 3680 |
GeForce RTX 3080 | 11188 | 4589 |
GeForce RTX 3080 Ti | 12657 | 5219 |
GeForce RTX 3090 | 13363 | 5492 |
GeForce RTX 3090 Ti | 14533 | 5981 |
GeForce RTX 4070 | 11195 | 4475 |
GeForce RTX 4070 Ti | 14188 | 5435 |
GeForce RTX 4080 | 17908 | 7281 |
GeForce RTX 4090 | 25955 | 9998 |
3DMark DLSS 測試
3DMark NVIDIA DLSS feature test 測試透過利用 Tensor Core 以深度學習方式對較低的渲染解析度的畫面進行運算,重新輸出更高解析度的畫面,令遊戲流暢度有所提升,新增全新 DLSS 3 版本,並支援全新 Frame Generation 功能,此次測試會採用 3840 x 2160 解析度,測試 DLSS OFF、DLSS 2 及 DLSS 3 的性能差異。
可以看到 GeForce RTX 4070 在 DLSS Feature Test 表現與 RTX 3080 接近,但如果遊戲支援 DLSS 3 的話,它的性能就能提升超越 RTX 3090 Ti 的水平。
GPU | DLSS Off | DLSS2 | DLSS3 |
---|---|---|---|
GeForce RTX 3070 | 15.61 | 42.62 | |
GeForce RTX 3070 Ti | 16.66 | 44.74 | |
GeForce RTX 3080 | 22.01 | 55.64 | |
GeForce RTX 3080 Ti | 26.37 | 65.51 | |
GeForce RTX 3090 | 28.45 | 69.85 | |
GeForce RTX 3090 Ti | 32.88 | 81.16 | |
GeForce RTX 4070 | 23.09 | 58.57 | 85.09 |
GeForce RTX 4070 Ti | 29.75 | 76.14 | 104.88 |
GeForce RTX 4080 | 37.63 | 99.17 | 131.84 |
GeForce RTX 4090 | 56.35 | 138.32 | 171.22 |
3DMark DirectX Raytracing feature test 測試
採用 3DMark DirectX Raytracing feature test 跑分測試,由於運作於 Microsoft DXR API 的光線追蹤模式,結果顯示 NVIDIA GeForce RTX 4070 FE 取得 51.71 FPS,性能介乎於 RTX 3080 與 RTX 3080 Ti 之間。
GPU | RT |
---|---|
GeForce RTX 3070 | 32.18 |
GeForce RTX 3070 Ti | 33.28 |
GeForce RTX 3080 | 44.16 |
GeForce RTX 3080 Ti | 54.05 |
GeForce RTX 3090 | 55.73 |
GeForce RTX 3090 Ti | 61.69 |
GeForce RTX 4070 | 51.71 |
GeForce RTX 4070 Ti | 66.69 |
GeForce RTX 4080 | 83.29 |
GeForce RTX 4090 | 139.98 |
遊戲效能測試
以下的遊戲測試除另外註明外,全部皆以 2560 x 1440 解析度全螢幕執行,畫質皆設定為最高畫質,若遊戲支援光線追蹤技術則同時將光追畫質全開。而 DLSS 方面則統一使用 Performance 設定,此外 GeForce RTX 4070 亦會啟用 DLSS 3 中新增的 Frame Generation 技術。
A Plague Tale:Requiem 瘟疫傳說:安魂曲 (RT + DLSS 3)
GPU | 2K DLSS Off | 2K DLSS On |
---|---|---|
GeForce RTX 3070 | 39 | 57 |
GeForce RTX 3070 Ti | 41 | 61 |
GeForce RTX 3080 | 52 | 82 |
GeForce RTX 4070 | 51 | 107 |
GeForce RTX 4070 Ti | 74 | 146 |
Control (RT + DLSS2)
GPU | 2K DLSS Off | 2K DLSS On |
---|---|---|
GeForce RTX 3070 | 55 | 98 |
GeForce RTX 3070 Ti | 59 | 106 |
GeForce RTX 3080 | 78 | 133 |
GeForce RTX 4070 | 76 | 129 |
GeForce RTX 4070 Ti | 85 | 141 |
CyberPunk 2077 RT Ultra (RT+ DLSS 3)
GPU | 2K DLSS Off | 2K DLSS On |
---|---|---|
GeForce RTX 3070 | 24 | 51 |
GeForce RTX 3070 Ti | 28 | 54 |
GeForce RTX 3080 | 36 | 67 |
GeForce RTX 4070 | 38 | 106 |
GeForce RTX 4070 Ti | 51 | 131 |
F1 22 (RT + DLSS 3)
GPU | 2K DLSS Off | 2K DLSS On |
---|---|---|
GeForce RTX 3070 | 59 | 96 |
GeForce RTX 3070 Ti | 62 | 102 |
GeForce RTX 3080 | 76 | 118 |
GeForce RTX 4070 | 78 | 159 |
GeForce RTX 4070 Ti | 89 | 181 |
Forza Horizon 5 (DLSS 3)
GPU | 2K DLSS Off | 2K DLSS On |
---|---|---|
GeForce RTX 3070 | 78 | 101 |
GeForce RTX 3070 Ti | 82 | 105 |
GeForce RTX 3080 | 117 | 151 |
GeForce RTX 4070 | 119 | 173 |
GeForce RTX 4070 Ti | 148 | 201 |
Tom Clancy's Rainbow Six Siege 虹彩六號:圍攻行動
GPU | 1080p | 2K | 4K |
---|---|---|---|
GeForce RTX 3070 | 420 | 327 | 188 |
GeForce RTX 3070 Ti | 431 | 342 | 196 |
GeForce RTX 3080 | 473 | 390 | 242 |
GeForce RTX 4070 | 493 | 387 | 228 |
GeForce RTX 4070 Ti | 585 | 513 | 312 |
Microsoft Flight Simulator 微軟模擬飛行 (DLSS 3)
GPU | 2K DLSS Off | 2K DLSS On |
---|---|---|
GeForce RTX 3070 | 46 | 66 |
GeForce RTX 3070 Ti | 48 | 71 |
GeForce RTX 3080 | 63 | 97 |
GeForce RTX 4070 | 68 | 139 |
GeForce RTX 4070 Ti | 76 | 163 |
Watch Dogs Legion (RT + DLSS)
GPU | 2K DLSS Off | 2K DLSS On |
---|---|---|
GeForce RTX 3070 | 64 | 96 |
GeForce RTX 3070 Ti | 68 | 101 |
GeForce RTX 3080 | 76 | 127 |
GeForce RTX 4070 | 73 | 121 |
GeForce RTX 4070 Ti | 101 | 139 |
總結
上代 RTX 3070 與 RTX 3070 Ti 性能相近,但這代老黃大刀一揮令 RTX 4070 規格與 RTX 4070 Ti 有著明顯差距,主要原因是 RTX 4070 Ti 原本是 RTX 4080 12GB,
從測試結果可以看到,GeForce RTX 4070 真實性能與 RTX 3080 相當相近,以往 70 新卡都能以下犯上力剋 80 舊卡 ,這代 Shader 原始性能提升幅度不大,沒輸 RTX 3080 舊卡已經有所交代。
不過,當遊戲支援 DLSS 3 的情況下,就能發揮第 4 代 Tensor Core 的真正實力,性能相較 RTX 3080 快 20~40% 不等,更重要是它的 TGP 只有 200W,性能功耗比相當出色,加上新增 AV1 硬體編解碼支援,如果你原本打算入手 RTX 3070 Ti 或 RTX 3080 的話,RTX 4070 將會是更好的選擇。
以上內容及測試數據為 HKEPC 獨家授權給 UNIKO's Hardware 編譯