Intel 加速運算系統及圖形產品事業群總經理 Raja Koduri 和英特爾架構師們,於 2021 年英特爾架構日提供關於兩款全新 x86 核心架構的細節;英特爾首款混合式架構,代號「Alder Lake」,配備智慧型 Intel Thread Director 工作負載排程器;「Sapphire Rapids」,下一世代資料中心的 Intel Xeon 可擴充處理器;全新基礎設施處理器 (IPU);以及即將推出的圖形架構,包含 Xe HPG 和 Xe HPC 微架構,以及 Alchemist 和 Ponte Vecchio SoC。
Intel 於 2021 年英特爾架構日揭露 Alder Lake CPU、GPU、IPU 更多架構細節
這些新架構為即將推出的高效能產品注入動力,並成為英特爾下個創新時代的基石,藉以滿足全球對於更多運算能力不斷增長的需求。
Raja Koduri 特別表示架構進步對於滿足此需求的重要性,說道:「架構就像是硬體和軟體的煉金術一般。它為某個引擎融合了絕佳的電晶體,並整合高頻寬、低功耗的快取,它們更為混合式運算叢集,配備大容量記憶體與低延遲可擴充互連至單一封裝之中,透過先進封裝結合起來,並同時確保所有軟體均能無縫加速。隨著從桌面到資料中心的工作負載,變得更大、更多、更複雜和更多元,我們在架構日所揭曉的突破更加顯現出,優秀的架構將如何滿足更多運算效能的迫切需求。」
Intel x86 核心
效率核心
英特爾的全新效率核心微架構,先前代號稱為「Gracemont」,專為吞吐量效率而設計,為現代多工開啟一道可擴充的多執行緒效能大門。這是英特爾最具效率的 x86 微架構,追求極小化的晶片面積,讓多核心工作負載效能能夠隨著核心數量成長。它也提供相當廣泛的運作頻率範圍。這款微架構與細心設計成果,允許效率核心於低電壓下運作,降低電力消耗,並為高頻率運作預留功耗餘裕。這讓效率核心能夠為更高需求的工作負載提升效能。
效率核心採用多種先進技術對工作負載排出優先順序,而不浪費其運算資源,並透過提升每週期指令數量(IPC)直接強化效能,包含:
- 5,000 條分支目標快取,達成更為精確的分支預測。
- 64 KB 指令快取,將有用的指令放在距離較近之處,避免額外產生記憶體子系統的功耗。
- 英特爾首款隨選型指令長度解碼器,負責產生預解碼資訊。
- 英特爾的叢集亂序解碼器,於維持電力效率的同時,每週期最高能夠解碼 6 條指令。
- 寬廣的後端每週期支援 5 條分派(five-wide allocation)和 8 條引退(eight-wide retire),256 條目亂序視窗和 17 個執行埠。
- 強式安全功能支援 Intel Control-Flow Enforcement Technology 以及 Intel Virtualization Technology Redirection Protection。
- 導入 AVX 指令集架構,以及支援整數人工智慧(AI)運算的新延伸指令集。
與英特爾最為豐富的中央處理器(CPU)微架構 – Skylake CPU 核心相互比較,效率核心於單執行緒條件下,相同功耗可多出 40% 效能,或是降低 40% 功耗並提供相同效能表現。多核心處理下,4 個效率核心相較以 4 條執行緒方式運作的 Skylake 雙核心,能夠提供多出 80% 效能並降低功耗,或是減少 80% 功耗並維持相同的效能。
效能核心
英特爾的全新效能核心微架構,先前代號稱為「Golden Cove」,專為速度、將低延遲推向極限、單執行緒應用程式效能所設計。當工作負載的程式碼數量正不斷增長,並且要求更多的執行能力。資料也同步大幅度地成長,隨之而來的是資料頻寬需求。英特爾全新效能核心微架構提供顯著的效能提升,對於蘊含大量程式碼的應用程式也有更好的支援。
效能核心具備更寬、更深、更聰明的架構:
- 更寬:6 個解碼器(先前為 4 個);微指令(µop)快取每週期輸出 8 條(先前為 6 條);每週期 6 條分派(先前為 5 條);12 個執行埠(先前為 10 個)。
- 更深:更多的實體暫存器檔案;更深的 512 條目重排序緩衝區。
- 更聰明:改善分支預測精準度;降低有效 L1 延遲;L2 全快取寫入預測及頻寬最佳化。
效能核心是英特爾迄今最高效能的 CPU 核心,並將低延遲和單執行緒應用程式效能推向極限,例如:
- 於相同運作頻率之下,相較目前的第 11 代 Intel Core 架構(Cypress Cove),在廣泛及多樣的工作負載能夠提供幾何平均約 19% 的改善。
- 更寬、更深的設計顯露出更高的平行度,同時提升執行的平行度。
- Intel Advanced Matrix Extensions,針對下一世代深度學習和訓練效能,而發展的內建 AI 加速。包含專用硬體和新款指令集架構,能夠顯著地提升矩陣乘法運算速度。
- 降低延遲並提升大量資料與大型程式碼應用程式的支援性。
PC 客戶端
Alder Lake 客戶端 SoC
英特爾下一代的 PC 客戶端架構,代號 Alder Lake,為英特爾首款混合式架構,第一次整合兩種核心類型-效能核心和效率核心,於多種工作負載種類均可顯著提升效能。Alder Lake 採用 Intel 7 製程打造,並支援最新的記憶體和最快的 I/O。
Alder Lake 藉由利用單一、高度可擴充的系統單晶片(SoC)架構,支援超輕薄筆記型電腦,再到狂熱玩家和商用桌上型電腦的全系列 PC 客戶端市場,將可提供令人難以置信的效能,有三種設計:
- 以最大化效能為前提,採用兩顆晶片打造平台,具 CPU 插座的桌上型電腦,提供領先群倫的效能、能源效率、記憶體和 I/O。
- 高效能行動電腦晶片採 BGA 封裝,增加影像處理、更大的 Xe 圖形核心和 Thunderbolt 4 連接性。
- 輕薄,低功耗、高密度封裝,I/O 與電力供應最佳化。
建造如此高度可擴充架構的挑戰,在於如何不犧牲功耗表現的情況下,滿足運算以及各種 I/O 令人難以置信的頻寬需求。為解決這項挑戰,英特爾已設計出3種獨立的交織結構(fabric),每種均具備即時、隨選式啟發演算法:
- 運算交織結構每秒最高能夠支援 1000 GB(GBps),表示每叢集或是每核心可分得 100GBps,並透過末級快取將核心與圖形銜接至記憶體。
- 具備高動態頻率範圍,能夠根據交織結構的實際負載,動態選擇路徑,以達成延遲與頻寬最佳化。
- 基於使用率狀態,動態調整末級快取策略-包含式(inclusive)或非包含式(non-inclusive)。
- I/O 交織結構最高支援 64 GBps,將不同類型的 I/O 和內部裝置相互連結,並能夠無縫切換速度而不影響裝置的正常運作,選擇適合資料傳輸量所要求的交織結構速度。
- 記憶體交織結構能夠提供最高 204 GBps 的資料,並動態調整匯流排寬度與速度,支援高頻寬、低延遲或低功耗等多個運作點。
Intel Thread Director
為了讓效能核心、效率核心能夠和作業系統無縫接軌工作,英特爾已開發一款稱為 Intel Thread Director 的改良版排程器。直接內建於硬體之中,Thread Director 提供核心狀態的低階遙測資訊,以及執行緒的指令混合比例,讓作業系統有能力在對的時間,將對的執行緒放在對的核心。Thread Director 相對於簡易、靜態條件式做法,可動態且適應性的依據電腦即時需求,調整排程決策。
傳統上,作業系統根據有限的狀態資訊做出決策,例如前景或是背景任務。Thread Director 透過下列作法加入新的思維考量:
- 使用硬體遙測資訊,當下立即引導需要更高效能的執行緒至效能核心。
- 十分詳盡地監測指令混合比例、核心狀態以及其它微架構相關的遙測資訊,協助作業系統做出更聰明的排程決策。
- 與 Microsoft 合作最佳化 Thread Director,於 Windows 11 獲得最佳效能。
- 擴大延伸 PowerThrottling API,讓開發者能夠明確辨別執行緒的服務品質屬性。
- 應用全新 EcoQoS 分級,讓排程器能夠得知適合該執行緒的電源效率(例如將執行緒排程移至效率核心)。
Xe HPG 微架構和 Alchemist SoC
Xe HPG 是一款全新獨立式圖形微架構,針對極致玩家級遊戲效能和內容創作工作負載而設計。Alchemist SoC 產品線是基於 Xe HPG 微架構設計,首款相關產品將使用 Intel Arc 品牌,並於 2022 年第一季問世。Xe HPG 微架構具備新款 Xe-core,是款專注於運算的可程式化和可擴充的元件。
PC 客戶端圖形產品規劃包含 Alchemist(先前名為 DG2)、Battlemage、Celestial 以及 Druid 等 SoC。在這個線上活動上,英特爾提供微架構的介紹,並分享於早期 Alchemist 晶片 所執行的相關展示,共計展示實際遊戲過程、Unreal Engine 5 測試展示,以及全新以類神經為基礎的超取樣技術,稱之為 XeSS。
基於 Xe HPG 微架構的 Alchemist SoC,專為提供良好的可擴充性和運算效率所打造,具備下列多項特色:
- 最高具備 8 個 render slice,以及為 DirectX 12 Ultimate 打造的固定功能單元。
- 新款 Xe-core 具有 16 個向量引擎和 16 個矩陣引擎(也就是 Xe Matrix eXtensions、XMX),快取以及分享式區域記憶體。
- 全新光線追蹤單元支援 DirectX Raytracing(DXR)和 Vulkan Ray Tracing。
- 藉由一系列的架構、邏輯設計、電路設計、製程技術與軟體最佳化,相較 Xe LP 微架構提升 1.5 倍運作頻率與改善 1.5 倍的效能功耗比值。
- 採用 TSMC 的 N6 製程節點製造。
英特爾圖形工作重點為軟體第一:
- Xe 架構與開發者密切合作進行設計,以便符合業界標準。
- 英特爾首款高效能遊戲圖形處理器,透過涵蓋整合式和獨立式繪圖產品而設計的統一程式碼庫,將效能與品質擺在首位。
- 英特爾已完成核心驅動程式元件的重新架構作業,特別是記憶體管理器和編譯器,結果讓計算密集型的遊戲大作改善 15% 的效能(最高可達 80%),同時改善遊戲載入時間達 25%。
XeSS 利用 Alchemist 內建 XMX AI 加速的優勢,提供新穎的畫面提升(upscaling)技術,同時達成高效能和高度逼真視覺影像。它使用深度學習來合成接近原始高解析度渲染品質的影像。有了 XeSS,原本只能在低畫質設定或是低解析度遊玩的遊戲,如今能夠於更高畫質和解析度設定順暢地執行。
- XeSS 透過相鄰像素和前一幀畫面的運動補償,重新建構次像素細節來工作。
- 重新建構工作由專門訓練用來提供高效能和絕佳品質的類神經網路負責,最高效能提升可達2倍。
- XeSS 也支援 DP4a 指令集,於包含內建顯示在內的廣泛硬體,提供以 AI 為基礎的超取樣功能。
- 多家先期遊戲開發者已開始著手 XeSS,初期 XMX 版本軟體開發套件將於本月提供給獨立軟體供應商,DP4a 版本將於今年稍後完成。
資料中心端
次世代 Intel Xeon 可擴充處理器(代號 Sapphire Rapids)
Sapphire Rapids 代表著英特爾最大的資料中心平台進展。該處理器於動態且不斷提升需求的資料中心使用當中,提供可觀的運算效能並為工作負載最佳化,能夠在雲端、微服務和 AI 等彈性計算模型(elastic compute model)提供高效能。
平舖的(tiled)、模組化的 SoC 架構位於 Sapphire Rapids 中心,其利用英特爾嵌入式多晶片互連橋接(EMIB)技術,於提供驚人擴充性的同時,依舊保持單一(monolithic)CPU 晶片所享有的優勢。Sapphire Rapids 提供單一且平衡的統一記憶體存取架構,每條執行緒均可完全存取所有晶片(tile)的所有資源,包含快取、記憶體和 I/O。其結果讓整個 SoC 均提供一致的低延遲和高跨區頻寬。
Sapphire Rapids 採用 Intel 7 製程技術製造,並具備英特爾全新效能核心微架構,專為速度、將低延遲推向極限、並兼顧單執行緒應用程式效能所設計。
提供業界最為廣泛的資料中心相關加速器,包含新款指令集架構和整合 IP,以便提升客戶廣泛的工作負載和使用效能。全新內建加速引擎包含:
- Intel Accelerator Interfacing Architecture(AIA)支援有效率地調度、同步、傳遞訊號至加速器和裝置。
- Intel Advanced Matrix Extensions(AMX)在 Sapphire Rapids 所引薦的全新工作負載加速引擎,為深度學習演算法核心的張量運算提供大規模的加速。其透過每週期 2K INT8 和 1K BFP16 運算,提供運算能力的提升。使用早期 Sapphire Rapids 晶片執行最佳化內部矩陣乘法微型測試,對比使用英特爾 AVX-512 VNNI 延伸指令集版本的同款微型測試,採用全新 Intel AMX 指令版本的執行速度超過7倍快,為訓練和推論兩種主要的 AI 工作負載提供顯著的效能提升。
- Intel Data Streaming Accelerator(DSA)設計用來卸載常見的資料移動任務,該任務會造成大規模資料中心部署的負擔。Intel DSA 改善這些負擔任務的處理方式,提供整體工作負載的效能提升,並能夠在 CPU、記憶體和快取,以及所有已連結的記憶體、儲存裝置和網路設備之間移動資料。
這些架構上的進展讓 Sapphire Rapids 為雲端、資料中心、網路和智慧邊緣當中,最為廣泛的工作負載和部署模型,提供絕佳的立即可用效能。該處理器透過先進的記憶體和次世代 I/O,包含 PCIe 5.0、CXL 1.1、DDR5 和 HBM 技術,驅動產業技術轉型。
基礎設施處理器(IPU)
IPU 為一款可程式化的網路裝置,專門為雲端和通訊服務提供者降低額外負擔,以及釋放 CPU 效能所設計。
英特爾以 IPU 為基礎的架構擁有多種主要優勢:
- 基礎設施功能和承租戶(tenant)工作負載之間的強分離,允許承租戶完全控制 CPU。
- 雲端營運商可以卸載基礎設施工作任務至 IPU,最大化 CPU 使用率和收益。
- IPU 能夠管理儲存流量,於降低延遲的同時,亦可透過無碟伺服器架構有效率地使用儲存容量。有了 IPU,客戶可以透過安全、可程式化和穩定的解決方案,更好地使用資源,讓他們能夠於運算與儲存之間取得平衡。
由於意識到一種尺寸並不適合所有情境,英特爾提供 IPU 架構的深入探討,並引薦下列 IPU 產品線新成員們-全都是設計用來解決分散於資料中心當中的多元化複雜性情境。
Mount Evans 為英特爾首款 ASIC IPU。Mount Evans 與頂級雲端服務提供者共同架構與開發,並整合從多代 FPGA SmartNIC 得到的經驗。
- 為超大規模做好準備,其提供高效能網路與儲存虛擬化卸載,同時維持高度控制。
- 提供同級最佳可程式化封包處理引擎,能夠使用在防火牆和虛擬路由等使用案例。
- 實作硬體加速 NVMe 儲存介面,從 Intel Optane 技術擴展到模擬(emulate)NVMe 裝置。
- 利用高效能 Intel QuickAssist 技術,部署先進的加密與壓縮加速。
- 可以使用現有、常見的部署軟體環境進行程式化,包含 DPDK、SPDK;並可以使用英特爾 Barefoot。
Oak Springs Canyon 是採用 Intel Xeon D 和 Intel Agilex FPGA 打造而成的 IPU 平台,是款於功耗、效率與效能方面均領先業界的 FPGA,能夠提供:
- 卸載如開放虛擬交換器(OVS)的網路虛擬化功能,以及如 NVMe over Fabrics 和 RoCE v2 的儲存功能,並提供強化加密區塊,提供更安全的高速 2 x 100Gb 乙太網路介面。
- 讓英特爾的合作夥伴和客戶能夠透過一個可擴充、可存取原始碼的軟體和硬體基礎設施-Intel Open FPGA,客製化他們的解決方案。
- 使用現有、常見的部署軟體環境進行程式化,包含 DPDK、SPDK,並已為 x86 最佳化。
Intel N6000 加速開發平台,代號「Arrow Creek」,是一款專為以 Xeon 為基礎的伺服器一同使用所設計的 SmartNIC,其特色為:
- 英特爾的 Agilex FPGA,是款於功耗、效率與效能方面均領先業界的 FPGA;為高效能 100Gb 網路加速而生的 Intel Ethernet 800 系列控制器。
- 支援多款基礎設施負載,讓通訊服務供應商(CoSP)能夠提供如 Juniper Contrail、OVS 和 SRv6 等靈活的加速工作負載,並以已部署於部分世界頂級 CoSP 的 Intel PAC-N3000 成功作為基礎。
Xe HPC 和 Ponte Vecchio
Ponte Vecchio 基於 Xe HPC 微架構,提供領先業界的浮點運算效能與運算密度,加速 AI、高效能運算(HPC),以及先進分析工作負載。英特爾公開 Xe HPC 微架構的 IP 區塊資訊;每個 Xe-core 包含 8 個向量和矩陣引擎(也就是 Xe Matrix eXtensions、XMX);片段和堆疊資訊;以及包含運算、基底、Xe Link 晶片塊的製程節點資訊。在架構日中,英特爾展示早期 Ponte Vecchio 晶片已可表現出領先效能,於熱門的 AI 測試上分別在推論與訓練均創下領先業界的紀錄。英特爾 A0 版晶片效能表現超過 45 TFLOPS 的 FP32 吞吐量,大於 5 TBps 的記憶體交織結構頻寬,以及突破 2 TBps 的連接頻寬。英特爾同步分享並展示每秒超過 43,000 張照片的 ResNet 推論效能,ResNet 訓練每秒也可超過 3,400 張照片,兩者均有望達成效能領先地位。
Ponte Vecchio 由數個複雜的晶片塊設計所構成,接著透過 EMIB 晶片塊組裝在一起,於晶片塊之間實現低功耗的高速連結。這些被放進為功率和互連密度所打造的主動式晶片 3D 堆疊 Foveros 封裝之中。高速 MDFI 互連能夠讓 1 個堆疊擴充至 2 個堆疊。
密集的 Xe-core 組成運算晶片塊(Compute Tile),為 Ponte Vecchio 的核心。
- 單一晶片塊包含 8 個 Xe-core 和合計 4MB 的 L1 快取,為提供具能源效率運算的關鍵。
- 採用 TSMC 先進的製程技術-N5 所打造。
- 英特爾已為設計基礎設施裝設和工具流程鋪路,建立能夠為此節點測試和驗證晶片塊的方法。
- 為了 Foveros 的 3D 堆疊,晶片塊具有相當緊湊的 36 微米凸塊。
基底晶片塊(Base Tile),是個採用 Intel 7 打造的大型晶片,並為 Foveros 技術最佳化。
- 基底晶片塊是所有複雜 I/O 和高頻寬元件,以及 SoC 基礎設施-PCIe Gen5、HBM2e 記憶體、MDFI 連結匯集之處,並將各個晶片塊和 EMIB 橋接在一起。
- 超高頻寬 3D 連結和高速 2D 互連與低延遲,造就這款具有無限連結性的機器。
- 英特爾技術開發團隊致力於滿足頻寬、凸點間距和訊號完整性的要求。
Xe Link 晶片塊(Xe Link Tile),提供 GPU 之間的連接性,每個晶片塊支援八條連結。
- 為 HPC 和 AI 效能向上提升(scale-up)的關鍵。
- 以英特爾支援的最快 SerDes 為目標-達 90G。
- 此晶片塊的加入,是為了實現 Aurora 百萬兆級浮點運算效能超級電腦的擴充解決方案。
Ponte Vecchio 已成功過電開機,正處於驗證階段並開始小量寄送樣品予客戶。Ponte Vecchio 將於 2022 年推出至 HPC 和 AI 市場。
oneAPI
oneAPI 產業倡議提供一個開放、以標準為基礎的跨架構、跨供應商統一軟體堆疊,允許開發者擺脫專利私有的程式語言和程式設計模型。現在已為 Nvidia GPU、AMD GPU 和 Arm CPU 提供 Data Parallel C++(DPC++)和 oneAPI 函式庫實作。oneAPI 正被獨立軟體供應商、作業系統供應商、終端使用者和學術界廣泛採用。主要產業領導者正協助發展其規範,以便支援其它使用案例和架構。英特爾也提供包含基本 oneAPI 基礎工具包的商業產品,加入超越規範程式語言與函式庫的編譯器、分析器、除錯器和移植工具。
oneAPI 提供跨架構的相容性,改善開發者生產力和創新:
- Intel 的 oneAPI 工具包已有超過 20 萬的不重複安裝次數。
- 市場上超過 300 個應用部署使用 oneAPI 的統一程式設計模型。
- 超過 80 個 HPC 和 AI 應用能夠使用英特爾的 oneAPI 工具包於 Xe HPC 微架構運作。
- 5 月所發布的 1.1 版暫訂規範,為深度學習工作負載加入新的圖形介面和先進光線追蹤函式庫,預計將於今年底完成修訂。
延伸閱讀: