Intel 針對最新的 Meta Llama 3 模型,也對其 Xeon、Core Ultra、Arc 和 Gaudi 產品線進行驗證和最佳化,通過開源軟體和 AI 加速技術提供卓越的性能表現,全面迎接生成式 AI 時代的到來。
Intel 針對 Meta Llama 3 進行驗證和最佳化
Meta 今日推出 Meta Llama 3 下一代大型語言模型 (LLM)。自發布之日起,Intel 已在其 Gaudi 加速器、Xeon 處理器、Core Ultra 處理器和 Arc GPU 上驗證其 AI 產品組合,用於首批 Llama 3 8B 和 70B 模型。
作為其將 AI 帶到各處的使命的一部分,Intel 投資於軟體和 AI 生態系統,以確保其產品準備好迎接 AI 領域的最新創新。在資料中心領域,Gaudi 和具有高級矩陣擴展 (AMX) 加速的 Xeon 處理器為客戶提供滿足動態和廣泛需求的選擇。
Intel 對 Llama 3 8B 和 70B 模型的初步測試和性能結果使用了開源軟體,包括 PyTorch、DeepSpeed、Optimum Habana 庫和 Intel Extension for PyTorch,以提供最新的軟體最佳化。
- Intel Gaudi 2 加速器已在 Llama 2 模型 (7B、13B 和 70B 參數) 上優化性能,現在還有新 Llama 3 模型的初步性能測量結果。憑藉 Gaudi 軟體的成熟度,Intel 可輕鬆運行新的 Llama 3 模型,並生成推理和微調的結果。最近發布的 Gaudi 3 加速器也支援 Llama 3。
- Intel Xeon 處理器可應對苛刻的端到端 AI 工作負載,Intel 投資最佳化 LLM 結果以降低延遲。搭載 P-Core (代號 Granite Rapids) 的 Xeon 6 處理器在 Llama 3 8B 推理延遲方面比第 4 代 Xeon 處理器提高 2 倍,並能夠運行更大的語言模型,如 Llama 3 70B,每個生成 token 延遲不到 100 毫秒。
- Intel Core Ultra 和 Arc Graphics 在 Llama 3 初步測試中,Core Ultra 處理器已實現比典型人類閱讀速度更快的生成速度。此外,Arc A770 GPU 具有 Xe Matrix eXtensions (XMX) AI 加速和 16GB 專用記憶體,可為 LLM 工作負載提供出色的性能。
Intel 一直在持續最佳化 Xeon 平台的 LLM 推理。例如,與 Llama 2 發布時的軟體相比,PyTorch 和 Intel Extension for PyTorch 的改進已實現 5 倍延遲降低。該最佳化利用分頁注意力和張量並行,來最大限度地提高可用的計算利用率和記憶體頻寬。
與廣泛使用的第 4 代 Xeon 處理器相比,Xeon 6 在 Llama 3 8B 推理延遲方面提供 2 倍的改進,並能夠在單個雙插槽伺服器上以每個生成的 token 低於 100 毫秒的延遲,運行更大的語言模型 (如 Llama 3 70B)。
在初步評估中,Intel Core Ultra 處理器的生成速度已超過典型的人類閱讀速度。這些結果歸功於其搭載的 Arc GPU,其中包含 8 個 Xe 核心、DP4a AI 加速和高達 120 GB/s 的系統記憶體頻寬。
憑藉對 Core Ultra 處理器和 Arc 圖形產品的發布日支援,Intel 和 Meta 之間的合作提供本地開發工具和跨數百萬台設備的部署。Intel 消費級硬體通過全面的軟體框架和工具實現加速,包括用於本地研究和開發的 PyTorch 和 Intel Extension for PyTorch,以及用於模型部署和推理的 OpenVINO 工具包。
在未來幾個月中,Meta 預計將引入新功能、額外的模型大小和增強的性能。Intel 將繼續最佳化其 AI 產品的性能,以支援這款新的 LLM 模型。
延伸閱讀