英特爾在今年五月宣布了一款可擴充且易於存取的推論工作站 (代號 Project Battlematrix),旨在透過簡化採用 Intel Arc Pro B 系列 GPU,並搭配新的推論最佳化軟體堆疊,加速英特爾的 GPU 與 AI 策略。
此全新軟體堆疊在設計時考量了易用性與遵循產業標準,是專為 Linux 環境打造的全新容器化解決方案,經過最佳化後,可透過多個 GPU 擴充和 PCIe P2P 資料傳輸,提供卓越的推論效能。此外,它也包含了企業級的可靠性與管理功能,例如 ECC、SRIOV、遠測 (telemetry) 和遠端韌體更新。
Intel 發佈 LLM Scaler container V1.0
英特爾今日分享 LLM Scaler container 1.0 版本的最新進展。這個版本對於早期客戶的支援至關重要,其中包含以下內容:
- vLLM:
- 針對長輸入長度(>4K)的TPOP效能最佳化:在32B KPI模型上,40K序列長度的效能提升高達1.8倍;在70B KPI模型上,40K序列長度的效能提升高達 4.2 倍。
- 相較上次發布相比,效能進行最佳化,8B-32B KPI 模型的輸出吞吐量提升約 10%。
- 逐層在線量化以減少所需的 GPU 記憶體。
- vLLM 中的 PP (pipeline parallelism) 支援 (實驗性)。
- torch.compile (實驗性)。
- 推測解碼 (實驗性)。
- 支援嵌入、重新排序模型。
- 強化多模態模型支援。
- 最大長度自動偵測。
- 資料平行支援。
- OneCCL 基準測試工具啟用。
- XPU 管理員:
- GPU 功耗。
- GPU 韌體更新。
- GPU 診斷。
- GPU 記憶體頻寬。
英特爾這次的發布遵循在五月發布產品時所規劃的時程。接下來,英特爾計畫在第三季末推出 LLM Scaler 的強化版本,並新增額外功能,同時,也預計在第四季全面發布完整功能集。
資源: