NVIDIA 與 Google 進行合作,於本週推出了在所有 NVIDIA AI 平台上適用於 Gemma 模型的最佳化功能。Gemma 是 Google 最先進的新款輕量級開放式語言模型,擁有 20 億個和 70 億個參數,並可在包含 AI PC 的任何地方運作,不僅可以降低成本,也能加快在特定領域使用場景上的創新。
Chat With RTX 將支援 Google Gemma
NVIDIA 與 Google 雙方團隊進行密切合作,透過適用於最佳化大型語言模型推論作業的開源函式庫 NVIDIA TensorRT-LLM,在資料中心或雲端環境運行的NVIDIA GPU,以及搭載 NVIDIA RTX GPU 的 PC 上,加速了 Gemma 的運行效能。值得一提的是,Gemma 使用與開發 Gemini 模型相同的研究成果和技術。
如此一來,開發者便能鎖定全球高效能 AI PC 上可用的超過一億顆 NVIDIA RTX GPU的安裝基礎進行開發。
開發者還能以雲端環境裡的 NVIDIA GPU 運行 Gemma 模型,包括在搭載 H100 Tensor 核心 GPU的 Google Cloud A3 實體上運行,以及 Google 未來將引入的 NVIDIA H200 Tensor 核心 GPU,該 GPU 擁有 141GB HBM3e 記憶體,每秒執行速度為 4.8 TB。
企業開發人員也可以運用NVIDIA 豐富的工具生態系統來微調 Gemma,包括配備 NeMo 框架和 TensorRT-LLM 的 NVIDIA AI Enterprise,並且在其生產應用程式中部署經過最佳化調整的模型。
深入了解 TensorRT-LLM 如何加快 Gemma 的推論速度,以及更多提供給開發人員的資訊。這包括 Gemma 的多個模型檢查點及模型的 FP8 量化版本,全都使用 TensorRT-LLM 完成最佳化調整。
敬請使用網頁瀏覽器開啟 NVIDIA AI Playground,便能直接體驗 Gemma 2B 及 Gemma 7B 的強大威力。
Chat With RTX 即將支援 Gemma
Chat with RTX 是一項使用檢索增強生成和 NVIDIA TensorRT-LLM 軟體的 NVIDIA 技術展示內容,讓用戶在自己本地端有搭載 RTX 支援的 Windows PC 上就可以使用生成式人工智慧 (AI) 功能。這項工具也將加入支援 Gemma。
Chat with RTX 讓用戶可以輕鬆將 PC 上的本機端檔案連接到大型語言模型,使用自己的資料打造個人專屬的聊天機器人。
由於模型以本機端的方式運行,可以快速提供運行結果,並能夠讓使用者資料留在裝置上。Chat with RTX 與依賴雲端環境的 LLM 服務不同,讓用戶可以在本地端的 PC 上處理敏感資料,無需將資料分享給第三方或是連接到網路。