UNIKO's Hardware
  • 評測
    • 處理器
    • 主機板
    • 顯示卡
    • 記憶體
    • 儲存 | SSD | HDD | 外接盒
    • 水冷散熱器 | 空冷散熱器 | 風扇
    • 機殼 | 電源 | 配件
    • 顯示器
    • 周邊 | 鍵盤 | 滑鼠 | 耳機 | 麥克風
    • 筆記型電腦 | 桌上型電腦 | 電競掌機
    • 手機 | 分享器 | 無線網路
    • 顯示卡驅動 | 晶片組驅動
    • 其他硬體
  • 新聞
  • 新聞稿
  • 軟體
  • 聯絡
  • ZH-TW
    • ZH-TW
    • ZH-CN
    • EN
    • JA
    • KO
No Result
View All Result
UNIKO's Hardware
No Result
View All Result
UNIKO's Hardware
Home 新聞稿

NVIDIA 宣布為各平台最佳化 Meta Llama 3 上的推論效能

Press Release by Press Release
2024-04-19
in 新聞稿
0
Share on FacebookShare on Twitter
Press Release

NVIDIA 宣布為各平台最佳化 Meta Llama 3 上的推論效能

NVIDIA 今天宣布對雲端、資料中心到邊緣和個人電腦等平台進行最佳化,以加速最新一代大型語言模型 (LLM) Meta Llama 3 的推論效能。此開放式模型與 NVIDIA 加速運算相結合,使開發人員、研究人員和企業能夠把模型應用於各式創新中。

NVIDIA 將為 Meta Llama 3 模型最佳化

在 NVIDIA AI 上訓練

Meta 的工程師們使用了一個搭載 24,576 個 NVIDIA H100 Tensor 核心 GPU 的電腦叢集,與 NVIDIA Quantum-2 InfiniBand 網路連接,對 Llama 3 進行了訓練。在 NVIDIA 的支援下,Meta 為其旗艦大型語言模型調整了網路、軟體和模型架構。

為了進一步推進生成式人工智慧 (AI) 發展,Meta 最近說明了將其基礎設施擴展到 35 萬個 H100 GPU 的計劃。

讓 Llama 3 發揮作用

在 NVIDIA GPU 上加速的 Llama 3 版本,今天已經可以在雲端、資料中心、邊緣和個人電腦上使用。

開發者可以從瀏覽器上嘗試在 ai.nvidia.com 上使用 Llama 3。它被打包為 NVIDIA NIM 微服務,具有標準的應用程式介面,可以在任何地方部署。

Meta Llama 3

企業可以使用 NVIDIA NeMo 根據其資料微調 Llama 3,NVIDIA NeMo 是一個適用於大型語言模型的開源框架,並為安全、受到支援的 NVIDIA AI Enterprise 平台的一部分。客製化模型可以使用 NVIDIA TensorRT-LLM 進行推論最佳化,並使用 NVIDIA Triton 推論伺服器進行部署。

將 Llama 3 帶入設備和個人電腦上

Llama 3 也可以在 NVIDIA Jetson Orin 上運行,用於機器人和邊緣運算設備,創建像 Jetson AI 實驗室中互動式代理人一樣的應用。

此外,適用於工作站和個人電腦的 NVIDIA RTX 和 GeForce RTX GPU,可以加速 Llama 3 的推論速度。這些系統為開發者提供了全球超過一億個 NVIDIA 加速系統的目標。

使用 Llama 3 獲得最佳效能

為聊天機器人部署大型語言模型時,最佳狀態是在低延遲、良好的讀取速度和最佳的 GPU 使用之間取得平衡,以降低成本。

這樣的服務需要以大約每秒 10 個詞元、使用者閱讀速度兩倍左右的速度來傳送詞元,這些詞元大致相當於大型語言模型的詞彙。

應用這些指標,在使用具有 700 億個參數的 Llama 3 版本的初始測試中,單一 NVIDIA H200 Tensor 核心 GPU 每秒可產生約 3,000 個詞元,足以同時為約 300 個使用者提供服務。

這意味著一台配備 8 個 H200 GPU 的 NVIDIA HGX 伺服器每秒可提供 24,000 個詞元,並透過同時支援 2,400 多個使用者來進一步最佳化成本。

針對邊緣設備,具備 80 億個參數的 Llama 3 版本在 Jetson AGX Orin 上每秒最多可生成 40 個詞元,在 Jetson Orin Nano 上則每秒可生成 15 個詞元。

推動社群模型

作為積極的開源貢獻者,NVIDIA 致力於最佳化社群軟體,幫助使用者應對最棘手的挑戰。開源模型還可以提高AI的透明度,讓使用者廣泛分享 AI 安全性和彈性方面的工作。

詳細了解 NVIDIA 的 AI 推論平台,包括 NIM、TensorRT-LLM 和 Triton 如何使用像是低階適應 (low-rank adaptation) 等最先進的技術來加速最新的大型語言模型。

Tags: NVIDIA
Previous Post

全面迎接 Meta Llama 3 模型,Intel 已做好 Arc 及 Gaudi 加速器最佳化

Next Post

主機板外掛 DEBUG CODE LED 是未來趨勢?

Press Release

Press Release

原廠新聞稿編輯

Next Post
主機板外掛 DEBUG CODE LED 是未來趨勢?

主機板外掛 DEBUG CODE LED 是未來趨勢?

Intel 發佈 Arc & Iris Xe Graphics V31.0.101.5444 顯示驅動

Intel 發佈 Arc & Iris Xe Graphics V31.0.101.5444 顯示驅動

最佳化 Intel 第 12、13 代大小核架構處理器遊戲調度性能 - ExaGameBooster

最佳化 Intel 第 12、13 代大小核架構處理器遊戲調度性能 - ExaGameBooster

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

ROG-玩家共和國專頁
Cloudways 主機

關於我們

UNIKO’s Hardware Follow us for the latest PC hardware news, unboxing, reviews and everything in-between!

UNIKO’s Hardware 玩家觀點看產品,真實呈現! 華人圈最可愛的電腦硬體評測開箱、3C業界新聞、電腦改裝、遊戲電競!

熱門標籤

主機板 (213) 儲存 | SSD | HDD | 外接盒 (69) 其他硬體 (7) 周邊 | 鍵盤 | 滑鼠 | 耳機 | 麥克風 (100) 手機 | 分享器 | 無線網路 (45) 新聞 (3887) 新聞稿 (1543) 機殼 | 電源 | 配件 (125) 水冷散熱器 | 空冷散熱器 | 風扇 (112) 筆記型電腦 | 桌上型電腦 | 電競掌機 (47) 處理器 (116) 記憶體 (60) 評測開箱 (1508) 軟體 (515) 顯示卡 (195) 顯示卡驅動 | 晶片組驅動 (346) 顯示器 (10)

熱門架站軟體教學

  • 什麼是 WordPress?
  • WordPress 架站的五大步驟
  • WordPress 三大新手主機完整比較
  • 如何用 WordPress 自架部落格
  • 如何用 WordPress 自架形象官網
  • 如何用 WordPress 自架型錄購物網站
  • 評測
  • 新聞
  • 軟體
  • 聯絡

Copyright © © 2025 UNIKO's Hardware All rights reserved. | 網頁設計: 帶路姬數位科技有限公司.

No Result
View All Result
  • 評測 & 開箱
    • 處理器
    • 主機板
    • 顯示卡
    • 記憶體
    • 儲存 | SSD | HDD | 外接盒
    • 水冷散熱器 | 空冷散熱器 | 風扇
    • 機殼 | 電源 | 配件
    • 顯示器
    • 周邊 | 鍵盤 | 滑鼠 | 耳機 | 麥克風
    • 筆記型電腦 | 桌上型電腦 | 電競掌機
    • 手機 | 分享器 | 無線網路
    • 顯示卡驅動 | 晶片組驅動
    • 其他硬體
  • 新聞
  • 新聞稿
  • 軟體
  • 聯絡

Copyright © © 2025 UNIKO's Hardware All rights reserved. | 網頁設計: 帶路姬數位科技有限公司.