NVIDIA 的研究人員在最新的文字轉 3D 生成式人工智慧 (AI) 模型 LATTE3D 中,注入了雙倍的加速力量,該模型就像一台虛擬的 3D 列印機,能在一秒內將文字提示轉換為物體和動物的 3D 表示形式。
由於採用了廣泛使用於標準渲染應用程式的格式,生成的形狀可以輕鬆地在虛擬環境中使用,例如用於開發電玩遊戲、廣告活動、設計項目或機器人的虛擬訓練場域。
NVIDIA 助力 LATTE3D 模型生成效率
NVIDIA AI 研究副總裁 Sanja Fidler 所屬位於多倫多的 AI 實驗室團隊開發了 LATTE3D,她表示:「一年前,AI 模型生成這種質量的 3D 視覺效果需要一個小時,而目前的最新技術只需約 10 到 12 秒。我們現在能以數量級更快的速度產生結果,使各產業的創作者能夠實現近乎即時的文字到 3D 生成。」
這項進步意味著當在單個 GPU 上運行推論時,像 NVIDIA RTX A6000 這樣的 GPU,LATTE3D 能夠幾乎立即生成 3D 形狀。
構思、生成、迭代:縮短週期
創作者無需從頭開始設計或在 3D 資源庫內進行搜尋,而是可以使用 LATTE3D 在想法突然出現時,立即產生詳細的物件。
該模型基於每個文字提示生成幾種不同的 3D 形狀選項,供創作者選擇。選定的物體可以在幾分鐘內進行最佳化,達到更高的品質。然後,使用者可以將形狀匯出到圖形軟體應用程式或平台,如 NVIDIA Omniverse,該平台支持基於通用場景描述 (OpenUSD) 的 3D 工作流程和應用程式。
雖然研究人員在動物和日常物體這兩個特定資料集上訓練 LATTE3D,但開發人員可以使用相同的模型架構在其他資料類型上訓練 AI。
例如,如果在 3D 植物資料集上進行訓練,LATTE3D 的一個版本可以幫助景觀設計師在與客戶進行腦力激盪時使用樹木、開花灌木和多肉植物快速填充花園渲染圖。如果在家庭物品資料集上進行訓練,該模型可以產生填充家庭 3D 模擬的物品,開發人員可以使用這些物品來訓練個人助理機器人,然後再於現實世界中進行測試和部署。
LATTE3D 使用 NVIDIA A100 Tensor 核心 GPU 進行訓練。除了 3D 形狀外,該模型還接受了使用 ChatGPT 生成的各種文字提示的訓練,以提高模型處理使用者可能想出描述特定 3D 物件的各種短語的能力,例如,理解具有各種犬類物種的提示都應該產生像狗一樣的形狀。
NVIDIA 研究中心由全球數百名科學家和工程師組成,團隊專注於 AI、電腦圖形、電腦視覺、自動駕駛汽車和機器人等主題。
研究人員本週在 NVIDIA GTC 大會上分享了研究成果,推動了擴散模型訓練技術的發展。歡迎至 NVIDIA 技術部落格以了解更多資訊,並閱讀 GTC 大會上的 NVIDIA 研究會議完整列表。GTC 大會於加州聖荷西舉行,至 3/21 為止前皆可於線上參加。
如欲了解最新的 NVIDIA AI 相關消息,請觀看 NVIDIA 創辦人暨執行長黃仁勳在 GTC 上主題演講的重播。