透過與美國、歐洲和以色列十幾所大學合作的 20 篇推動生成式 AI 和神經圖形的 NVIDIA Research 研究論文將於 8/6 至 8/10 在美國洛杉磯舉行的電腦繪圖專業盛會 SIGGRAPH 2023 上發表。
這些論文包括將文字轉換為個性化圖像的生成式人工智慧模型、將靜止圖像轉換為 3D 物件的逆向渲染工具、使用 AI 以驚人的真實感模擬複雜 3D 元素的神經物理模型、 和可解鎖生成實時、AI 驅動的視覺細節的神經渲染模型。
NVIDIA Research 將於 SIGGRAPH 分享成果
NVIDIA 研究人員的創新定期在 GitHub 上與開發人員分享,並整合到產品中,包括用於構建和操作元宇宙應用程式的 NVIDIA Omniverse 平台和近日發表用於視覺設計的定製生成式 AI 模型代工廠 NVIDIA Picasso。 NVIDIA 多年的繪圖形研究幫助將電影風格的渲染帶入遊戲,例如最近發布的《電馭叛客 2077 光線追蹤:Overdrive 模式》,這是世界上第一款路徑追蹤的 AAA 遊戲。
今年在 SIGGRAPH 上展示的研究進展將幫助開發人員和企業快速生成合成資料,以填充用於機器人和自動駕駛車輛培訓的虛擬世界。它們還可以讓藝術、建築、平面設計、遊戲開發和電影創作人更快地製作出用於分鏡、預視和甚至影片製作的高品質視覺效果。
具有個人風格的 AI:定製的文字到圖像模型
將文字轉換為圖像的生成式 AI 模型是創造概念藝術和對於電影、遊戲和 3D 虛擬世界製作分鏡表的強大工具。文字到圖像的 AI 工具可以將像是「兒童玩具」之類的提示變成幾乎無限的視覺效果,創作者可以從中獲得靈感 — 產生絨毛動物玩具、積木或拼圖的圖像。
然而,藝術家可能有一個特定的主題。 例如,某玩具品牌創意總監可能正在圍繞一隻新款泰迪熊策劃一項廣告活動,並希望在不同情況下形象化該玩具,例如泰迪熊茶會。為了在生成式 AI 模型的輸出中實現這種級別的特異性,特拉維夫大學和 NVIDIA 的研究人員撰寫了兩篇 SIGGRAPH 論文,讓使用者能夠提供讓模型可以快速學習的圖像範例。
一篇論文描述了一種需要單一個示例圖像來自定義其輸出技術,在單個 NVIDIA A100 Tensor Core GPU 上將個性化過程從幾分鐘加速到大約 11 秒,比以前的個性化方法快 60 倍以上。
第二篇論文介紹了一種名為 Perfusion 的高度緊湊模型,它採用少量概念圖像,允許用戶將多個個性化元素 (例如特定的泰迪熊和茶壺) 組合成一個人工智慧生成的視覺效果:
提供 3D 世界內的服務:逆向渲染和角色創建的進展
一旦創作者構思出虛擬世界的概念藝術,下一步就是渲染環境並使用 3D 物體和角色進行填充。NVIDIA Research 正在發明人工智慧技術,透過自動將 2D 圖像和影像轉換為 3D 來加速這個耗時的過程,讓創作者可以將其導入繪圖應用程式進一步編輯。
與加州大學聖地亞哥分校的研究人員共同創作的第三篇論文,討論了可以基於單張 2D 肖像進而生成和渲染出逼真的 3D 頭肩模型的技術,這是一個重大突破,可以讓使用 AI 進行 3D 頭像創建和 3D 視訊會議變得更加容易。 該方法在消費者電腦桌面上實時運行,並且可以僅使用傳統的網路攝影機或智慧手機攝影功能就生成逼真的或風格化的 3D 遙現 (Telepresence) 遠端臨場。
第四個專案是與史丹佛大學合作,為 3D 角色帶來逼真的動作。研究人員建立了一個 AI 系統,該系統能夠從真正的網球比賽的 2D 影片記錄中學習一系列網球技巧,並將動作應用於 3D 角色。模擬的網球選手可以精確地將球打到虛擬球場上的目標位置,甚至可以與其他角色進行長時間的回合比賽。
除了網球的測試案例外,這篇 SIGGRAPH 文章還探討了如何在不使用昂貴的運動捕捉資料的情況下,創造出具有多種技能、並能進行真實運動的 3D 角色。
不失一根頭髮:神經物理學實現逼真的模擬
當 3D 角色生成後,藝術家可以添加像是頭髮這樣逼真的細節,這對動畫師來說是一個複雜且需要大量運算的挑戰。
人類平均有 100,000 根頭髮,每一根都會隨著個人動作和周圍環境而動態變化。傳統上,創作者使用物理公式來計算頭髮的運動,根據可用資源來簡化或近似頭髮的運動。這就是為什麼大製作電影中的虛擬角色擁有比即時遊戲中的角色更仔細的頭髮細節。
第五篇論文展示了一種使用神經物理學的方法,可以高解析度模擬數萬根頭髮。神經物理學是一種人工智慧技術,它教導神經網路預測物體在現實世界中的運動方式。
該團隊為實現完整規模頭髮的準確模擬提出了一種新穎的方法,專門針對現代 GPU 進行最佳化。與最先進基於 CPU 的解算器相比,它提供了顯著的效能提升,將模擬時間從多天減少到僅需幾小時,同時提高了即時的頭髮模擬品質。這種技術終於實現了物理精確與互動的頭髮造型。
神經渲染為實時繪圖帶來電影品質的細節
當一個虛擬環境被填充了動畫 3D 物體和角色後,實時渲染會模擬光線通過虛擬場景反射的物理過程。NVIDIA 最近的研究顯示,紋理、材料和體積的 AI 模型可以在實時渲染中提供電影等級的逼真視覺效果,可用於遊戲和數位孿生。
NVIDIA 二十年前就發明了可程式化的著色技術,使開發人員可以自定義繪圖管道。在這些最新的神經渲染發明中,研究人員透過運行在 NVIDIA 實時繪圖管道內的 AI 模型來擴展可程式化著色代碼。
在第六篇 SIGGRAPH 論文中,NVIDIA 將呈現神經紋理壓縮,在不佔用額外 GPU 記憶體的情況下,提供高達 16 倍的紋理細節。神經紋理壓縮可以大幅提升 3D 場景的真實感,如下圖所示,這說明神經壓縮紋理 (右) 如何捕捉比先前格式更清晰的細節,在先前格式中文本保持模糊 (居中)。
第七篇論文介紹的是 NeuralVDB,這是一種 AI 驅動的資料壓縮技術,可使表示煙、火、雲和水等體積資料所需的記憶體減少 100 倍。
NVIDIA 今天還發佈了關於更多神經材料細節的研究,這些細節在最新的 NVIDIA GTC 主題演講中已展示。該研究描述了一個 AI 系統,它學習光如何從真實的多層材料反射,將這些資產的複雜性降低到實時運行的小型神經網路,使陰影處理速度提高 10 倍。
從這個神經網路渲染的茶壺中可以看出其逼真度,它準確地呈現了陶瓷、不完美的清釉、指紋、污跡甚至灰塵。
更多生成式 AI 與繪圖研究
以上只是其中的重要亮點,請閱讀更多關於 SIGGRAPH 上所有 20 份 NVIDIA 論文的內容。NVIDIA 還將在大會中提供 6 門課程、4 場講座和 2 場新興技術演示,主題包括路徑追蹤、遙現和生成式 AI 的擴散模型。
NVIDIA Research 在全球擁有數百名科學家和工程師,其團隊專注於人工智慧、電腦繪圖、電腦視覺、自動駕駛汽車和機器人等主題。