NVIDIA將在SIGGRAPH 2024上展示一系列渲染、模擬和生成AI的進展,該展示會是頂級的計算機圖形會議,將於7月28日至8月1日在丹佛舉行。
來自NVIDIA研究的超過20篇論文介紹了推進合成數據生成器和反向渲染工具的創新,這些工具可以幫助訓練下一代模型。NVIDIA的AI研究通過提升圖像質量和發掘創建現實或虛構世界的3D表示的新方法,使模擬變得更好。
這些論文專注於視覺生成AI的擴散模型、基於物理的模擬以及日益逼真的AI驅動渲染。它們包括兩個技術最佳論文獎得主,並與美國、加拿大、中國、以色列和日本的大學以及包括Adobe和Roblox在內的公司研究人員進行了合作。
這些舉措將幫助創建工具,開發者和企業可以使用這些工具來生成複雜的虛擬對象、角色和環境。合成數據生成可以用於講述強大的視覺故事,幫助科學家理解自然現象或輔助機器人和自動駕駛車輛的基於模擬的訓練。
擴散模型改善紋理繪畫和文本到圖像生成
擴散模型是一種流行的工具,用於將文本提示轉換為圖像,可以幫助藝術家、設計師和其他創作者快速生成故事板或製作的視覺效果,減少實現想法的時間。
兩篇由NVIDIA撰寫的論文正在提高這些生成AI模型的能力。
ConsiStory是NVIDIA和特拉維夫大學研究人員合作的一項研究,使得生成具有一致主角的多個圖像變得更容易——這對於像漫畫或故事板的插圖等故事講述應用來說是必需的。研究人員的方法引入了一種稱為主題驅動的共享注意力的技術,將生成一致圖像的時間從13分鐘減少到約30秒。
NVIDIA研究人員去年在SIGGRAPH的實時直播活動中憑藉將文本或圖像提示轉換為自定義紋理材料的AI模型獲得最佳表演獎。今年,他們展示了一篇論文,將2D生成擴散模型應用於3D網格上的交互式紋理繪畫,使藝術家能夠基於任何參考圖像實時繪畫複雜紋理。
推動基於物理的模擬發展
圖形研究人員正在縮小物理對象和其虛擬表示之間的差距,使用基於物理的模擬技術使數字對象和角色的運動與現實世界中的運動相同。
幾篇NVIDIA研究論文展示了該領域的突破性進展,包括SuperPADL,一個解決基於文本提示模擬複雜人類動作挑戰的項目(見上方視頻)。
使用強化學習和監督學習的組合,研究人員展示了SuperPADL框架如何被訓練來重現超過5000種技能的運動——並且可以在消費級NVIDIA GPU上實時運行。
另一篇NVIDIA論文展示了一種神經物理方法,應用AI來學習對象(無論是3D網格、NeRF還是由文本到3D模型生成的實體對象)在環境中移動時的行為。
與卡內基梅隆大學研究人員合作撰寫的一篇論文開發了一種新型渲染器——這種渲染器不是建模物理光,而是可以進行熱分析、靜電和流體力學分析。這篇論文被評為SIGGRAPH的五篇最佳論文之一,該方法易於並行化,並且不需要繁瑣的模型清理,為加速工程設計周期提供了新機會。
提升渲染真實性和衍射模擬
另一組NVIDIA撰寫的論文展示了新的技術,可以快達25倍的速度建模可見光,並快達1000倍的速度模擬衍射效應——例如,用於訓練自駕車的雷達模擬。
NVIDIA與滑鐵盧大學的研究人員合作撰寫的一篇論文解決了自由空間衍射問題,這是一種光線在物體邊緣擴散或彎曲的光學現象。該團隊的方法可以與路徑跟蹤工作流程集成,提高在複雜場景中模擬衍射的效率,提供高達1000倍的加速。除了渲染可見光外,該模型還可以用於模擬雷達、聲波或無線電波的較長波長。
路徑追蹤採樣許多路徑——多次反彈的光線在場景中穿行——以創建寫實的圖片。兩篇 SIGGRAPH 論文改進了 ReSTIR 的採樣質量。ReSTIR 是一種路徑追蹤算法,由 NVIDIA 和達特茅斯學院的研究人員於 2020 年 SIGGRAPH 上首次提出,對將路徑追蹤引入遊戲和其他即時渲染產品至關重要。
其中一篇論文與猶他大學合作,提出了一種重用計算路徑的新方法,將有效採樣數量增加最多 25 倍,顯著提高了圖像質量。另一篇論文通過隨機變異光路的子集來改進採樣質量。這有助於去噪算法更好地執行,在最終渲染中產生更少的視覺偽影。
教AI以3D思維
NVIDIA 的研究人員還在 SIGGRAPH 上展示了用於3D表示和設計的多用途AI工具。
其中一篇論文介紹了 fVDB,一個為3D深度學習優化的 GPU 框架,與現實世界的規模相匹配。fVDB 框架為城市規模的3D模型和 NeRF 的大空間規模和高分辨率,及大規模點雲的分割和重建提供了 AI 基礎設施。
一篇與達特茅斯學院研究人員合作撰寫的最佳技術論文獲獎作品,提出了一種理論,用於表示3D物體如何與光線互動。該理論將多種外觀統一到一個單一模型中。
此外,與東京大學、多倫多大學和 Adobe Research 合作,介紹了一種算法,能夠在3D網格上實時生成平滑且填充空間的曲線。雖然以前的方法需要幾個小時,但這個框架可以在幾秒鐘內運行,並為用戶提供高度的輸出控制,實現互動設計。
評論
Nvidia在視覺AI技術上的急速發展雖然帶動相關產業鏈,其實我越看越擔心,因為當機器人有了神經判斷邏輯和人眼視覺判斷功能後,再搭配物理上具有手腳的機械身軀,便可以取代大部分一般人的勞力活動。
這種大規模取代人力的狀況已經在歐美企業發生了,例如Amazon的倉儲。
之後只會繼續擴大勞力取代的範圍而已。
如果台灣的製造業還沒發生大規模機器人取代勞力,那唯一的理由就是機器人的成本還沒低到可以覆蓋大老闆們願意大規模資遣和取代真人勞力活的轉換成本。
我只能說,大AI時代,大多數的人們好自為之吧,如果目前有份穩定工作且還有學習餘力的話,盡量找看看、學習看看其他不可取代的技能,以便在全面AI替代的新時代能夠生存下去!