科技改變生活 · 科技引領未來
英偉達的研究人員已經建立了一個生成模型,可以利用來自YouTube等網站的真實視頻創建虛擬環境——這是一種生成圖形的方式,可能會對游戲和人工智能的未來產生影響。
“這是一種新的渲染技術,輸入基本上只是一個草圖,一個對象的高級表示,以及它們在虛擬環境中是如何交互的。Nvidia應用深度學習的副總裁Bryan Catanzaro在接受VentureBeat的電話采訪時表示:“這個模型實際上會處理細節,細化紋理和燈光等,以做出一個完全渲染的圖像。”
該系統使用來自百度自動駕駛項目的阿波羅景觀視頻進行了培訓。在哪里可以找到東西的草圖——比如樹、建筑物、汽車和行人——被輸入到模型中。
卡坦扎羅、Nvidia的其他研究人員和麻省理工學院CSAIL的一名學生共同撰寫了一篇題為《視頻到視頻合成》的論文,詳細介紹了這種方法。
該模型可以使快速生成訓練強化學習代理的合成環境成為可能,或幫助正在玩游戲的人感覺他們處于相同的位置。
“想象一下,如果你可以在電子游戲中扮演你自己。而僅僅從你拍的一段手機視頻中,就有足夠的信息添加你的角色作為你自己,作為一個穿著閃亮盔甲的騎士去做一些偉大的事情,”他說。“英偉達在圖形領域已經有很長一段時間了,所以我們很高興能將圖形技術帶入人工智能時代,并使用人工智能來生成圖形,在那里我們可以從真實世界的視頻中了解事物是如何工作的,然后根據這些知識來合成內容。”
系統能夠考慮對象的位置、對象之間的關系和映射來定義對象的邊緣。
Nvidia將在本周于蒙特利爾舉行的神經信息處理系統會議(NeurIPS,前身為NIPS)上演示視頻,并分享這項技術的更多細節。
Nvidia的團隊最初是受Alexei Efros和加州大學伯克利分校的其他研究人員的工作以及他們創造的Pix2Pix系統的啟發而采取這種方法的。Nvidia與加州大學伯克利分校的人工智能從業者合作,創造了Pix2PixHDin response。
今年早些時候,加州大學伯克利分校(UC Berkeley)的研究人員還制作了能夠跳舞、翻筋斗和其他20種雜技動作的模型。
“我認為這是第一次交互式人工智能渲染,我們真的為我們取得的進展感到自豪。但它還處于早期階段,我認為會有很多進展,使輸出質量更高,更普遍,這樣我們就可以處理更多的場景。所以我對未來的發展方向感到非常興奮。”
丁同明