今年5月底,F(xiàn)acebook Reality Labs推出了Half Dome原型機。這是業(yè)界首款集成了眼動追蹤相機、寬視場光學(xué)系統(tǒng)和可獨立變焦顯示器的VR頭顯,展示了VR體驗發(fā)展方向。
Half Dome的變焦設(shè)計可以根據(jù)用戶眼球的運動來顯示相應(yīng)的畫面,使每個虛擬物體都能清晰聚焦。這種更加先進的顯示方法可以在VR中創(chuàng)造更舒適、自然和富有沉浸感的真實畫面。但要充分發(fā)揮其潛力,Half Dome不僅需要更高級的硬件,同樣需要具有創(chuàng)新性的軟件。
于是DeepFocus應(yīng)運而生。這是一種新的人工智能渲染系統(tǒng),可與Half Dome配合使用,模仿我們在日常生活中觀察世界的方式,創(chuàng)建逼真的散焦效果。DeepFocus是第一個能夠產(chǎn)生這種效果的系統(tǒng),它以一種實時的、逼真的且依賴于凝視方式來對VR頭顯佩戴者沒有聚焦的場景部分進行模糊。
本月在東京舉辦的SIGGRAPH Asia大會上Facebook Reality Labs展示了該研究論文,目前DeepFocus正在進行開源,開源內(nèi)容包括系統(tǒng)代碼和我們用來訓(xùn)練它的數(shù)據(jù)集,以幫助更廣泛的VR研究人員將模糊畫面的效果融入他們的工作中。
下面的動圖演示了一款使用了DeepFocus技術(shù)的Half Dome原型,該頭顯與Oculus Rift擁有相同的視場角。紅色光標表示佩戴者的注視位置。
模糊渲染對于極其逼真的VR至關(guān)重要
DeepFocus由Facebook Reality Labs的多學(xué)科研究團隊開發(fā),與電影美學(xué)或引人注目的視覺效果無關(guān)。實際上,模糊渲染越精確,觀察者就越不可能注意到它。“我們的最終目標是提供與現(xiàn)實無法區(qū)分的視覺體驗”,F(xiàn)acebook Reality Labs的視覺科學(xué)家Marina Zannoli表示,他很早就加入了DeepFocus項目。
真正逼真的體驗的關(guān)鍵是聚焦(Focused)和散焦(Defocused)視覺效果的組合。“我們的眼睛就像微小的相機:當(dāng)它們聚焦在一個特定的物體上時,視野中處于其他景深的部分場景看起來很模糊。那些模糊的區(qū)域有助于我們的視覺系統(tǒng)理解世界的三維結(jié)構(gòu),并幫助我們決定下一步關(guān)注的焦點。
雖然可變焦VR頭顯可以在觀看者看向場景中任何地方時提供清晰的圖像,DeepFocus允許我們以現(xiàn)實世界中的外觀呈現(xiàn)場景的其余部分:自然模糊。“
此動圖演示了DeepFocus系統(tǒng)如何呈現(xiàn)模糊,頭顯佩戴者的焦點(由紅色光標表示)在場景中的不同元素之間移動。
逼真的視網(wǎng)膜模糊的最大潛在好處之一是更舒適的VR體驗。Facebook Reality Labs顯示系統(tǒng)研究總監(jiān)Douglas Lanman說:“這種技術(shù)可以實現(xiàn)全天沉浸。無論你是玩電子游戲幾個小時還是看一個無聊的電子表格到眼睛和視覺疲勞,又或者只是花一天的時間來陪伴著一幅美景,DeepFocus對所有這一切都很重要。”
在2015年Half Dome項目的早期階段,Lanman已經(jīng)認識到了模糊渲染的必要性。那時他剛加入該項目幾個月,早期的Half Dome原型展示了在VR中創(chuàng)造清晰焦點的希望。然而,基于軟件的散焦被證明是實現(xiàn)這一希望的主要障礙之一。
Facebook Reality Labs想要實現(xiàn)的方法無法利用用于渲染非VR游戲中的實時模糊的現(xiàn)有技術(shù),這些非VR游戲更多地需要產(chǎn)生引人注目的電影效果(如漂亮的散焦背景)而不是真實感。這些快速但不準確的創(chuàng)造游戲里的背景模糊的方法與Half Dome的目標背道而馳,Half Dome想要重現(xiàn)光線傳播時落在人類視網(wǎng)膜上的方式。
經(jīng)過幾個月對傳統(tǒng)技術(shù)的探索,F(xiàn)acebook Reality Labs優(yōu)化了計算機處理后的顯示畫面,但這一處理過程仍然不夠快,無法實時生成能準確匹配物理現(xiàn)實的模糊效果。
這些早期的努力暴露了在VR中渲染真實且逼真的模糊所遇到的雙重挑戰(zhàn)——要實現(xiàn)這樣的效果需要將令人難以置信的高渲染速度與先進的VR頭顯所需的圖像質(zhì)量水平相結(jié)合。
模糊渲染不是在場景開發(fā)時或觀看者第一次進入某一場景時應(yīng)用于場景的一次性過程。依賴于人眼凝視目標的模糊渲染要求設(shè)備必須提供快速且近乎即時的散焦處理,以匹配每只眼睛的運動,這種擬真程度的模糊渲染不能簡單的通過拉低頭顯佩戴者焦點以外物體的分辨率來實現(xiàn)。
Lanman意識到在這個問題上投入更多的計算機處理能力是不可行的。2016年的Half Dome在演示中通過被稱為“累積緩沖區(qū)渲染(Accumulation Buffer Rendering)”的過程實現(xiàn)了實時模糊,每只眼睛對應(yīng)的每一個場景都被渲染了32次。但使用這種方法只是因為整個場景很簡單,它不可能應(yīng)用于更廣泛的VR體驗,而Lanman專注于為整個VR社區(qū)提供軟件解決方案。
“我想要的是可以立即用于每一個游戲的東西,這樣我們就不必要求開發(fā)人員改動他們的作品,只需要打開箱子使用 Half Dome即可”,Lanman說。
將深度學(xué)習(xí)帶入VR應(yīng)用中
Lanman決定開發(fā)由AI驅(qū)動的軟件,而不是等待未來的處理器滿足我們的需求或要求客戶為更多的總處理能力支付更多的資金。具體而言,他希望探索深度學(xué)習(xí)的使用,這是一種通過使用大量相關(guān)數(shù)據(jù)進行訓(xùn)練來學(xué)習(xí)執(zhí)行特定任務(wù)的方法的AI系統(tǒng)。
深度學(xué)習(xí)算法通常用于分析甚至是生成圖像。芯片制造商一直在朝這個方向發(fā)展,它們?yōu)槠渥钚碌娘@卡添加了與AI兼容的學(xué)習(xí)核心來提高圖像質(zhì)量的上限,但深度學(xué)習(xí)在VR相關(guān)系統(tǒng)中的應(yīng)用卻相當(dāng)少見。
“我們決定利用那些推動行業(yè)趨勢的人工智能工具”,Lanman說,“不僅僅是生成畫面,還要真正讓畫面比你以前看到的更真實。”
Lanman在其深度學(xué)習(xí)戰(zhàn)略開始時,聘請了剛剛博士畢業(yè)的人工智能研究員Lei Xiao。Lei Xiao讀博士期間的研究包括數(shù)值優(yōu)化和針對計算機攝影的機器學(xué)習(xí)。“我相信從Lei在實驗室工作的第一天,我就告訴他,‘我想開發(fā)首個能像Half Dome那樣實時運行的計算顯示方案'”,Lanman說,“該解決方案必須適用于Oculus Store中的每一款體驗,且不需要開發(fā)人員重新編譯。”
Lei Xiao現(xiàn)在是Facebook Reality Labs的研究科學(xué)家,他的任務(wù)是拋開一系列復(fù)雜的、與焦點相關(guān)的參數(shù),僅僅通過已經(jīng)應(yīng)用于ASW 2.0幀率平滑技術(shù)中的顏色與深度(RGB-D)輸入數(shù)據(jù),來生成逼真的模糊效果,這些輸入數(shù)據(jù)大多數(shù)游戲引擎中也有提供。
此領(lǐng)域先前的工作一直受到虛擬場景深度不連續(xù)處出現(xiàn)的偽影以及在主流VR頭顯分辨率下運行時的性能不足困擾。理論上,對散焦有充分理解的AI系統(tǒng)可以預(yù)測相鄰像素應(yīng)該如何混合在一起,無論它們的相對深度是多少或注視位置(例如VR頭顯佩戴者的視點)位于三維空間中的哪里。
圖片中紅圈的位置在渲染過程中出現(xiàn)了偽影
如果這種技術(shù)可以使用簡單的RGB-D輸入就能實現(xiàn)逼真的模糊效果,那它對于幾乎任何VR體驗都是可行的。
上面的動圖演示了DeepFocus如何結(jié)合輸入的顏色、深度和混淆圓(Circle of Confusion)數(shù)據(jù),快速模糊處于各種焦距的物體。CoC圖確定每個像素位置所需的散焦水平,以模擬視網(wǎng)膜上的模糊形狀。
為了實現(xiàn)這種復(fù)雜的圖像理解和直接數(shù)據(jù)輸入的組合,Lei Xiao建立了一個全新的神經(jīng)網(wǎng)絡(luò)架構(gòu),專門針對實時模糊渲染進行了優(yōu)化。與傳統(tǒng)的基于深度學(xué)習(xí)的圖像分析AI系統(tǒng)不同,該系統(tǒng)可以在處理視覺效果的同時保持高質(zhì)量VR所需的超清晰圖像分辨率。
但與所有深度學(xué)習(xí)AI系統(tǒng)一樣,F(xiàn)acebook Reality Labs需要大量的訓(xùn)練數(shù)據(jù)來供AI系統(tǒng)學(xué)習(xí)。具體來說,DeepFocus需要通過查看數(shù)千個以不同距離放置各種物體的圖像來形成對聚焦和散焦的理解。沒有現(xiàn)成的數(shù)據(jù)集具有DeepFocus團隊所需的各種曲面和形狀。所以Lei Xiao和Facebook Reality Labs的技術(shù)美術(shù)Matt Chapman創(chuàng)造了一個數(shù)據(jù)集。
Facebook Reality Labs的DeepFocus團隊(從左上角開始順時針方向):Douglas Lanman,Matthew Chapman,Lei Xiao,Salah Nouri,Alexander Fix,Marina Zannoli,Anton Sochenov,Anton Kaplanyan,Paul Linton。
Chapman從Oculus產(chǎn)品團隊來到Facebook Reality Labs,在那里他制作了一些我們最知名和最優(yōu)秀的演示。對于DeepFocus,Chaperman將美學(xué)放在一邊,并給Lei Xiao一個滿是虛擬對象的互動場所。Chaperman的隨機場景生成器生成了由大量對象組成的場景,包括來自盧浮宮雕塑的3D掃描以及合成球體、立方體和3D曲線。物體隨機放置在3D空間中,深度范圍從25厘米到10米不等。
由此產(chǎn)生的對象集合令人眼花繚亂,但這是一種可以解決隨機場景生成器視覺問題的瘋狂方法。這種不自然且豐富的幾何形狀和遮擋物具有比現(xiàn)實生活中更多種類的紋理、表面和其他特征,可以作為DeepFocus深度學(xué)習(xí)系統(tǒng)的一個焦點分析訓(xùn)練營,讓DeepFocus能夠為它未見過的VR體驗渲染模糊效果。
“這是我第一次與技術(shù)美術(shù)密切合作”,Lei Xiao說。像Matt Chapman這樣的技術(shù)美術(shù)在研究機構(gòu)中很少見,但對于Facebook Reality Labs的AR和VR創(chuàng)新方法至關(guān)重要。
“Matt和我進行了大量的迭代來改進隨機場景生成器,從微調(diào)物體分布、紋理和材料到減少渲染真實圖像所需的時間”,Lei Xiao說??偟膩碚f,他們使用隨機場景生成器繪制了19.6萬張圖像對系統(tǒng)進行訓(xùn)練,使DeepFocus能夠理解如何在最多變和最不熟悉的VR環(huán)境中進行模糊渲染。
在接下來的一年中,DeepFocus團隊成長為包括視覺科學(xué)家Zannoli以及研究科學(xué)家Alexander Fix和Anton Kaplanyan的團隊,他們幫助設(shè)計了系統(tǒng)的深度學(xué)習(xí)方法。
Facebook Reality Labs的圖形研究團隊負責(zé)人Kaplanyan表示:“所有先前渲染高度逼真的模糊物體的方法都是基于人工數(shù)學(xué)模型,在一些極端情況和限制下會導(dǎo)致低質(zhì)量的結(jié)果和偽影。通過深度學(xué)習(xí),我們的系統(tǒng)能夠掌握復(fù)雜的效果和關(guān)系,例如前景和背景散焦,以及遮擋邊界處的正確模糊處理。通過生成豐富的實例數(shù)據(jù)庫,我們能夠覆蓋更廣泛的散焦效應(yīng),并為景深合成設(shè)立了新的標準。”
Facebook Reality Labs的軟件研發(fā)工程師Salah Nouri也參與了該項目,以幫助證明DeepFocus實際上可以在Half Dome上運行,并能夠使用當(dāng)前的處理器以適合VR的分辨率實時渲染模糊效果。
“當(dāng)我加入團隊時,神經(jīng)網(wǎng)絡(luò)架構(gòu)已經(jīng)建立起來了,它的表現(xiàn)不錯,能夠以1080p分辨率運行常規(guī)PC或主機游戲”,Nouri說道,他在加入Facebook Reality Labs之前曾參與過3A游戲制作。“但我們至少需要將性能提高四倍,因為VR的需求更高。”
Nouri能夠在擁有四塊GPU的電腦上演示DeepFocus和Half Dome,盡管這樣的電腦配置比消費者目前使用的主流配置要高得多,但仍然是一項重大的技術(shù)壯舉。“我們需要非常小心地在四個GPU之間進行并行工作,讓它們之間的內(nèi)存?zhèn)鬏斝纬梢粋€流水線,這樣四個GPU之間的并行工作才不會引入任何額外的延遲或者是計算開銷”,Nouri說。
Facebook Reality Labs并沒有滿足于這項技術(shù)的軟硬件,他們的最終目標是在單個GPU上以VR頭顯目前的分辨率進行實時模糊渲染。但他們在SIGGRAPH Asia大會上展示的四GPU渲染演示和研究代表了一個重要的里程碑,無論是在將人工智能技術(shù)集成到圖形渲染的層面,還是開發(fā)新的更具沉浸感更逼真的VR體驗層面。
“我們想看看實時模糊渲染可以為VR帶來些什么”,Lanman說,“所以它需要被用于真正的VR游戲中。我們做到了,這解鎖了一個認知上的新宇宙。“
散焦模糊渲染技術(shù)的未來是光明的
借助DeepFocus和Half Dome這兩樣工具,我們現(xiàn)在可以更好地了解真實性對于用戶在VR和AR中的體驗做出了怎樣的貢獻。雖然我們目前在Half Dome上使用DeepFocus這項技術(shù),但DeepFocus這一基于深度學(xué)習(xí)的散焦渲染系統(tǒng)是與硬件無關(guān)。
Facebook Reality Labs的研究報告顯示,除了在變焦顯示器上進行實時模糊渲染外,DeepFocus還可以支持高質(zhì)量的多焦點和光場顯示圖像合成。這使這一系統(tǒng)適用于所有將被廣泛使用的下一代頭戴式顯示器技術(shù)。
將DeepFocus的源代碼和訓(xùn)練數(shù)據(jù)開源,不僅為開發(fā)新VR系統(tǒng)的工程師提供了框架,也為視覺科學(xué)家和長期研究感知問題的其他研究人員提供了框架。例如,我們的視覺系統(tǒng)如何利用環(huán)境中的模糊畫面來重新讓我們的眼睛聚焦?模糊的畫面可以告訴我們的大腦哪些關(guān)于世界三維結(jié)構(gòu)的信息?
DeepFocus可能是實時模糊渲染的最后一塊拼圖,但這套系統(tǒng)所能提供的尖端研究才剛剛開始。
來源:87870