今年5月底,F(xiàn)acebook Reality Labs推出了Half Dome原型機(jī)。這是業(yè)界首款集成了眼動(dòng)追蹤相機(jī)、寬視場(chǎng)光學(xué)系統(tǒng)和可獨(dú)立變焦顯示器的VR頭顯,展示了VR體驗(yàn)發(fā)展方向。
Half Dome的變焦設(shè)計(jì)可以根據(jù)用戶眼球的運(yùn)動(dòng)來顯示相應(yīng)的畫面,使每個(gè)虛擬物體都能清晰聚焦。這種更加先進(jìn)的顯示方法可以在VR中創(chuàng)造更舒適、自然和富有沉浸感的真實(shí)畫面。但要充分發(fā)揮其潛力,Half Dome不僅需要更高級(jí)的硬件,同樣需要具有創(chuàng)新性的軟件。
于是DeepFocus應(yīng)運(yùn)而生。這是一種新的人工智能渲染系統(tǒng),可與Half Dome配合使用,模仿我們?cè)谌粘I钪杏^察世界的方式,創(chuàng)建逼真的散焦效果。DeepFocus是第一個(gè)能夠產(chǎn)生這種效果的系統(tǒng),它以一種實(shí)時(shí)的、逼真的且依賴于凝視方式來對(duì)VR頭顯佩戴者沒有聚焦的場(chǎng)景部分進(jìn)行模糊。
本月在東京舉辦的SIGGRAPH Asia大會(huì)上Facebook Reality Labs展示了該研究論文,目前DeepFocus正在進(jìn)行開源,開源內(nèi)容包括系統(tǒng)代碼和我們用來訓(xùn)練它的數(shù)據(jù)集,以幫助更廣泛的VR研究人員將模糊畫面的效果融入他們的工作中。
下面的動(dòng)圖演示了一款使用了DeepFocus技術(shù)的Half Dome原型,該頭顯與Oculus Rift擁有相同的視場(chǎng)角。紅色光標(biāo)表示佩戴者的注視位置。
模糊渲染對(duì)于極其逼真的VR至關(guān)重要
DeepFocus由Facebook Reality Labs的多學(xué)科研究團(tuán)隊(duì)開發(fā),與電影美學(xué)或引人注目的視覺效果無關(guān)。實(shí)際上,模糊渲染越精確,觀察者就越不可能注意到它。“我們的最終目標(biāo)是提供與現(xiàn)實(shí)無法區(qū)分的視覺體驗(yàn)”,F(xiàn)acebook Reality Labs的視覺科學(xué)家Marina Zannoli表示,他很早就加入了DeepFocus項(xiàng)目。
真正逼真的體驗(yàn)的關(guān)鍵是聚焦(Focused)和散焦(Defocused)視覺效果的組合。“我們的眼睛就像微小的相機(jī):當(dāng)它們聚焦在一個(gè)特定的物體上時(shí),視野中處于其他景深的部分場(chǎng)景看起來很模糊。那些模糊的區(qū)域有助于我們的視覺系統(tǒng)理解世界的三維結(jié)構(gòu),并幫助我們決定下一步關(guān)注的焦點(diǎn)。
雖然可變焦VR頭顯可以在觀看者看向場(chǎng)景中任何地方時(shí)提供清晰的圖像,DeepFocus允許我們以現(xiàn)實(shí)世界中的外觀呈現(xiàn)場(chǎng)景的其余部分:自然模糊。“
此動(dòng)圖演示了DeepFocus系統(tǒng)如何呈現(xiàn)模糊,頭顯佩戴者的焦點(diǎn)(由紅色光標(biāo)表示)在場(chǎng)景中的不同元素之間移動(dòng)。
逼真的視網(wǎng)膜模糊的最大潛在好處之一是更舒適的VR體驗(yàn)。Facebook Reality Labs顯示系統(tǒng)研究總監(jiān)Douglas Lanman說:“這種技術(shù)可以實(shí)現(xiàn)全天沉浸。無論你是玩電子游戲幾個(gè)小時(shí)還是看一個(gè)無聊的電子表格到眼睛和視覺疲勞,又或者只是花一天的時(shí)間來陪伴著一幅美景,DeepFocus對(duì)所有這一切都很重要。”
在2015年Half Dome項(xiàng)目的早期階段,Lanman已經(jīng)認(rèn)識(shí)到了模糊渲染的必要性。那時(shí)他剛加入該項(xiàng)目幾個(gè)月,早期的Half Dome原型展示了在VR中創(chuàng)造清晰焦點(diǎn)的希望。然而,基于軟件的散焦被證明是實(shí)現(xiàn)這一希望的主要障礙之一。
Facebook Reality Labs想要實(shí)現(xiàn)的方法無法利用用于渲染非VR游戲中的實(shí)時(shí)模糊的現(xiàn)有技術(shù),這些非VR游戲更多地需要產(chǎn)生引人注目的電影效果(如漂亮的散焦背景)而不是真實(shí)感。這些快速但不準(zhǔn)確的創(chuàng)造游戲里的背景模糊的方法與Half Dome的目標(biāo)背道而馳,Half Dome想要重現(xiàn)光線傳播時(shí)落在人類視網(wǎng)膜上的方式。
經(jīng)過幾個(gè)月對(duì)傳統(tǒng)技術(shù)的探索,F(xiàn)acebook Reality Labs優(yōu)化了計(jì)算機(jī)處理后的顯示畫面,但這一處理過程仍然不夠快,無法實(shí)時(shí)生成能準(zhǔn)確匹配物理現(xiàn)實(shí)的模糊效果。
這些早期的努力暴露了在VR中渲染真實(shí)且逼真的模糊所遇到的雙重挑戰(zhàn)——要實(shí)現(xiàn)這樣的效果需要將令人難以置信的高渲染速度與先進(jìn)的VR頭顯所需的圖像質(zhì)量水平相結(jié)合。
模糊渲染不是在場(chǎng)景開發(fā)時(shí)或觀看者第一次進(jìn)入某一場(chǎng)景時(shí)應(yīng)用于場(chǎng)景的一次性過程。依賴于人眼凝視目標(biāo)的模糊渲染要求設(shè)備必須提供快速且近乎即時(shí)的散焦處理,以匹配每只眼睛的運(yùn)動(dòng),這種擬真程度的模糊渲染不能簡(jiǎn)單的通過拉低頭顯佩戴者焦點(diǎn)以外物體的分辨率來實(shí)現(xiàn)。
Lanman意識(shí)到在這個(gè)問題上投入更多的計(jì)算機(jī)處理能力是不可行的。2016年的Half Dome在演示中通過被稱為“累積緩沖區(qū)渲染(Accumulation Buffer Rendering)”的過程實(shí)現(xiàn)了實(shí)時(shí)模糊,每只眼睛對(duì)應(yīng)的每一個(gè)場(chǎng)景都被渲染了32次。但使用這種方法只是因?yàn)檎麄€(gè)場(chǎng)景很簡(jiǎn)單,它不可能應(yīng)用于更廣泛的VR體驗(yàn),而Lanman專注于為整個(gè)VR社區(qū)提供軟件解決方案。
“我想要的是可以立即用于每一個(gè)游戲的東西,這樣我們就不必要求開發(fā)人員改動(dòng)他們的作品,只需要打開箱子使用 Half Dome即可”,Lanman說。
將深度學(xué)習(xí)帶入VR應(yīng)用中
Lanman決定開發(fā)由AI驅(qū)動(dòng)的軟件,而不是等待未來的處理器滿足我們的需求或要求客戶為更多的總處理能力支付更多的資金。具體而言,他希望探索深度學(xué)習(xí)的使用,這是一種通過使用大量相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練來學(xué)習(xí)執(zhí)行特定任務(wù)的方法的AI系統(tǒng)。
深度學(xué)習(xí)算法通常用于分析甚至是生成圖像。芯片制造商一直在朝這個(gè)方向發(fā)展,它們?yōu)槠渥钚碌娘@卡添加了與AI兼容的學(xué)習(xí)核心來提高圖像質(zhì)量的上限,但深度學(xué)習(xí)在VR相關(guān)系統(tǒng)中的應(yīng)用卻相當(dāng)少見。
“我們決定利用那些推動(dòng)行業(yè)趨勢(shì)的人工智能工具”,Lanman說,“不僅僅是生成畫面,還要真正讓畫面比你以前看到的更真實(shí)。”
Lanman在其深度學(xué)習(xí)戰(zhàn)略開始時(shí),聘請(qǐng)了剛剛博士畢業(yè)的人工智能研究員Lei Xiao。Lei Xiao讀博士期間的研究包括數(shù)值優(yōu)化和針對(duì)計(jì)算機(jī)攝影的機(jī)器學(xué)習(xí)。“我相信從Lei在實(shí)驗(yàn)室工作的第一天,我就告訴他,‘我想開發(fā)首個(gè)能像Half Dome那樣實(shí)時(shí)運(yùn)行的計(jì)算顯示方案'”,Lanman說,“該解決方案必須適用于Oculus Store中的每一款體驗(yàn),且不需要開發(fā)人員重新編譯。”
Lei Xiao現(xiàn)在是Facebook Reality Labs的研究科學(xué)家,他的任務(wù)是拋開一系列復(fù)雜的、與焦點(diǎn)相關(guān)的參數(shù),僅僅通過已經(jīng)應(yīng)用于ASW 2.0幀率平滑技術(shù)中的顏色與深度(RGB-D)輸入數(shù)據(jù),來生成逼真的模糊效果,這些輸入數(shù)據(jù)大多數(shù)游戲引擎中也有提供。
此領(lǐng)域先前的工作一直受到虛擬場(chǎng)景深度不連續(xù)處出現(xiàn)的偽影以及在主流VR頭顯分辨率下運(yùn)行時(shí)的性能不足困擾。理論上,對(duì)散焦有充分理解的AI系統(tǒng)可以預(yù)測(cè)相鄰像素應(yīng)該如何混合在一起,無論它們的相對(duì)深度是多少或注視位置(例如VR頭顯佩戴者的視點(diǎn))位于三維空間中的哪里。
圖片中紅圈的位置在渲染過程中出現(xiàn)了偽影
如果這種技術(shù)可以使用簡(jiǎn)單的RGB-D輸入就能實(shí)現(xiàn)逼真的模糊效果,那它對(duì)于幾乎任何VR體驗(yàn)都是可行的。
上面的動(dòng)圖演示了DeepFocus如何結(jié)合輸入的顏色、深度和混淆圓(Circle of Confusion)數(shù)據(jù),快速模糊處于各種焦距的物體。CoC圖確定每個(gè)像素位置所需的散焦水平,以模擬視網(wǎng)膜上的模糊形狀。
為了實(shí)現(xiàn)這種復(fù)雜的圖像理解和直接數(shù)據(jù)輸入的組合,Lei Xiao建立了一個(gè)全新的神經(jīng)網(wǎng)絡(luò)架構(gòu),專門針對(duì)實(shí)時(shí)模糊渲染進(jìn)行了優(yōu)化。與傳統(tǒng)的基于深度學(xué)習(xí)的圖像分析AI系統(tǒng)不同,該系統(tǒng)可以在處理視覺效果的同時(shí)保持高質(zhì)量VR所需的超清晰圖像分辨率。
但與所有深度學(xué)習(xí)AI系統(tǒng)一樣,F(xiàn)acebook Reality Labs需要大量的訓(xùn)練數(shù)據(jù)來供AI系統(tǒng)學(xué)習(xí)。具體來說,DeepFocus需要通過查看數(shù)千個(gè)以不同距離放置各種物體的圖像來形成對(duì)聚焦和散焦的理解。沒有現(xiàn)成的數(shù)據(jù)集具有DeepFocus團(tuán)隊(duì)所需的各種曲面和形狀。所以Lei Xiao和Facebook Reality Labs的技術(shù)美術(shù)Matt Chapman創(chuàng)造了一個(gè)數(shù)據(jù)集。
Facebook Reality Labs的DeepFocus團(tuán)隊(duì)(從左上角開始順時(shí)針方向):Douglas Lanman,Matthew Chapman,Lei Xiao,Salah Nouri,Alexander Fix,Marina Zannoli,Anton Sochenov,Anton Kaplanyan,Paul Linton。
Chapman從Oculus產(chǎn)品團(tuán)隊(duì)來到Facebook Reality Labs,在那里他制作了一些我們最知名和最優(yōu)秀的演示。對(duì)于DeepFocus,Chaperman將美學(xué)放在一邊,并給Lei Xiao一個(gè)滿是虛擬對(duì)象的互動(dòng)場(chǎng)所。Chaperman的隨機(jī)場(chǎng)景生成器生成了由大量對(duì)象組成的場(chǎng)景,包括來自盧浮宮雕塑的3D掃描以及合成球體、立方體和3D曲線。物體隨機(jī)放置在3D空間中,深度范圍從25厘米到10米不等。
由此產(chǎn)生的對(duì)象集合令人眼花繚亂,但這是一種可以解決隨機(jī)場(chǎng)景生成器視覺問題的瘋狂方法。這種不自然且豐富的幾何形狀和遮擋物具有比現(xiàn)實(shí)生活中更多種類的紋理、表面和其他特征,可以作為DeepFocus深度學(xué)習(xí)系統(tǒng)的一個(gè)焦點(diǎn)分析訓(xùn)練營(yíng),讓DeepFocus能夠?yàn)樗匆娺^的VR體驗(yàn)渲染模糊效果。
“這是我第一次與技術(shù)美術(shù)密切合作”,Lei Xiao說。像Matt Chapman這樣的技術(shù)美術(shù)在研究機(jī)構(gòu)中很少見,但對(duì)于Facebook Reality Labs的AR和VR創(chuàng)新方法至關(guān)重要。
“Matt和我進(jìn)行了大量的迭代來改進(jìn)隨機(jī)場(chǎng)景生成器,從微調(diào)物體分布、紋理和材料到減少渲染真實(shí)圖像所需的時(shí)間”,Lei Xiao說??偟膩碚f,他們使用隨機(jī)場(chǎng)景生成器繪制了19.6萬(wàn)張圖像對(duì)系統(tǒng)進(jìn)行訓(xùn)練,使DeepFocus能夠理解如何在最多變和最不熟悉的VR環(huán)境中進(jìn)行模糊渲染。
在接下來的一年中,DeepFocus團(tuán)隊(duì)成長(zhǎng)為包括視覺科學(xué)家Zannoli以及研究科學(xué)家Alexander Fix和Anton Kaplanyan的團(tuán)隊(duì),他們幫助設(shè)計(jì)了系統(tǒng)的深度學(xué)習(xí)方法。
Facebook Reality Labs的圖形研究團(tuán)隊(duì)負(fù)責(zé)人Kaplanyan表示:“所有先前渲染高度逼真的模糊物體的方法都是基于人工數(shù)學(xué)模型,在一些極端情況和限制下會(huì)導(dǎo)致低質(zhì)量的結(jié)果和偽影。通過深度學(xué)習(xí),我們的系統(tǒng)能夠掌握復(fù)雜的效果和關(guān)系,例如前景和背景散焦,以及遮擋邊界處的正確模糊處理。通過生成豐富的實(shí)例數(shù)據(jù)庫(kù),我們能夠覆蓋更廣泛的散焦效應(yīng),并為景深合成設(shè)立了新的標(biāo)準(zhǔn)。”
Facebook Reality Labs的軟件研發(fā)工程師Salah Nouri也參與了該項(xiàng)目,以幫助證明DeepFocus實(shí)際上可以在Half Dome上運(yùn)行,并能夠使用當(dāng)前的處理器以適合VR的分辨率實(shí)時(shí)渲染模糊效果。
“當(dāng)我加入團(tuán)隊(duì)時(shí),神經(jīng)網(wǎng)絡(luò)架構(gòu)已經(jīng)建立起來了,它的表現(xiàn)不錯(cuò),能夠以1080p分辨率運(yùn)行常規(guī)PC或主機(jī)游戲”,Nouri說道,他在加入Facebook Reality Labs之前曾參與過3A游戲制作。“但我們至少需要將性能提高四倍,因?yàn)閂R的需求更高。”
Nouri能夠在擁有四塊GPU的電腦上演示DeepFocus和Half Dome,盡管這樣的電腦配置比消費(fèi)者目前使用的主流配置要高得多,但仍然是一項(xiàng)重大的技術(shù)壯舉。“我們需要非常小心地在四個(gè)GPU之間進(jìn)行并行工作,讓它們之間的內(nèi)存?zhèn)鬏斝纬梢粋€(gè)流水線,這樣四個(gè)GPU之間的并行工作才不會(huì)引入任何額外的延遲或者是計(jì)算開銷”,Nouri說。
Facebook Reality Labs并沒有滿足于這項(xiàng)技術(shù)的軟硬件,他們的最終目標(biāo)是在單個(gè)GPU上以VR頭顯目前的分辨率進(jìn)行實(shí)時(shí)模糊渲染。但他們?cè)赟IGGRAPH Asia大會(huì)上展示的四GPU渲染演示和研究代表了一個(gè)重要的里程碑,無論是在將人工智能技術(shù)集成到圖形渲染的層面,還是開發(fā)新的更具沉浸感更逼真的VR體驗(yàn)層面。
“我們想看看實(shí)時(shí)模糊渲染可以為VR帶來些什么”,Lanman說,“所以它需要被用于真正的VR游戲中。我們做到了,這解鎖了一個(gè)認(rèn)知上的新宇宙。“
散焦模糊渲染技術(shù)的未來是光明的
借助DeepFocus和Half Dome這兩樣工具,我們現(xiàn)在可以更好地了解真實(shí)性對(duì)于用戶在VR和AR中的體驗(yàn)做出了怎樣的貢獻(xiàn)。雖然我們目前在Half Dome上使用DeepFocus這項(xiàng)技術(shù),但DeepFocus這一基于深度學(xué)習(xí)的散焦渲染系統(tǒng)是與硬件無關(guān)。
Facebook Reality Labs的研究報(bào)告顯示,除了在變焦顯示器上進(jìn)行實(shí)時(shí)模糊渲染外,DeepFocus還可以支持高質(zhì)量的多焦點(diǎn)和光場(chǎng)顯示圖像合成。這使這一系統(tǒng)適用于所有將被廣泛使用的下一代頭戴式顯示器技術(shù)。
將DeepFocus的源代碼和訓(xùn)練數(shù)據(jù)開源,不僅為開發(fā)新VR系統(tǒng)的工程師提供了框架,也為視覺科學(xué)家和長(zhǎng)期研究感知問題的其他研究人員提供了框架。例如,我們的視覺系統(tǒng)如何利用環(huán)境中的模糊畫面來重新讓我們的眼睛聚焦?模糊的畫面可以告訴我們的大腦哪些關(guān)于世界三維結(jié)構(gòu)的信息?
DeepFocus可能是實(shí)時(shí)模糊渲染的最后一塊拼圖,但這套系統(tǒng)所能提供的尖端研究才剛剛開始。
來源:87870