Google 虛擬現(xiàn)實(shí)攝像機(jī)到底是個(gè)什么玩意兒

本文作者： Nada

2015-06-11 11:55

導(dǎo)語(yǔ)：Jump 虛擬現(xiàn)實(shí)拍攝裝置看起來(lái)是個(gè)很有意思的東東，讓我來(lái)介紹一下吧。

文/Nada

先看這個(gè)視頻，了解下 I/O 大會(huì) VR 部分總覽：

讓我們仔細(xì)分析下其中最有趣的東西（至少我認(rèn)為?。篔ump 虛擬現(xiàn)實(shí)拍攝裝置。我們來(lái)解析下這個(gè)玩意兒，看和之前各種拼接的什么環(huán)視啊什么360°啊到底有什么不同。

首先，Jump 是一個(gè) GoPro 陣列，外形上看和各種 VR 影像公司提供的東西沒(méi)什么不同，不過(guò)是攝像頭數(shù)量的多寡而已。Google 的產(chǎn)品副總監(jiān)，VR/AR 部負(fù)責(zé)人 Clay Bavor 稱(chēng)這個(gè)東西通過(guò)自己去買(mǎi)到的些部件就能拼起來(lái)。Google 自己不賣(mài)這玩意兒，但他們會(huì)放出 CAD 圖紙讓任何想搞的人去生產(chǎn)售賣(mài)。下圖是渲染圖，但他們也有實(shí)體照片，因此這并非停留在概念的層面：

Google 虛擬現(xiàn)實(shí)攝像機(jī)到底是個(gè)什么玩意兒

而且，他們也依舊拿紙糊了一個(gè)（8000美金的攝像頭以及8塊錢(qián)的紙板）。但在你雄心勃勃地想要自己去生產(chǎn)這個(gè)玩意兒開(kāi)始創(chuàng)業(yè)，上市老總，成為妖股，迎娶白富美，走向人生巔峰之前，你要曉得 GoPro 是要打算從今年開(kāi)夏賣(mài)這個(gè)東西的。GoPro 賣(mài)這個(gè)了粗糧豈能坐視不管？不過(guò)總之吧，如果你想要個(gè)性化顏色什么的還是可以自己去做吧，塑料版淘寶上肯定馬上能有的啦。不過(guò)要注意的就是這個(gè)結(jié)構(gòu)的松緊，因?yàn)閿z像頭的位置是非常重要的。

一眼瞄過(guò)來(lái)，這個(gè)圓形陣列并沒(méi)有朝上或朝下的攝像頭，如果按照 GoPro 4 Black 的規(guī)格，這個(gè)陣列能捕捉水平360°的畫(huà)面，但垂直只有120°。因此，頂上腳下都會(huì)丟失60°的可視角度。此外，Jump 乍一看像非立體的單眼攝像機(jī)，每個(gè)相機(jī)都對(duì)著不同方向。多數(shù) 3D GoPro 相機(jī)有兩個(gè)攝像頭對(duì)準(zhǔn)某個(gè)方向，類(lèi)似這樣：

Google 虛擬現(xiàn)實(shí)攝像機(jī)到底是個(gè)什么玩意兒

當(dāng)有兩個(gè)攝像頭對(duì)準(zhǔn)某個(gè)方向后，你在這個(gè)方向上就能給每只眼以不同的畫(huà)面，這樣就有了視角差和立體效果。畫(huà)面也會(huì)有拼接痕跡，因?yàn)槟硞€(gè)方向的“左”攝像頭離另一個(gè)方向的“左”攝像頭有點(diǎn)遠(yuǎn)（顯然，如果不管立體效果，平面相機(jī)的）。圍繞著對(duì)于降低拼接痕跡的各種方式，誕生了一個(gè)小微行業(yè)。

而這一點(diǎn)就是 Google 這個(gè)解決方案的大牛之處：這個(gè)看起來(lái)像平面相機(jī)組的攝影陣列實(shí)際上是立體的。每個(gè)攝像頭拍攝的畫(huà)面并不是給左眼或者右眼的，這些數(shù)據(jù)可以給兩眼都使用。3D 效果是通過(guò)計(jì)算機(jī)圖形學(xué)來(lái)得到相對(duì)的立體位置，再重新映射到你的眼中，因此根本沒(méi)有拼接痕跡（理論上）。非常屌，因?yàn)檫@種不到1W美金的半專(zhuān)業(yè)設(shè)備能捕捉流暢的360°3D VR 影片的話，是一個(gè)非常大的突破。

工作原理是這樣的：因?yàn)檐浖烂績(jī)蓚€(gè)攝像頭之間的相對(duì)距離、位置，因此只要它能計(jì)算出兩個(gè)攝像頭之間的場(chǎng)景像素，就能得到場(chǎng)景中某個(gè)點(diǎn)的深度。使用這些立體數(shù)據(jù)，你可以通過(guò)扭曲某個(gè)畫(huà)面來(lái)得到所謂的“立體垂直”視野：基本上，每個(gè)攝像頭拍到的畫(huà)面都是正確的視差點(diǎn)（對(duì)于以前的那些針對(duì)雙目的立體拍攝設(shè)備，只有在雙眼的攝像頭之間的拍攝畫(huà)面才有正確的視角差，也就是說(shuō)越往邊上去，立體感越差）。當(dāng)然，這需要大量的計(jì)算，不過(guò)誰(shuí)讓 Google 自己電腦多呢。

當(dāng)你從某個(gè)攝像頭的畫(huà)面過(guò)度到另一個(gè)攝像頭的捕捉畫(huà)面時(shí)，視角會(huì)稍微偏一點(diǎn)點(diǎn)。為了連接畫(huà)面（或建立3D模型），你從鄰近的攝像頭離找到相匹配的區(qū)域，比如你從 A 攝像頭找到一組像素，然后在 B 攝像頭也去找同樣的一組（這個(gè)一組指的是同一個(gè)相關(guān)部位，比如同一片樹(shù)葉，不同位置攝像頭拍出來(lái)的畫(huà)面會(huì)稍有不同），實(shí)際上你是能知道往哪找的（相鄰攝像機(jī)拍出來(lái)的圖像差別不會(huì)太大），比起那些未校準(zhǔn)的相機(jī)也會(huì)極大提升處理速度。目前已存在的拼接軟件比如 Videostitch 或者 Kolor （早前被 GoPro 收購(gòu)了）由于是通用軟件，會(huì)對(duì)你的拍攝設(shè)備結(jié)構(gòu)做一些猜測(cè)，但如果是類(lèi)似 Google 這種校準(zhǔn)過(guò)的攝像頭，就只需要通過(guò)嚴(yán)密的數(shù)學(xué)算法解決。

當(dāng)你找到匹配的區(qū)域，同時(shí)也知道在圖片上這些區(qū)域的距離差，你就能計(jì)算出相機(jī)陣列和這個(gè)區(qū)域?qū)嵨镏g的距離。如果物體，比如說(shuō)天空是在無(wú)限遠(yuǎn)，那么兩個(gè)相鄰相機(jī)照出來(lái)的圖片天空部位會(huì)非常接近。當(dāng)物體離相機(jī)很近時(shí)，物體在畫(huà)面上會(huì)變大，同時(shí)兩個(gè)相鄰相機(jī)拍出來(lái)的圖像也會(huì)有較大距離偏差。具體的偏差完全由物體離攝像陣列的距離決定，因此你可以得到非常精確的物體位置。

Google 虛擬現(xiàn)實(shí)攝像機(jī)到底是個(gè)什么玩意兒

更準(zhǔn)確一點(diǎn)，你是在右邊尋找這條對(duì)極幾何線。由于 GoPro 鏡頭扭曲得很厲害，這條線實(shí)際上是彎的。不過(guò)基于這種方式的高效算法也僅只有幾年時(shí)間而已，如果想閱讀相關(guān)文獻(xiàn)，可以到這里（閱讀原文）買(mǎi)。

當(dāng)有了 3D 模型后，你甚至能得到一定的四處看、頭部跟蹤的范圍。不過(guò)只有一小部分，而且你沒(méi)有任何的垂直視角差。圖像的點(diǎn)理論上都有正確的深度信息，但后面的背景信息你是沒(méi)有的，在你垂直移動(dòng)時(shí)會(huì)出現(xiàn)問(wèn)題。（通過(guò)差值來(lái)填補(bǔ)像素并非完全不可能，但復(fù)雜度也會(huì)大很多，而且目前來(lái)看也沒(méi)這個(gè)必要）

這么說(shuō)起來(lái)，好像前景分外光明一片大好啊，但現(xiàn)在問(wèn)題來(lái)了，計(jì)算機(jī)圖形并不是靈丹妙藥。當(dāng)通過(guò)以上算法來(lái)計(jì)算差別時(shí)，我們默認(rèn)相鄰兩幅圖是相似的，像素是能互相對(duì)應(yīng)的。對(duì)于沒(méi)有鏡面反射的不光滑表面來(lái)說(shuō)，OK沒(méi)有問(wèn)題(技術(shù)用語(yǔ)是朗伯表面)，但只要有發(fā)光閃爍就會(huì)出現(xiàn)問(wèn)題。Google 視頻中的演示是靜態(tài)的，但對(duì)于自然界光線復(fù)雜時(shí)，對(duì)于算法的要求就高了，可能會(huì)弄出各種奇怪的或是撕裂或是扭曲變形的圖像狀況。

另外一種明顯的會(huì)搞暈?zāi)闼惴ǖ臓顩r就是重復(fù)的圖形，因?yàn)樗惴赡軙?huì)識(shí)別到錯(cuò)誤的區(qū)域（磚墻啦鎖鏈欄桿啦都是這類(lèi)技巧的災(zāi)星，當(dāng)然也有一些繞過(guò)去的技巧）。此外透明的玻璃啦、沒(méi)有紋理的白墻之類(lèi)的東西啦也不好搞。還有無(wú)中生有的一些東西，比如電話線中間的空間：電話線繞了一圈，背景是白墻，那么對(duì)于算法來(lái)說(shuō)咦這兩組像素好像啊，肯定是一個(gè)物體。但其實(shí)什么也沒(méi)有，只是電話線圈出來(lái)的虛空。壓縮也會(huì)帶來(lái)高頻錯(cuò)誤：GoPro 是即時(shí)把數(shù)據(jù)壓成 H.264 的，而壓縮質(zhì)量也參差不齊。什么樹(shù)葉、鏡頭反射之類(lèi)的就更別說(shuō)了。

當(dāng)然，畢竟 Google 從街景時(shí)代就一直在做方面的研究，因此積累也很深了 - 而在演示中他們甚至放出了一些算法方面的解決途徑，Bavor 展示了算法追蹤場(chǎng)景得到的等高線輪廓圖：

Google 虛擬現(xiàn)實(shí)攝像機(jī)到底是個(gè)什么玩意兒

Google 有可能是通過(guò)這種方式來(lái)解決上面提到的一些問(wèn)題的：當(dāng)兩個(gè)攝像頭拍攝到的圖片某部分不好吻合時(shí)，那么就從這部分周邊通過(guò)插值來(lái)得到深度數(shù)據(jù)。比如你得到一些完全錯(cuò)誤的數(shù)據(jù)，比如鏡頭的反射閃光或者假的匹配，就忽略掉并直接采用插值數(shù)據(jù)。當(dāng)然這是一種柔化或者低通的處理方式，而且這幅曲線圖看起來(lái)也就是 Google 的算法直接生成的，因?yàn)槿绻阕屑?xì)看會(huì)發(fā)現(xiàn)其結(jié)果并不完全匹配真實(shí)世界：線條在邊緣處過(guò)于光滑（看柱子頂部），而且一直連續(xù)，就好像一條被撐開(kāi)的大橡皮筋套在整個(gè)場(chǎng)景里一樣（雖然聽(tīng)起來(lái)離真實(shí)世界差距很大，但你要知道我們對(duì)于深度的感知并不僅僅靠的是深度本身的精確性，而避免立體錯(cuò)誤比起讓深度完全正確要必要得多）。如果這的確是 Google 算法算出來(lái)的場(chǎng)景部分，其中一部分尤其彰顯了這個(gè)橡皮筋效果：

Google 虛擬現(xiàn)實(shí)攝像機(jī)到底是個(gè)什么玩意兒

當(dāng)然無(wú)論怎樣都是會(huì)有差錯(cuò)的。而且其實(shí)這些場(chǎng)景中都有一些去看就能看到的問(wèn)題。比如說(shuō)你去看著右邊中間前景里的一疊木制柱子，當(dāng)視角橫向來(lái)回移動(dòng)時(shí)其反光和形狀都發(fā)生了重影、斷裂。

Google 虛擬現(xiàn)實(shí)攝像機(jī)到底是個(gè)什么玩意兒

也許這個(gè)例子看起來(lái)還不是什么大問(wèn)題，但目前這個(gè)系統(tǒng)我們還不知道那些往常的反射、睡眠、重復(fù)圖案、透明等問(wèn)題如何解決。當(dāng)然，視頻中的演示確實(shí)不錯(cuò)，至少這個(gè)系統(tǒng)也會(huì)提高制作 VR 攝像裝備的門(mén)檻，大概淘汰掉現(xiàn)在業(yè)界八成左右的人吧（當(dāng)然國(guó)內(nèi)不一樣，反而會(huì)降低門(mén)檻，連個(gè) Cardboard 都能拿去上市）。

但使用起來(lái)其實(shí)也不是那么輕松，畢竟這么大。GoPro 會(huì)在夏季發(fā)布官方產(chǎn)品，不過(guò)反正 Google 會(huì)放出圖紙，希望同時(shí)開(kāi)啟16個(gè)攝像頭的方式并不復(fù)雜。Bavor 說(shuō)曝光會(huì)搭配得很好，幀同步應(yīng)該也不是問(wèn)題。但在幀同步這一方面，我們不確定是意味著半幀時(shí)間內(nèi)的同步，還是類(lèi)似于專(zhuān)業(yè)3D攝像系統(tǒng)的毫秒乃至微秒級(jí)的同步。聽(tīng)說(shuō) GoPro3 和 4 無(wú)法被硬同步到毫秒或者微秒級(jí)，也不知是真是假（GoPro 有這個(gè) 3D 系統(tǒng)，但無(wú)法選擇 Hero 3 或者 Hero 4）。從內(nèi)容制作者的角度來(lái)看，這可能是個(gè)問(wèn)題；因?yàn)樵诎牒撩爰?jí)別的誤差下，高速運(yùn)動(dòng)的物體或者攝像頭都會(huì)導(dǎo)致最終拼接畫(huà)面的錯(cuò)誤，同時(shí)攝像頭的時(shí)鐘可能是石英晶振器容易有漂移現(xiàn)象（千分之一的漂移意味著60fps下每20秒會(huì)丟失一幀）。當(dāng)然，對(duì)精確度的要求取決于你想要拍攝的場(chǎng)景和對(duì)象，但諷刺的是有可能 GoPro 將不再適合用來(lái)拍攝高速動(dòng)作片段了。

而一脈相承的，GoPro 也有明顯的果凍效應(yīng)（Rolling Shutter），GoPro Black 的 4k 影片拍攝幀率為30，那么你會(huì)看到30ms左右的果凍延遲。因?yàn)榕臄z是逐行掃描的，掃描完一個(gè)畫(huà)面需要33ms的話在這個(gè)過(guò)程中物體或者攝像頭有移動(dòng)，就會(huì)產(chǎn)生比較明顯的形變。這種形變會(huì)如何影響到 Google 的算法？目前不得而知，只有等具體的產(chǎn)品出來(lái)了。

當(dāng)然，提高幀率是能降低一些問(wèn)題，不過(guò)最終的可用性如何呢？粗略計(jì)算這個(gè)攝像機(jī)組每小時(shí)的視頻容量將達(dá)430GB：在GoPro Black 里，你可以以 60Mbit 錄制 H.264 壓縮的視頻流，也就是每秒每個(gè)攝像頭7.5mb。所有16個(gè)攝像頭1個(gè)小時(shí)就是432GB?？礃幼幽愕挠脖P(pán)、SD卡也得準(zhǔn)備一大堆啊，當(dāng)然有摩爾定律在幾年后可能我們也會(huì)跨入PB時(shí)代了吧。

Google 虛擬現(xiàn)實(shí)攝像機(jī)到底是個(gè)什么玩意兒

Bavor 提到這些攝像頭拍攝出的源文件基本上和“5個(gè)4k電視”那么大。掐指一算，大概就是20k，或者20480 x 2160。當(dāng)然這是源文件，至于處理后的文件呢？我們知道有大量數(shù)據(jù)是為了建模，實(shí)際上是不需要的 - 如果我們把這些 GoPro 排成一排拍攝不去管它們的重疊部分，總共達(dá)到 1510°（94.4° x 16），而顯然我們只需要其中的360°，大概是1/4的樣子，而剩下的3/4都是給算法用來(lái)消除誤差用的。

無(wú)論如何，對(duì)于 Jump，以及在大會(huì)上宣布的拍攝+Google 服務(wù)器云計(jì)算+Youtube 終端播放（目前已經(jīng)支持4k，360°和60fps視頻，360°3D將會(huì)在今年夏天和 Jump 一起發(fā)布），彰顯了 Google 把自己定位成在 VR 內(nèi)容領(lǐng)域的一個(gè)大玩家。對(duì)于普通人來(lái)說(shuō)，VR 視頻是普及 VR 的最關(guān)鍵接口，Google 看樣子為自己找了個(gè)好位置。

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

Nada

專(zhuān)業(yè)投稿

發(fā)私信

當(dāng)月熱門(mén)文章