1
本文作者: 思睿 | 2015-07-08 11:47 |
Google 街景提供了許多發(fā)達(dá)國(guó)家中不少城市的全景視圖,以及沿著人行道的無(wú)數(shù)美景、商場(chǎng)內(nèi)部的視圖和周?chē)牟┪镳^和藝術(shù)畫(huà)廊。它是現(xiàn)代工程學(xué)中的一個(gè)非凡壯舉,改變了我們對(duì)我們周?chē)澜绲男蕾p方式。
不過(guò),雖然街景可以向我們展示那些遙遠(yuǎn)的地方的樣子,但是一張又一張的圖片并不能讓人身臨其境地感受世界。于是有人想到了一個(gè)解決方案:連續(xù)播放一系列街景圖像,來(lái)創(chuàng)建一部電影。
但這并不能和你所想象的那樣完美的合成,以每秒25幀或以差不多的速度播放這些圖片,會(huì)使風(fēng)景略過(guò)的速度太快,產(chǎn)生跳幀;而太慢的話(huà),肉眼又能明顯地看出“卡頓”。當(dāng)場(chǎng)景沒(méi)有什么變化的時(shí)候,或者是在高速公路和風(fēng)景不變的時(shí)候,低速是可以被接受的,但它在繁忙的街道或是藝術(shù)畫(huà)廊里就不行了。
因此,Google 已經(jīng)想出了一個(gè)解決方案:讓街景攝像機(jī)在記錄的時(shí)候,添加額外的幀。但是,這些幀看起來(lái)是什么樣子呢?
如今,John Flynn 和其 Google 的同事一同透露,他們是如何利用公司龐大的機(jī)器學(xué)習(xí)技術(shù)來(lái)找出,這些丟失的幀看起來(lái)應(yīng)該是怎樣的,機(jī)器只是研究圖像兩邊丟失的幀。其結(jié)果是一臺(tái)計(jì)算機(jī),可以通過(guò)內(nèi)插丟失的幀,或多或少將一系列的圖像轉(zhuǎn)變成能流暢播放的影片。
Flynn 和其同事直面挑戰(zhàn),給定一組特定地方的圖像,目標(biāo)是從另一個(gè)不同的角度合成同一區(qū)域的一張新圖像。這個(gè)過(guò)程十分的不容易,F(xiàn)lynn 表示,“這需要了解物體的所有幾何圖形,即使在看不見(jiàn)的角度上也要生成完整的3-D圖像”。
實(shí)際上,這是一個(gè)困擾了計(jì)算機(jī)科學(xué)家?guī)资甑膯?wèn)題,即給定了兩張或更多張圖像,從而估算出場(chǎng)景的三維形狀。
計(jì)算機(jī)科學(xué)家已經(jīng)開(kāi)發(fā)出了解決這個(gè)問(wèn)題的各種方式,但所有方式都面臨著類(lèi)似的問(wèn)題,特別是在一個(gè)物體遮擋了另一個(gè)物體,造成信息缺乏時(shí)。信息缺乏會(huì)導(dǎo)致畫(huà)面“撕裂”,而且在沒(méi)有足夠信息的位置會(huì)有不少精致的細(xì)節(jié)丟失。
Flynn 的新辦法是訓(xùn)練機(jī)器視覺(jué)算法,在經(jīng)過(guò)一個(gè)巨大的數(shù)據(jù)集的連續(xù)圖像訓(xùn)練后,算出新的圖像應(yīng)該是什么樣子。計(jì)算機(jī)的任務(wù)是將各張圖像作為一組像素,并確定給定相應(yīng)像素的深度和顏色,并根據(jù)出現(xiàn)前后的圖像給出深度和顏色相符的像素。
他們訓(xùn)練的算法叫做 DeepStereo,使用了“由一個(gè)移動(dòng)的車(chē)輛拍攝的街景圖像?!笔聦?shí)上,他們使用了10萬(wàn)個(gè)這些序列作為訓(xùn)練數(shù)據(jù)集。而最終的結(jié)果也是令人印象深刻的。Flynn 表示,“總體來(lái)說(shuō),我們的模型產(chǎn)生了合理的輸出?!?/span>
算法成功地再現(xiàn)了一些困難的物體,如樹(shù)木和草叢。并且即使算法沒(méi)有處理好,也不會(huì)有之前的“撕裂”,尤其是算法在處理移動(dòng)物體上的表現(xiàn)很好。不過(guò),總而言之該方法目前還是并不完美。即使如此,這也是一項(xiàng)令人印象深刻的工作,再一次顯示了深度學(xué)習(xí)技術(shù)的潛力。
希望在不太遙遠(yuǎn)的將來(lái),我們能看到Google街景從圖片變成一部旅游電影,讓用戶(hù)真正足不出戶(hù)“走”遍天下。
via technologyreview
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。