1
本文作者: 思睿 | 2015-07-08 11:47 |
Google 街景提供了許多發(fā)達(dá)國家中不少城市的全景視圖,以及沿著人行道的無數(shù)美景、商場(chǎng)內(nèi)部的視圖和周圍的博物館和藝術(shù)畫廊。它是現(xiàn)代工程學(xué)中的一個(gè)非凡壯舉,改變了我們對(duì)我們周圍世界的欣賞方式。
不過,雖然街景可以向我們展示那些遙遠(yuǎn)的地方的樣子,但是一張又一張的圖片并不能讓人身臨其境地感受世界。于是有人想到了一個(gè)解決方案:連續(xù)播放一系列街景圖像,來創(chuàng)建一部電影。
但這并不能和你所想象的那樣完美的合成,以每秒25幀或以差不多的速度播放這些圖片,會(huì)使風(fēng)景略過的速度太快,產(chǎn)生跳幀;而太慢的話,肉眼又能明顯地看出“卡頓”。當(dāng)場(chǎng)景沒有什么變化的時(shí)候,或者是在高速公路和風(fēng)景不變的時(shí)候,低速是可以被接受的,但它在繁忙的街道或是藝術(shù)畫廊里就不行了。
因此,Google 已經(jīng)想出了一個(gè)解決方案:讓街景攝像機(jī)在記錄的時(shí)候,添加額外的幀。但是,這些幀看起來是什么樣子呢?
如今,John Flynn 和其 Google 的同事一同透露,他們是如何利用公司龐大的機(jī)器學(xué)習(xí)技術(shù)來找出,這些丟失的幀看起來應(yīng)該是怎樣的,機(jī)器只是研究圖像兩邊丟失的幀。其結(jié)果是一臺(tái)計(jì)算機(jī),可以通過內(nèi)插丟失的幀,或多或少將一系列的圖像轉(zhuǎn)變成能流暢播放的影片。
Flynn 和其同事直面挑戰(zhàn),給定一組特定地方的圖像,目標(biāo)是從另一個(gè)不同的角度合成同一區(qū)域的一張新圖像。這個(gè)過程十分的不容易,F(xiàn)lynn 表示,“這需要了解物體的所有幾何圖形,即使在看不見的角度上也要生成完整的3-D圖像”。
實(shí)際上,這是一個(gè)困擾了計(jì)算機(jī)科學(xué)家?guī)资甑膯栴},即給定了兩張或更多張圖像,從而估算出場(chǎng)景的三維形狀。
計(jì)算機(jī)科學(xué)家已經(jīng)開發(fā)出了解決這個(gè)問題的各種方式,但所有方式都面臨著類似的問題,特別是在一個(gè)物體遮擋了另一個(gè)物體,造成信息缺乏時(shí)。信息缺乏會(huì)導(dǎo)致畫面“撕裂”,而且在沒有足夠信息的位置會(huì)有不少精致的細(xì)節(jié)丟失。
Flynn 的新辦法是訓(xùn)練機(jī)器視覺算法,在經(jīng)過一個(gè)巨大的數(shù)據(jù)集的連續(xù)圖像訓(xùn)練后,算出新的圖像應(yīng)該是什么樣子。計(jì)算機(jī)的任務(wù)是將各張圖像作為一組像素,并確定給定相應(yīng)像素的深度和顏色,并根據(jù)出現(xiàn)前后的圖像給出深度和顏色相符的像素。
他們訓(xùn)練的算法叫做 DeepStereo,使用了“由一個(gè)移動(dòng)的車輛拍攝的街景圖像?!笔聦?shí)上,他們使用了10萬個(gè)這些序列作為訓(xùn)練數(shù)據(jù)集。而最終的結(jié)果也是令人印象深刻的。Flynn 表示,“總體來說,我們的模型產(chǎn)生了合理的輸出?!?/span>
算法成功地再現(xiàn)了一些困難的物體,如樹木和草叢。并且即使算法沒有處理好,也不會(huì)有之前的“撕裂”,尤其是算法在處理移動(dòng)物體上的表現(xiàn)很好。不過,總而言之該方法目前還是并不完美。即使如此,這也是一項(xiàng)令人印象深刻的工作,再一次顯示了深度學(xué)習(xí)技術(shù)的潛力。
希望在不太遙遠(yuǎn)的將來,我們能看到Google街景從圖片變成一部旅游電影,讓用戶真正足不出戶“走”遍天下。
via technologyreview
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。