即使不知道真實世界如何，Google算法也能“想像”出來

本文作者：思睿

2015-07-08 11:47

導語：希望在不太遙遠的將來，我們能看到Google街景從圖片變成一部旅游電影，讓用戶真正足不出戶“走”遍天下。

Google 街景提供了許多發(fā)達國家中不少城市的全景視圖，以及沿著人行道的無數(shù)美景、商場內部的視圖和周圍的博物館和藝術畫廊。它是現(xiàn)代工程學中的一個非凡壯舉，改變了我們對我們周圍世界的欣賞方式。

不過，雖然街景可以向我們展示那些遙遠的地方的樣子，但是一張又一張的圖片并不能讓人身臨其境地感受世界。于是有人想到了一個解決方案：連續(xù)播放一系列街景圖像，來創(chuàng)建一部電影。

但這并不能和你所想象的那樣完美的合成，以每秒25幀或以差不多的速度播放這些圖片，會使風景略過的速度太快，產生跳幀；而太慢的話，肉眼又能明顯地看出“卡頓”。當場景沒有什么變化的時候，或者是在高速公路和風景不變的時候，低速是可以被接受的，但它在繁忙的街道或是藝術畫廊里就不行了。

因此，Google 已經(jīng)想出了一個解決方案：讓街景攝像機在記錄的時候，添加額外的幀。但是，這些幀看起來是什么樣子呢？

如今，John Flynn 和其 Google 的同事一同透露，他們是如何利用公司龐大的機器學習技術來找出，這些丟失的幀看起來應該是怎樣的，機器只是研究圖像兩邊丟失的幀。其結果是一臺計算機，可以通過內插丟失的幀，或多或少將一系列的圖像轉變成能流暢播放的影片。

Flynn 和其同事直面挑戰(zhàn)，給定一組特定地方的圖像，目標是從另一個不同的角度合成同一區(qū)域的一張新圖像。這個過程十分的不容易，F(xiàn)lynn 表示，“這需要了解物體的所有幾何圖形，即使在看不見的角度上也要生成完整的3-D圖像”。

即使不知道真實世界如何，Google算法也能“想像”出來

實際上，這是一個困擾了計算機科學家?guī)资甑膯栴}，即給定了兩張或更多張圖像，從而估算出場景的三維形狀。

計算機科學家已經(jīng)開發(fā)出了解決這個問題的各種方式，但所有方式都面臨著類似的問題，特別是在一個物體遮擋了另一個物體，造成信息缺乏時。信息缺乏會導致畫面“撕裂”，而且在沒有足夠信息的位置會有不少精致的細節(jié)丟失。

Flynn 的新辦法是訓練機器視覺算法，在經(jīng)過一個巨大的數(shù)據(jù)集的連續(xù)圖像訓練后，算出新的圖像應該是什么樣子。計算機的任務是將各張圖像作為一組像素，并確定給定相應像素的深度和顏色，并根據(jù)出現(xiàn)前后的圖像給出深度和顏色相符的像素。

他們訓練的算法叫做 DeepStereo，使用了“由一個移動的車輛拍攝的街景圖像。”事實上，他們使用了10萬個這些序列作為訓練數(shù)據(jù)集。而最終的結果也是令人印象深刻的。Flynn 表示，“總體來說，我們的模型產生了合理的輸出?！?/span>

算法成功地再現(xiàn)了一些困難的物體，如樹木和草叢。并且即使算法沒有處理好，也不會有之前的“撕裂”，尤其是算法在處理移動物體上的表現(xiàn)很好。不過，總而言之該方法目前還是并不完美。即使如此，這也是一項令人印象深刻的工作，再一次顯示了深度學習技術的潛力。

希望在不太遙遠的將來，我們能看到Google街景從圖片變成一部旅游電影，讓用戶真正足不出戶“走”遍天下。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

思睿

專業(yè)投稿

微信：ID_Travis

發(fā)私信

當月熱門文章

即使不知道真實世界如何，Google算法也能“想像”出來