MIT人工智能算法披露：我們?nèi)绾斡?200 萬張圖片預(yù)見 1.5 秒后的世界？

本文作者： sunshine_lady

2016-11-29 18:41

導(dǎo)語：MIT人工智能實驗室近日動作不斷，繼推出靜態(tài)圖片秒變動態(tài)視頻的黑科技后，MIT CSAIL 日前在官網(wǎng)上解釋了他們的算法細(xì)節(jié)。

我們生活在物理世界里，但往往沒有深入思考這樣一個問題：自己是如何迅速理解周邊事物的？

人類能夠?qū)Ρ尘暗淖兓?、事物之間的相互關(guān)聯(lián)等等做出非常自然的反應(yīng)。而且，這些反應(yīng)并不會耗費我們多少注意力，同時還能處理得非常妥帖。

但是，人類的這種與生俱來的能力對于機器來說就沒那么簡單了。對于一個事物，其潛在發(fā)展的變化方式有成千上萬種可能，這讓計算機學(xué)會如何正確地做出預(yù)測是非常困難的。

近期，麻省理工學(xué)院（MIT）計算科學(xué)與人工智能實驗室（CSAIL）的研究工作者的一項研究成果再次推進了機器學(xué)習(xí)的發(fā)展。深度學(xué)習(xí)算法僅僅通過一張圖片，就可以讓計算機便生成一小段視頻來模擬圖中場景，并預(yù)測接下來會發(fā)生的情景。

訓(xùn)練過程使用了 200 萬個無標(biāo)簽的鏡頭，視頻總時長達(dá)一年。相比使用基準(zhǔn)模型算法，這一算法生成的視頻更真實。在測試過程中，深度學(xué)習(xí)算法生成的視頻和比基準(zhǔn)模型算法真實度高了 20%。

研究團隊稱，這項技術(shù)可以用于改進安檢策略、提高自動駕駛安全性等諸多領(lǐng)域。據(jù)該實驗室博士生與第一作者透露，這一算法能夠?qū)崿F(xiàn)人類活動的機器識別從而擺脫人工識別的高昂費用。

“這些視頻展現(xiàn)了電腦認(rèn)為將會發(fā)生的場景，”Vondrick 表示，“如果你可以預(yù)測未來，那么你必須能夠理解目前發(fā)生的事情。“Vondrick、MIT 教授 Antonio Torralba 還有 Hamed Pirsiavash 教授共同發(fā)表的這一成果。Pirsiavash 教授是 CSAIL 的博士后，現(xiàn)于馬里蘭大學(xué)擔(dān)任教授。這項工作將于下周在巴塞羅那召開的神經(jīng)信息處理系統(tǒng)大會（NIPS）上展出。

MIT人工智能算法披露：我們?nèi)绾斡?200 萬張圖片預(yù)見 1.5 秒后的世界？

MIT人工智能實驗室使用深度學(xué)習(xí)算法生成預(yù)測性視頻。圖為沙灘、運動、火車站及醫(yī)院的預(yù)測結(jié)果

此項目花費了近兩年的時間讓算法“學(xué)習(xí)”兩百萬幅未加標(biāo)簽的視頻。

動態(tài)視覺

許多計算機視覺領(lǐng)域的研究工作都研究過類似的課題，包括 MIT 教授 Bill Freeman。Freeman 教授近期的關(guān)于“動態(tài)視覺”的課題同樣是研究對一個場景主動生成未來幾幀的圖像，不過他所提出的問題模型集中在解決未來視頻的推斷上。這是先前研究成果中未出現(xiàn)過的。

以往的系統(tǒng)模型逐幀重建場景，通常會在邊緣有較大誤差。與此相反，這項研究攻克了“建立整個場景”的難題，算法從一開始就能產(chǎn)生幀率為 32 的視頻。

“逐幀建立場景就像玩 Telephone Game 一樣（Telephone Game 是什么？傳送門：http://icebreakerideas.com/telephone-game/），在屋里轉(zhuǎn)一圈后信息便已經(jīng)大相徑庭了?！盫ondrick 說道，“一次性地處理一整個場景，就好比這個游戲中你能將消息傳給所有人一樣?！?/p>

當(dāng)然，在同時生產(chǎn)所有場景時會有一些權(quán)衡，并且針對長視頻，計算機模型也是非常復(fù)雜的，但這一結(jié)果在逐漸變得準(zhǔn)確。這種精準(zhǔn)的預(yù)測相對于增加的復(fù)雜度是非常值得的。為了建立多幀場景，研究工作者訓(xùn)練計算機來區(qū)分前景和背景。而后將提取的對象放回視頻中再訓(xùn)練，哪個部分是靜止的，哪個部分是運動的。

研究團隊使用稱作“adversarial learning”的深度學(xué)習(xí)算法，該方法訓(xùn)練兩個競爭神經(jīng)網(wǎng)絡(luò)。其中一個神經(jīng)網(wǎng)絡(luò)生成視頻，另一個作為檢測器尋找生成視頻與原視頻的不同。

通過訓(xùn)練，視頻生成的結(jié)果便可以騙過檢測器。此時，這一模型可以生成諸如海灘、火車站、醫(yī)院、高爾夫球場等場景。比如，海灘模型可以生成海浪，高爾夫球場模型可以生成草坪上走動的人群。

MIT人工智能算法披露：我們?nèi)绾斡?200 萬張圖片預(yù)見 1.5 秒后的世界？

團隊使用兩個相互競爭的神經(jīng)網(wǎng)絡(luò)。高斯白噪聲輸入到系統(tǒng)G產(chǎn)生虛假視頻，選擇性的將真是視頻或是虛假視頻送入到系統(tǒng)D中，輸出后得到真實的視頻。

其中一個網(wǎng)絡(luò)的工作過程具體如上圖，將 100dB 的白噪聲分別輸入到前景和背景圖流中，在進行采樣和 Sigmoid 蒙版處理，得到參數(shù)并根據(jù)公式生成空時圖像矩陣，從而產(chǎn)生視頻。

盡管還有人懷疑視頻到底是真實的還是虛假的，但這的確已取得很大進步。

MIT人工智能算法披露：我們?nèi)绾斡?200 萬張圖片預(yù)見 1.5 秒后的世界？

這個系統(tǒng)將努力學(xué)習(xí)這個世界，比如前景背景的分割。上圖為該算法的圖像分割技術(shù)，可以得到前景和背景圖。

場景測試

研究團隊將該方法生成的視頻與基準(zhǔn)模型方法的結(jié)果做出比對，通過詢問測試者哪種結(jié)果更加真實來給出判決。從 150 位測試者提供的 13000 個結(jié)果中，認(rèn)為前者更真實的結(jié)果數(shù)量相比后者高出 20%。

Vondrick 強調(diào)目前這一模型還欠缺一些簡化的常識性準(zhǔn)則。例如，算法有時不能理解目標(biāo)移動后所占用的區(qū)域會不會發(fā)生變化，比如貫穿畫面的一列火車。此外算法生成的人和物的尺寸會看起來比實際大很多。

另一個限制因素是時間，該算法生成的視頻僅僅能持續(xù) 1.5 秒。在后期研究工作中，他們團隊期待可以增加時間。但是這是個不小的挑戰(zhàn)，因為這要求算法計算相隔較遠(yuǎn)的時間點上的相關(guān)性，從而確保景象仍然在更長時間內(nèi)是說得通的。解決這個問題的一個方法是使用監(jiān)督學(xué)習(xí)。

“在一個視頻的長時間段中想要搜羅到精確的信息非常困難?！盫ondrick 認(rèn)為，“如果一個視頻里既包括做飯又含有吃飯的活動，那么必須使這兩個動作之間產(chǎn)生互相關(guān)，從而使得視頻看起來更加準(zhǔn)確。”

這種模型并不局限于預(yù)測未來。生成的視頻還可以用來美化靜態(tài)圖片，賦之以動態(tài)效果。就像“哈利波特”電影中的報紙一樣充滿靈動感。這種模型還可以幫助人類檢測安全連續(xù)鏡頭下的異常。此外，在存儲和發(fā)送長視頻文件方面，該模型還可以幫助壓縮文件。

“未來，這項技術(shù)將會擴展我們的視覺系統(tǒng)，僅僅訓(xùn)練一些視頻而不再需要監(jiān)督學(xué)習(xí)，就能識別物體和景象。”Vondrick 說道。

via MIT CSAIL

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

sunshine_lady

外翻編輯

翻譯編輯，所譯的文章均來自國外相關(guān)實驗室發(fā)表的news。轉(zhuǎn)載文章須注明翻譯作者。

發(fā)私信

當(dāng)月熱門文章