0
本文作者: sunshine_lady | 2016-11-29 18:41 |
我們生活在物理世界里,但往往沒(méi)有深入思考這樣一個(gè)問(wèn)題:自己是如何迅速理解周邊事物的?
人類(lèi)能夠?qū)Ρ尘暗淖兓?、事物之間的相互關(guān)聯(lián)等等做出非常自然的反應(yīng)。而且,這些反應(yīng)并不會(huì)耗費(fèi)我們多少注意力,同時(shí)還能處理得非常妥帖。
但是,人類(lèi)的這種與生俱來(lái)的能力對(duì)于機(jī)器來(lái)說(shuō)就沒(méi)那么簡(jiǎn)單了。對(duì)于一個(gè)事物,其潛在發(fā)展的變化方式有成千上萬(wàn)種可能,這讓計(jì)算機(jī)學(xué)會(huì)如何正確地做出預(yù)測(cè)是非常困難的。
近期,麻省理工學(xué)院(MIT)計(jì)算科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究工作者的一項(xiàng)研究成果再次推進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。深度學(xué)習(xí)算法僅僅通過(guò)一張圖片,就可以讓計(jì)算機(jī)便生成一小段視頻來(lái)模擬圖中場(chǎng)景,并預(yù)測(cè)接下來(lái)會(huì)發(fā)生的情景。
訓(xùn)練過(guò)程使用了 200 萬(wàn)個(gè)無(wú)標(biāo)簽的鏡頭,視頻總時(shí)長(zhǎng)達(dá)一年。相比使用基準(zhǔn)模型算法,這一算法生成的視頻更真實(shí)。在測(cè)試過(guò)程中,深度學(xué)習(xí)算法生成的視頻和比基準(zhǔn)模型算法真實(shí)度高了 20%。
研究團(tuán)隊(duì)稱(chēng),這項(xiàng)技術(shù)可以用于改進(jìn)安檢策略、提高自動(dòng)駕駛安全性等諸多領(lǐng)域。據(jù)該實(shí)驗(yàn)室博士生與第一作者透露,這一算法能夠?qū)崿F(xiàn)人類(lèi)活動(dòng)的機(jī)器識(shí)別從而擺脫人工識(shí)別的高昂費(fèi)用。
“這些視頻展現(xiàn)了電腦認(rèn)為將會(huì)發(fā)生的場(chǎng)景,”Vondrick 表示,“如果你可以預(yù)測(cè)未來(lái),那么你必須能夠理解目前發(fā)生的事情?!癡ondrick、MIT 教授 Antonio Torralba 還有 Hamed Pirsiavash 教授共同發(fā)表的這一成果。Pirsiavash 教授是 CSAIL 的博士后,現(xiàn)于馬里蘭大學(xué)擔(dān)任教授。這項(xiàng)工作將于下周在巴塞羅那召開(kāi)的神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)上展出。
MIT人工智能實(shí)驗(yàn)室使用深度學(xué)習(xí)算法生成預(yù)測(cè)性視頻。圖為沙灘、運(yùn)動(dòng)、火車(chē)站及醫(yī)院的預(yù)測(cè)結(jié)果
此項(xiàng)目花費(fèi)了近兩年的時(shí)間讓算法“學(xué)習(xí)”兩百萬(wàn)幅未加標(biāo)簽的視頻。
許多計(jì)算機(jī)視覺(jué)領(lǐng)域的研究工作都研究過(guò)類(lèi)似的課題,包括 MIT 教授 Bill Freeman。Freeman 教授近期的關(guān)于“動(dòng)態(tài)視覺(jué)”的課題同樣是研究對(duì)一個(gè)場(chǎng)景主動(dòng)生成未來(lái)幾幀的圖像,不過(guò)他所提出的問(wèn)題模型集中在解決未來(lái)視頻的推斷上。這是先前研究成果中未出現(xiàn)過(guò)的。
以往的系統(tǒng)模型逐幀重建場(chǎng)景,通常會(huì)在邊緣有較大誤差。與此相反,這項(xiàng)研究攻克了“建立整個(gè)場(chǎng)景”的難題,算法從一開(kāi)始就能產(chǎn)生幀率為 32 的視頻。
“逐幀建立場(chǎng)景就像玩 Telephone Game 一樣(Telephone Game 是什么?傳送門(mén):http://icebreakerideas.com/telephone-game/),在屋里轉(zhuǎn)一圈后信息便已經(jīng)大相徑庭了?!盫ondrick 說(shuō)道,“一次性地處理一整個(gè)場(chǎng)景,就好比這個(gè)游戲中你能將消息傳給所有人一樣?!?/p>
當(dāng)然,在同時(shí)生產(chǎn)所有場(chǎng)景時(shí)會(huì)有一些權(quán)衡,并且針對(duì)長(zhǎng)視頻,計(jì)算機(jī)模型也是非常復(fù)雜的,但這一結(jié)果在逐漸變得準(zhǔn)確。這種精準(zhǔn)的預(yù)測(cè)相對(duì)于增加的復(fù)雜度是非常值得的。為了建立多幀場(chǎng)景,研究工作者訓(xùn)練計(jì)算機(jī)來(lái)區(qū)分前景和背景。而后將提取的對(duì)象放回視頻中再訓(xùn)練,哪個(gè)部分是靜止的,哪個(gè)部分是運(yùn)動(dòng)的。
研究團(tuán)隊(duì)使用稱(chēng)作“adversarial learning”的深度學(xué)習(xí)算法,該方法訓(xùn)練兩個(gè)競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)。其中一個(gè)神經(jīng)網(wǎng)絡(luò)生成視頻,另一個(gè)作為檢測(cè)器尋找生成視頻與原視頻的不同。
通過(guò)訓(xùn)練,視頻生成的結(jié)果便可以騙過(guò)檢測(cè)器。此時(shí),這一模型可以生成諸如海灘、火車(chē)站、醫(yī)院、高爾夫球場(chǎng)等場(chǎng)景。比如,海灘模型可以生成海浪,高爾夫球場(chǎng)模型可以生成草坪上走動(dòng)的人群。
團(tuán)隊(duì)使用兩個(gè)相互競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò)。高斯白噪聲輸入到系統(tǒng)G產(chǎn)生虛假視頻,選擇性的將真是視頻或是虛假視頻送入到系統(tǒng)D中,輸出后得到真實(shí)的視頻。
其中一個(gè)網(wǎng)絡(luò)的工作過(guò)程具體如上圖,將 100dB 的白噪聲分別輸入到前景和背景圖流中,在進(jìn)行采樣和 Sigmoid 蒙版處理,得到參數(shù)并根據(jù)公式生成空時(shí)圖像矩陣,從而產(chǎn)生視頻。
盡管還有人懷疑視頻到底是真實(shí)的還是虛假的,但這的確已取得很大進(jìn)步。
這個(gè)系統(tǒng)將努力學(xué)習(xí)這個(gè)世界,比如前景背景的分割。上圖為該算法的圖像分割技術(shù),可以得到前景和背景圖。
研究團(tuán)隊(duì)將該方法生成的視頻與基準(zhǔn)模型方法的結(jié)果做出比對(duì),通過(guò)詢問(wèn)測(cè)試者哪種結(jié)果更加真實(shí)來(lái)給出判決。從 150 位測(cè)試者提供的 13000 個(gè)結(jié)果中,認(rèn)為前者更真實(shí)的結(jié)果數(shù)量相比后者高出 20%。
Vondrick 強(qiáng)調(diào)目前這一模型還欠缺一些簡(jiǎn)化的常識(shí)性準(zhǔn)則。例如,算法有時(shí)不能理解目標(biāo)移動(dòng)后所占用的區(qū)域會(huì)不會(huì)發(fā)生變化,比如貫穿畫(huà)面的一列火車(chē)。此外算法生成的人和物的尺寸會(huì)看起來(lái)比實(shí)際大很多。
另一個(gè)限制因素是時(shí)間,該算法生成的視頻僅僅能持續(xù) 1.5 秒。在后期研究工作中,他們團(tuán)隊(duì)期待可以增加時(shí)間。但是這是個(gè)不小的挑戰(zhàn),因?yàn)檫@要求算法計(jì)算相隔較遠(yuǎn)的時(shí)間點(diǎn)上的相關(guān)性,從而確保景象仍然在更長(zhǎng)時(shí)間內(nèi)是說(shuō)得通的。解決這個(gè)問(wèn)題的一個(gè)方法是使用監(jiān)督學(xué)習(xí)。
“在一個(gè)視頻的長(zhǎng)時(shí)間段中想要搜羅到精確的信息非常困難?!盫ondrick 認(rèn)為,“如果一個(gè)視頻里既包括做飯又含有吃飯的活動(dòng),那么必須使這兩個(gè)動(dòng)作之間產(chǎn)生互相關(guān),從而使得視頻看起來(lái)更加準(zhǔn)確?!?/p>
這種模型并不局限于預(yù)測(cè)未來(lái)。生成的視頻還可以用來(lái)美化靜態(tài)圖片,賦之以動(dòng)態(tài)效果。就像“哈利波特”電影中的報(bào)紙一樣充滿靈動(dòng)感。這種模型還可以幫助人類(lèi)檢測(cè)安全連續(xù)鏡頭下的異常。此外,在存儲(chǔ)和發(fā)送長(zhǎng)視頻文件方面,該模型還可以幫助壓縮文件。
“未來(lái),這項(xiàng)技術(shù)將會(huì)擴(kuò)展我們的視覺(jué)系統(tǒng),僅僅訓(xùn)練一些視頻而不再需要監(jiān)督學(xué)習(xí),就能識(shí)別物體和景象?!盫ondrick 說(shuō)道。
via MIT CSAIL
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。