丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給sunshine_lady
發(fā)送

0

MIT人工智能算法披露:我們?nèi)绾斡?200 萬(wàn)張圖片預(yù)見(jiàn) 1.5 秒后的世界?

本文作者: sunshine_lady 2016-11-29 18:41
導(dǎo)語(yǔ):MIT人工智能實(shí)驗(yàn)室近日動(dòng)作不斷,繼推出靜態(tài)圖片秒變動(dòng)態(tài)視頻的黑科技后,MIT CSAIL 日前在官網(wǎng)上解釋了他們的算法細(xì)節(jié)。

我們生活在物理世界里,但往往沒(méi)有深入思考這樣一個(gè)問(wèn)題:自己是如何迅速理解周邊事物的?

人類(lèi)能夠?qū)Ρ尘暗淖兓?、事物之間的相互關(guān)聯(lián)等等做出非常自然的反應(yīng)。而且,這些反應(yīng)并不會(huì)耗費(fèi)我們多少注意力,同時(shí)還能處理得非常妥帖。

但是,人類(lèi)的這種與生俱來(lái)的能力對(duì)于機(jī)器來(lái)說(shuō)就沒(méi)那么簡(jiǎn)單了。對(duì)于一個(gè)事物,其潛在發(fā)展的變化方式有成千上萬(wàn)種可能,這讓計(jì)算機(jī)學(xué)會(huì)如何正確地做出預(yù)測(cè)是非常困難的。

近期,麻省理工學(xué)院(MIT)計(jì)算科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究工作者的一項(xiàng)研究成果再次推進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。深度學(xué)習(xí)算法僅僅通過(guò)一張圖片,就可以讓計(jì)算機(jī)便生成一小段視頻來(lái)模擬圖中場(chǎng)景,并預(yù)測(cè)接下來(lái)會(huì)發(fā)生的情景。

訓(xùn)練過(guò)程使用了 200 萬(wàn)個(gè)無(wú)標(biāo)簽的鏡頭,視頻總時(shí)長(zhǎng)達(dá)一年。相比使用基準(zhǔn)模型算法,這一算法生成的視頻更真實(shí)。在測(cè)試過(guò)程中,深度學(xué)習(xí)算法生成的視頻和比基準(zhǔn)模型算法真實(shí)度高了 20%。

研究團(tuán)隊(duì)稱(chēng),這項(xiàng)技術(shù)可以用于改進(jìn)安檢策略、提高自動(dòng)駕駛安全性等諸多領(lǐng)域。據(jù)該實(shí)驗(yàn)室博士生與第一作者透露,這一算法能夠?qū)崿F(xiàn)人類(lèi)活動(dòng)的機(jī)器識(shí)別從而擺脫人工識(shí)別的高昂費(fèi)用。

“這些視頻展現(xiàn)了電腦認(rèn)為將會(huì)發(fā)生的場(chǎng)景,”Vondrick 表示,“如果你可以預(yù)測(cè)未來(lái),那么你必須能夠理解目前發(fā)生的事情?!癡ondrick、MIT 教授 Antonio Torralba 還有 Hamed Pirsiavash 教授共同發(fā)表的這一成果。Pirsiavash 教授是 CSAIL 的博士后,現(xiàn)于馬里蘭大學(xué)擔(dān)任教授。這項(xiàng)工作將于下周在巴塞羅那召開(kāi)的神經(jīng)信息處理系統(tǒng)大會(huì)(NIPS)上展出。

MIT人工智能算法披露:我們?nèi)绾斡?200 萬(wàn)張圖片預(yù)見(jiàn) 1.5 秒后的世界?

MIT人工智能實(shí)驗(yàn)室使用深度學(xué)習(xí)算法生成預(yù)測(cè)性視頻。圖為沙灘、運(yùn)動(dòng)、火車(chē)站及醫(yī)院的預(yù)測(cè)結(jié)果

MIT人工智能算法披露:我們?nèi)绾斡?200 萬(wàn)張圖片預(yù)見(jiàn) 1.5 秒后的世界?

此項(xiàng)目花費(fèi)了近兩年的時(shí)間讓算法“學(xué)習(xí)”兩百萬(wàn)幅未加標(biāo)簽的視頻。

動(dòng)態(tài)視覺(jué)

許多計(jì)算機(jī)視覺(jué)領(lǐng)域的研究工作都研究過(guò)類(lèi)似的課題,包括 MIT 教授 Bill Freeman。Freeman 教授近期的關(guān)于“動(dòng)態(tài)視覺(jué)”的課題同樣是研究對(duì)一個(gè)場(chǎng)景主動(dòng)生成未來(lái)幾幀的圖像,不過(guò)他所提出的問(wèn)題模型集中在解決未來(lái)視頻的推斷上。這是先前研究成果中未出現(xiàn)過(guò)的。

以往的系統(tǒng)模型逐幀重建場(chǎng)景,通常會(huì)在邊緣有較大誤差。與此相反,這項(xiàng)研究攻克了“建立整個(gè)場(chǎng)景”的難題,算法從一開(kāi)始就能產(chǎn)生幀率為 32 的視頻。

“逐幀建立場(chǎng)景就像玩 Telephone Game 一樣(Telephone Game 是什么?傳送門(mén):http://icebreakerideas.com/telephone-game/),在屋里轉(zhuǎn)一圈后信息便已經(jīng)大相徑庭了?!盫ondrick 說(shuō)道,“一次性地處理一整個(gè)場(chǎng)景,就好比這個(gè)游戲中你能將消息傳給所有人一樣?!?/p>

當(dāng)然,在同時(shí)生產(chǎn)所有場(chǎng)景時(shí)會(huì)有一些權(quán)衡,并且針對(duì)長(zhǎng)視頻,計(jì)算機(jī)模型也是非常復(fù)雜的,但這一結(jié)果在逐漸變得準(zhǔn)確。這種精準(zhǔn)的預(yù)測(cè)相對(duì)于增加的復(fù)雜度是非常值得的。為了建立多幀場(chǎng)景,研究工作者訓(xùn)練計(jì)算機(jī)來(lái)區(qū)分前景和背景。而后將提取的對(duì)象放回視頻中再訓(xùn)練,哪個(gè)部分是靜止的,哪個(gè)部分是運(yùn)動(dòng)的。

研究團(tuán)隊(duì)使用稱(chēng)作“adversarial learning”的深度學(xué)習(xí)算法,該方法訓(xùn)練兩個(gè)競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)。其中一個(gè)神經(jīng)網(wǎng)絡(luò)生成視頻,另一個(gè)作為檢測(cè)器尋找生成視頻與原視頻的不同。

通過(guò)訓(xùn)練,視頻生成的結(jié)果便可以騙過(guò)檢測(cè)器。此時(shí),這一模型可以生成諸如海灘、火車(chē)站、醫(yī)院、高爾夫球場(chǎng)等場(chǎng)景。比如,海灘模型可以生成海浪,高爾夫球場(chǎng)模型可以生成草坪上走動(dòng)的人群。

MIT人工智能算法披露:我們?nèi)绾斡?200 萬(wàn)張圖片預(yù)見(jiàn) 1.5 秒后的世界?

團(tuán)隊(duì)使用兩個(gè)相互競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò)。高斯白噪聲輸入到系統(tǒng)G產(chǎn)生虛假視頻,選擇性的將真是視頻或是虛假視頻送入到系統(tǒng)D中,輸出后得到真實(shí)的視頻。

MIT人工智能算法披露:我們?nèi)绾斡?200 萬(wàn)張圖片預(yù)見(jiàn) 1.5 秒后的世界?

其中一個(gè)網(wǎng)絡(luò)的工作過(guò)程具體如上圖,將 100dB 的白噪聲分別輸入到前景和背景圖流中,在進(jìn)行采樣和 Sigmoid 蒙版處理,得到參數(shù)并根據(jù)公式生成空時(shí)圖像矩陣,從而產(chǎn)生視頻。

MIT人工智能算法披露:我們?nèi)绾斡?200 萬(wàn)張圖片預(yù)見(jiàn) 1.5 秒后的世界?盡管還有人懷疑視頻到底是真實(shí)的還是虛假的,但這的確已取得很大進(jìn)步。

MIT人工智能算法披露:我們?nèi)绾斡?200 萬(wàn)張圖片預(yù)見(jiàn) 1.5 秒后的世界?

這個(gè)系統(tǒng)將努力學(xué)習(xí)這個(gè)世界,比如前景背景的分割。上圖為該算法的圖像分割技術(shù),可以得到前景和背景圖。

場(chǎng)景測(cè)試

研究團(tuán)隊(duì)將該方法生成的視頻與基準(zhǔn)模型方法的結(jié)果做出比對(duì),通過(guò)詢問(wèn)測(cè)試者哪種結(jié)果更加真實(shí)來(lái)給出判決。從 150 位測(cè)試者提供的 13000 個(gè)結(jié)果中,認(rèn)為前者更真實(shí)的結(jié)果數(shù)量相比后者高出 20%。

Vondrick 強(qiáng)調(diào)目前這一模型還欠缺一些簡(jiǎn)化的常識(shí)性準(zhǔn)則。例如,算法有時(shí)不能理解目標(biāo)移動(dòng)后所占用的區(qū)域會(huì)不會(huì)發(fā)生變化,比如貫穿畫(huà)面的一列火車(chē)。此外算法生成的人和物的尺寸會(huì)看起來(lái)比實(shí)際大很多。

另一個(gè)限制因素是時(shí)間,該算法生成的視頻僅僅能持續(xù) 1.5 秒。在后期研究工作中,他們團(tuán)隊(duì)期待可以增加時(shí)間。但是這是個(gè)不小的挑戰(zhàn),因?yàn)檫@要求算法計(jì)算相隔較遠(yuǎn)的時(shí)間點(diǎn)上的相關(guān)性,從而確保景象仍然在更長(zhǎng)時(shí)間內(nèi)是說(shuō)得通的。解決這個(gè)問(wèn)題的一個(gè)方法是使用監(jiān)督學(xué)習(xí)。

“在一個(gè)視頻的長(zhǎng)時(shí)間段中想要搜羅到精確的信息非常困難?!盫ondrick 認(rèn)為,“如果一個(gè)視頻里既包括做飯又含有吃飯的活動(dòng),那么必須使這兩個(gè)動(dòng)作之間產(chǎn)生互相關(guān),從而使得視頻看起來(lái)更加準(zhǔn)確?!?/p>

這種模型并不局限于預(yù)測(cè)未來(lái)。生成的視頻還可以用來(lái)美化靜態(tài)圖片,賦之以動(dòng)態(tài)效果。就像“哈利波特”電影中的報(bào)紙一樣充滿靈動(dòng)感。這種模型還可以幫助人類(lèi)檢測(cè)安全連續(xù)鏡頭下的異常。此外,在存儲(chǔ)和發(fā)送長(zhǎng)視頻文件方面,該模型還可以幫助壓縮文件。

“未來(lái),這項(xiàng)技術(shù)將會(huì)擴(kuò)展我們的視覺(jué)系統(tǒng),僅僅訓(xùn)練一些視頻而不再需要監(jiān)督學(xué)習(xí),就能識(shí)別物體和景象?!盫ondrick 說(shuō)道。

via MIT CSAIL

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

MIT人工智能算法披露:我們?nèi)绾斡?200 萬(wàn)張圖片預(yù)見(jiàn) 1.5 秒后的世界?

分享:
相關(guān)文章

外翻編輯

翻譯編輯,所譯的文章均來(lái)自國(guó)外相關(guān)實(shí)驗(yàn)室發(fā)表的news。 轉(zhuǎn)載文章須注明翻譯作者。
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)