2
我們在看電影電視劇時(shí),常常遇到看了開頭就知道結(jié)尾的片子。在這種“預(yù)測”行為中,其實(shí)我們不自覺地調(diào)取了日常生活中的各種經(jīng)歷和過往,在大腦中閃電般地計(jì)算出一個(gè)事件發(fā)生的大致概率分布,然后才得出了結(jié)尾的劇情橋段。
可是你有沒有想過機(jī)器預(yù)測未來這件事,要怎么實(shí)現(xiàn)呢?它們可沒有“生活經(jīng)驗(yàn)”可談。試想,如果機(jī)器具備了預(yù)測未來的能力,世界將會變成什么樣?那時(shí),世界杯、NBA都成了概率計(jì)算,美國總統(tǒng)大選也成了數(shù)學(xué)游戲,明年會發(fā)生什么問問機(jī)器人就知道了,是不是還挺可怕,挺無趣的?不過,目前還不用擔(dān)心,當(dāng)前的技術(shù)水平畢竟還沒有這么先進(jìn),但是來自美國麻省理工的幾位大神卻在向著這個(gè)方向努力,并且取得了一些成果。
本周,來自麻省理工計(jì)算機(jī)與人工智能實(shí)驗(yàn)室的研究者們,發(fā)明了一種針對視覺機(jī)器人的全新算法,憑借該算法,視覺機(jī)器人可以一邊看電視劇一邊告訴主人:男主下面可能要跟女主握手,下面可能擁抱,下面可能kiss,下面可能擊掌歡慶(沒錯(cuò),目前只支持這4種行為的預(yù)測)。另一方面,機(jī)器人還能根據(jù)當(dāng)前的圖像預(yù)測5秒之后可能出現(xiàn)什么物體,比如打開冰箱之后5秒,機(jī)器人告訴你可能出現(xiàn)一盒牛奶。
談到他們具體是怎么實(shí)現(xiàn)該神奇功能時(shí),來自該實(shí)驗(yàn)室的Carl Vondrick博士表示(他同時(shí)也是該項(xiàng)研究的領(lǐng)頭人):人類具有通過自己的歷史經(jīng)驗(yàn)和教訓(xùn)預(yù)測未來的能力。我們想證明,通過向視覺機(jī)器人輸入大量的YouTube視頻和電視節(jié)目,再經(jīng)過一些列的算法分析和加工,就能讓機(jī)器人具備類似我們?nèi)祟惖念A(yù)測能力。
通常的視覺預(yù)測方法大概有如下兩類:一個(gè)是單獨(dú)分析圖像中的每個(gè)像素點(diǎn),然后計(jì)算下一幅圖的像素組成。這種方式其實(shí)更像是畫畫,而不是計(jì)算機(jī)科學(xué),Vondrick博士表示。第二種是預(yù)處理一些圖片,由人工標(biāo)明哪些是風(fēng)景,哪些是人物,然后再輸入計(jì)算機(jī)進(jìn)行運(yùn)算,這種方式顯然不適合大數(shù)據(jù)量的預(yù)測,也不適合實(shí)際應(yīng)用。
與這兩種方法不同,Vondrick博士的團(tuán)隊(duì)發(fā)明了一種新的算法,據(jù)稱可以實(shí)現(xiàn)“視覺表達(dá)”。該算法并不是以單獨(dú)的像素點(diǎn)為單位,而是以一組像素為單位,進(jìn)行整幅圖像的預(yù)測。比如具有鼻子、眼睛和嘴巴這些像素點(diǎn)的一組像素,可以視為一張臉,然后用“臉”作為基本的運(yùn)算單位來進(jìn)行整圖分析。
此外,團(tuán)隊(duì)還在算法中引入了深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)系統(tǒng)的算法,通過輸入大量的視頻圖像數(shù)據(jù),然后讓機(jī)器自己分析和學(xué)習(xí),類似于AlphaGo那樣整天自己跟自己下棋,這個(gè)機(jī)器人通過自己一個(gè)人整天看片的形式,學(xué)習(xí)其中人物的各種動(dòng)作特征,從而達(dá)到預(yù)測的能力。
該系統(tǒng)在預(yù)測時(shí)是多線程并行工作,然后以類似于“加權(quán)取平均”的形式得到最終結(jié)論。由于目前只支持擁抱、握手、接吻和擊掌四種行為,因此分為四個(gè)并行線程,然后系統(tǒng)將四個(gè)線程的結(jié)果統(tǒng)一匯總,得到一個(gè)最終預(yù)測結(jié)果。比如,三個(gè)線程都預(yù)測下面會接吻,第四個(gè)預(yù)測是擁抱,則結(jié)果可能就是接吻了。
Vondrick博士說:視頻并不像《選擇你自己的冒險(xiǎn)》系列叢書中所寫的那樣,人們能清晰地看到每一種選擇?,F(xiàn)實(shí)是,未來通常都難以預(yù)測。但是,我覺得能通過團(tuán)隊(duì)的努力,運(yùn)用數(shù)據(jù)和算法計(jì)算出每一種可能的結(jié)局,這也是一件激動(dòng)人心的事。
讓系統(tǒng)獨(dú)自看片達(dá)600小時(shí)之后,研究人員開始對系統(tǒng)輸入一些新的視頻,并開始訓(xùn)練和測試。
第一步是讓機(jī)器預(yù)測下一秒,視頻里的人物會做什么(當(dāng)然還是從擁抱、握手、接吻和擊掌這四種選其一)。測試結(jié)果顯示,準(zhǔn)確率可以達(dá)到43%,這比目前已知的其他算法要提高7%的準(zhǔn)確率。
第二步是輸入視頻中的一幀圖像,然后讓機(jī)器預(yù)測五秒后會出現(xiàn)什么物體。比如,看到一個(gè)人打開微波爐,機(jī)器可能預(yù)測5秒后出現(xiàn)一個(gè)咖啡杯。測試結(jié)果顯示,這一步的正確率高達(dá)73%。
研究者們還請了一些志愿者來做對比測試,發(fā)現(xiàn)人類志愿者的預(yù)測準(zhǔn)確率只有71%,還略低于機(jī)器算法。
Vondrick博士表示:在人類的社交行為中隱含著許多的細(xì)節(jié),我們希望可以研究這些細(xì)節(jié),預(yù)測更復(fù)雜的人類行為。
雖然現(xiàn)階段來說,該算法的準(zhǔn)確度還并沒有達(dá)到實(shí)際應(yīng)用的水平。但是Vondrick博士表示,該團(tuán)隊(duì)非??春盟惴ㄎ磥淼陌l(fā)展,他們認(rèn)為該算法可能被應(yīng)用在諸多的安保領(lǐng)域,例如預(yù)測有人要闖紅燈,然后發(fā)出告警等。
Vondrick博士說:我很好奇如果花費(fèi)一個(gè)人一生的時(shí)間,輸入足夠數(shù)量的數(shù)據(jù)到機(jī)器里,將會達(dá)到怎樣的預(yù)測水平。我們將很可能看到一個(gè)在現(xiàn)實(shí)生活中真實(shí)可用的預(yù)警機(jī)器人,那時(shí)人類的生活將會發(fā)生怎樣的巨變?
據(jù)稱,該項(xiàng)目得到了美國國家科學(xué)基金會和谷歌的資助。
還有一個(gè)關(guān)于該算法的視頻介紹請點(diǎn)擊 這里
來源:mit
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。