2
我們在看電影電視劇時,常常遇到看了開頭就知道結(jié)尾的片子。在這種“預(yù)測”行為中,其實我們不自覺地調(diào)取了日常生活中的各種經(jīng)歷和過往,在大腦中閃電般地計算出一個事件發(fā)生的大致概率分布,然后才得出了結(jié)尾的劇情橋段。
可是你有沒有想過機器預(yù)測未來這件事,要怎么實現(xiàn)呢?它們可沒有“生活經(jīng)驗”可談。試想,如果機器具備了預(yù)測未來的能力,世界將會變成什么樣?那時,世界杯、NBA都成了概率計算,美國總統(tǒng)大選也成了數(shù)學游戲,明年會發(fā)生什么問問機器人就知道了,是不是還挺可怕,挺無趣的?不過,目前還不用擔心,當前的技術(shù)水平畢竟還沒有這么先進,但是來自美國麻省理工的幾位大神卻在向著這個方向努力,并且取得了一些成果。
本周,來自麻省理工計算機與人工智能實驗室的研究者們,發(fā)明了一種針對視覺機器人的全新算法,憑借該算法,視覺機器人可以一邊看電視劇一邊告訴主人:男主下面可能要跟女主握手,下面可能擁抱,下面可能kiss,下面可能擊掌歡慶(沒錯,目前只支持這4種行為的預(yù)測)。另一方面,機器人還能根據(jù)當前的圖像預(yù)測5秒之后可能出現(xiàn)什么物體,比如打開冰箱之后5秒,機器人告訴你可能出現(xiàn)一盒牛奶。
談到他們具體是怎么實現(xiàn)該神奇功能時,來自該實驗室的Carl Vondrick博士表示(他同時也是該項研究的領(lǐng)頭人):人類具有通過自己的歷史經(jīng)驗和教訓預(yù)測未來的能力。我們想證明,通過向視覺機器人輸入大量的YouTube視頻和電視節(jié)目,再經(jīng)過一些列的算法分析和加工,就能讓機器人具備類似我們?nèi)祟惖念A(yù)測能力。
通常的視覺預(yù)測方法大概有如下兩類:一個是單獨分析圖像中的每個像素點,然后計算下一幅圖的像素組成。這種方式其實更像是畫畫,而不是計算機科學,Vondrick博士表示。第二種是預(yù)處理一些圖片,由人工標明哪些是風景,哪些是人物,然后再輸入計算機進行運算,這種方式顯然不適合大數(shù)據(jù)量的預(yù)測,也不適合實際應(yīng)用。
與這兩種方法不同,Vondrick博士的團隊發(fā)明了一種新的算法,據(jù)稱可以實現(xiàn)“視覺表達”。該算法并不是以單獨的像素點為單位,而是以一組像素為單位,進行整幅圖像的預(yù)測。比如具有鼻子、眼睛和嘴巴這些像素點的一組像素,可以視為一張臉,然后用“臉”作為基本的運算單位來進行整圖分析。
此外,團隊還在算法中引入了深度學習,神經(jīng)網(wǎng)絡(luò)系統(tǒng)的算法,通過輸入大量的視頻圖像數(shù)據(jù),然后讓機器自己分析和學習,類似于AlphaGo那樣整天自己跟自己下棋,這個機器人通過自己一個人整天看片的形式,學習其中人物的各種動作特征,從而達到預(yù)測的能力。
該系統(tǒng)在預(yù)測時是多線程并行工作,然后以類似于“加權(quán)取平均”的形式得到最終結(jié)論。由于目前只支持擁抱、握手、接吻和擊掌四種行為,因此分為四個并行線程,然后系統(tǒng)將四個線程的結(jié)果統(tǒng)一匯總,得到一個最終預(yù)測結(jié)果。比如,三個線程都預(yù)測下面會接吻,第四個預(yù)測是擁抱,則結(jié)果可能就是接吻了。
Vondrick博士說:視頻并不像《選擇你自己的冒險》系列叢書中所寫的那樣,人們能清晰地看到每一種選擇。現(xiàn)實是,未來通常都難以預(yù)測。但是,我覺得能通過團隊的努力,運用數(shù)據(jù)和算法計算出每一種可能的結(jié)局,這也是一件激動人心的事。
讓系統(tǒng)獨自看片達600小時之后,研究人員開始對系統(tǒng)輸入一些新的視頻,并開始訓練和測試。
第一步是讓機器預(yù)測下一秒,視頻里的人物會做什么(當然還是從擁抱、握手、接吻和擊掌這四種選其一)。測試結(jié)果顯示,準確率可以達到43%,這比目前已知的其他算法要提高7%的準確率。
第二步是輸入視頻中的一幀圖像,然后讓機器預(yù)測五秒后會出現(xiàn)什么物體。比如,看到一個人打開微波爐,機器可能預(yù)測5秒后出現(xiàn)一個咖啡杯。測試結(jié)果顯示,這一步的正確率高達73%。
研究者們還請了一些志愿者來做對比測試,發(fā)現(xiàn)人類志愿者的預(yù)測準確率只有71%,還略低于機器算法。
Vondrick博士表示:在人類的社交行為中隱含著許多的細節(jié),我們希望可以研究這些細節(jié),預(yù)測更復(fù)雜的人類行為。
雖然現(xiàn)階段來說,該算法的準確度還并沒有達到實際應(yīng)用的水平。但是Vondrick博士表示,該團隊非??春盟惴ㄎ磥淼陌l(fā)展,他們認為該算法可能被應(yīng)用在諸多的安保領(lǐng)域,例如預(yù)測有人要闖紅燈,然后發(fā)出告警等。
Vondrick博士說:我很好奇如果花費一個人一生的時間,輸入足夠數(shù)量的數(shù)據(jù)到機器里,將會達到怎樣的預(yù)測水平。我們將很可能看到一個在現(xiàn)實生活中真實可用的預(yù)警機器人,那時人類的生活將會發(fā)生怎樣的巨變?
據(jù)稱,該項目得到了美國國家科學基金會和谷歌的資助。
還有一個關(guān)于該算法的視頻介紹請點擊 這里
來源:mit
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。