0
雷鋒網(wǎng) AI 科技評(píng)論按:如果你向一個(gè)人僅僅展示一段視頻中的幾幀,他通常可以推測(cè)出視頻里發(fā)生的是什么事件以及屏幕上會(huì)顯示出什么。例如,如果我們?cè)谝曨l開(kāi)始時(shí)的幀中看到了一堆堆疊起來(lái)的罐頭,在視頻中間的幀中看到了有人將手指放在了視頻的底部,而在視頻后面的幀中看到這堆罐頭倒了,我們可以猜測(cè)出手指也許推了罐頭一把。然而,計(jì)算機(jī)卻很難思考出這一點(diǎn)。
在前段時(shí)間舉行的 2018 年歐洲計(jì)算機(jī)視覺(jué)大會(huì)(ECCV2018)上,周博磊與麻省理工學(xué)院的研究人員一共提出了一個(gè)附加的視頻處理模塊,該模塊可以幫助被人們稱(chēng)為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的人工智能系統(tǒng)填補(bǔ)視頻幀之間的空白,從而大大提升了網(wǎng)絡(luò)的活動(dòng)識(shí)別能力。 雷鋒網(wǎng) AI 科技評(píng)論簡(jiǎn)介如下。
研究人員將這個(gè)模塊稱(chēng)為時(shí)序關(guān)系網(wǎng)絡(luò)(TRN),它能夠?qū)W習(xí)視頻中的物體在不同的時(shí)間發(fā)生了怎樣的變化。它通過(guò)分析一些在視頻的不同階段描繪某種活動(dòng)的關(guān)鍵幀(例如,堆疊放置的物體被推倒。)來(lái)做到這一點(diǎn)。接著,它可以使用相同的過(guò)程識(shí)別一段新視頻中相同類(lèi)型的活動(dòng)。
在實(shí)驗(yàn)中,該模塊在識(shí)別數(shù)百種基本活動(dòng)時(shí),表現(xiàn)大大超過(guò)了現(xiàn)有的模型,這些活動(dòng)就像將某些物體戳倒、將物體拋向空中,或者漸漸豎起大拇指。它還能更加準(zhǔn)確地預(yù)測(cè)出視頻中接下來(lái)會(huì)發(fā)生什么。例如,在給定少量的早期視頻幀的情況下,推測(cè)出兩只手在輕微地撕扯一張紙。
在未來(lái),這個(gè)模塊可以被用來(lái)幫助機(jī)器人更好地理解它們周?chē)l(fā)生了什么。
論文第一作者、前 MIT 計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)博士生、現(xiàn)任香港中文大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)助理教授周博磊說(shuō):「我們構(gòu)建了一個(gè)人工智能系統(tǒng),我們用它來(lái)識(shí)別物體的變化,而不是識(shí)別物體外觀(guān)。該系統(tǒng)并不會(huì)對(duì)所有的幀進(jìn)行處理,它會(huì)挑出關(guān)鍵幀,然后使用這些幀的時(shí)序關(guān)系,識(shí)別究竟發(fā)生了什么。這將提高系統(tǒng)的效率,使其能夠準(zhǔn)確地實(shí)時(shí)運(yùn)行」。
這篇論文的聯(lián)合作者是CSAIL 首席科學(xué)家 Antonio Torralba(他同時(shí)也是MIT 電子工程和計(jì)算機(jī)科學(xué)系的教授)、CSAIL 首席研究員Aude Oliva,以及CSAIL 研究助理 Alex Andonian。
目前常常被用于活動(dòng)識(shí)別的兩種卷積神經(jīng)網(wǎng)絡(luò)模塊存在效率和準(zhǔn)確率方面的缺陷。其中第一種模型時(shí)準(zhǔn)確的,但是在做預(yù)測(cè)之前必須逐幀對(duì)視頻進(jìn)行分析,這樣做的計(jì)算復(fù)雜度是很大的,運(yùn)行起來(lái)十分緩慢。另一種模型被稱(chēng)為雙流卷積神經(jīng)網(wǎng)絡(luò),它的準(zhǔn)確率較之于前一種模型低一些,但計(jì)算效率更高。雙流網(wǎng)絡(luò)使用一個(gè)流來(lái)提取一個(gè)視頻幀的特征,然后將結(jié)果與「光流」(提取出的一組關(guān)于每個(gè)像素點(diǎn)運(yùn)動(dòng)的信息流)融合在一起。提取光流的計(jì)算復(fù)雜度同樣很高,所以這個(gè)模型仍然沒(méi)有那么高效。
「我們想要在這兩種模型(效率與準(zhǔn)確率)之間找到一種折中的方式」。
研究人員在三個(gè)眾包的進(jìn)行各種各樣活動(dòng)的短視頻數(shù)據(jù)集上訓(xùn)練并測(cè)試了它們的模塊。第一個(gè)數(shù)據(jù)集叫做「Something-Something」,它是由TwentyBN 公司構(gòu)建的,包含174 個(gè)活動(dòng)類(lèi)別的超過(guò)20萬(wàn)條短視頻,比如說(shuō)戳倒一個(gè)物體或舉起一個(gè)物體。第二個(gè)數(shù)據(jù)集是「Jester」,它包含關(guān)于27 種不同的手勢(shì)的大約15 萬(wàn)條視頻,例如豎起大拇指或向左揮擊。第三個(gè)數(shù)據(jù)集是由卡內(nèi)基梅隆大學(xué)的研究人員構(gòu)建的「Charades」,它包含157 個(gè)活動(dòng)類(lèi)別的超過(guò)1 萬(wàn)條短視頻,比騎自行車(chē)或打籃球。
當(dāng)我們擁有一個(gè)視頻文件時(shí),研究人員構(gòu)建的模塊每間隔一段時(shí)間同時(shí)以?xún)蓭唤M、三幀一組或四幀一組處理順序排列的幀。然后,模塊會(huì)迅速分配一個(gè)概率,它代表物體在這些幀之間的變化與一個(gè)特定的活動(dòng)類(lèi)別相匹配的可能性。例如,如果我們要使用模塊處理兩個(gè)幀,其中后一幀在屏幕的底部顯示了一個(gè)物體,而這個(gè)物體在前一幀中出現(xiàn)在屏幕頂部,該模塊就會(huì)為活動(dòng)「將物體向下移動(dòng)」分配一個(gè)高的概率。如果此時(shí)第三幀顯示物體在屏幕的中間,那么這個(gè)概率還會(huì)繼續(xù)增加,以此類(lèi)推。通過(guò)這種方法,該模塊可以在最能代表某類(lèi)活動(dòng)的幀中學(xué)習(xí)對(duì)象變換的特征。
在測(cè)試中,配備了新模塊的卷積神經(jīng)網(wǎng)絡(luò)使用兩幀準(zhǔn)確地識(shí)別出了許多活動(dòng),但是通過(guò)采樣更多的幀,準(zhǔn)確率還能被繼續(xù)提升。對(duì)于Jester 數(shù)據(jù)集來(lái)說(shuō),模塊在活動(dòng)識(shí)別中達(dá)到了最高的95% 的準(zhǔn)確率,擊敗了一些現(xiàn)有的模型。
新模塊甚至在模糊分類(lèi)任務(wù)「Something-Something」上也得到了正確的結(jié)果。例如,包括「假裝打開(kāi)一本書(shū)」和「打開(kāi)一本書(shū)」之類(lèi)的行動(dòng)。為了將二者區(qū)分開(kāi)來(lái),該模塊只是對(duì)一些關(guān)鍵幀進(jìn)行了取樣,例如,一只手在較早的幀中放在一本書(shū)旁邊,而在較晚的書(shū)中則遠(yuǎn)離了這本書(shū)。
其它的一些活動(dòng)識(shí)別模型也對(duì)關(guān)鍵幀進(jìn)行處理,但是并沒(méi)有考慮幀與幀之間的時(shí)序關(guān)系,這會(huì)降低它們的準(zhǔn)確率。研究人員指出,他們的TRN 模塊在某些測(cè)試中比那些關(guān)鍵幀模型的準(zhǔn)確率提升了幾乎一倍。
在給定的視頻幀有限的情況下,該模塊在預(yù)測(cè)活動(dòng)方面的表現(xiàn)也優(yōu)于其他模型。在處理了前25% 的幀之后,該模塊的準(zhǔn)確率比對(duì)比基線(xiàn)模型搞了幾個(gè)百分點(diǎn)。當(dāng)處理了50% 的幀之后,該模塊的準(zhǔn)確率的準(zhǔn)確率提高了10% 到40%。例如,根據(jù)兩只手在較早的幀中的位置來(lái)判斷紙張是否會(huì)被撕開(kāi)一點(diǎn),并且預(yù)測(cè)一只向前伸出的舉起的手會(huì)向下滑動(dòng)。
「這對(duì)機(jī)器人應(yīng)用十分重要,」周博磊說(shuō)?!府?dāng)你執(zhí)行某種特定的動(dòng)作時(shí),你會(huì)想要一個(gè)機(jī)器人能夠事先知道接下來(lái)會(huì)發(fā)生什么」。
接下來(lái),研究人員的目標(biāo)是提高模塊的復(fù)雜程度。首先,他們將同時(shí)實(shí)現(xiàn)活動(dòng)識(shí)別和物體識(shí)別。然后,他們希望引入一些「直觀(guān)的物理知識(shí)」,這能夠幫助該模塊理解物體的實(shí)際物理性質(zhì)?!敢?yàn)槲覀冎肋@些視頻中的許多物理學(xué)原理,我們可以訓(xùn)練該模塊學(xué)習(xí)這些物理定律,并用它們來(lái)識(shí)別新的視頻,」周博磊說(shuō)。「我們也將開(kāi)源所有的代碼和模型?;顒?dòng)理解是目前人工智能領(lǐng)域一個(gè)令人興奮的研究課題」。
論文地址:https://arxiv.org/abs/1711.08496
via mit.csail,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。