丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給MrBear
發(fā)送

0

MIT周博磊團隊:時序關系網(wǎng)絡幫助計算機填補視頻幀之間的空白

本文作者: MrBear 編輯:楊曉凡 2018-10-17 23:48
導語:視頻幀之間時序關系預測

雷鋒網(wǎng) AI 科技評論按:如果你向一個人僅僅展示一段視頻中的幾幀,他通??梢酝茰y出視頻里發(fā)生的是什么事件以及屏幕上會顯示出什么。例如,如果我們在視頻開始時的幀中看到了一堆堆疊起來的罐頭,在視頻中間的幀中看到了有人將手指放在了視頻的底部,而在視頻后面的幀中看到這堆罐頭倒了,我們可以猜測出手指也許推了罐頭一把。然而,計算機卻很難思考出這一點。 

在前段時間舉行的 2018 年歐洲計算機視覺大會(ECCV2018)上,周博磊與麻省理工學院的研究人員一共提出了一個附加的視頻處理模塊,該模塊可以幫助被人們稱為卷積神經(jīng)網(wǎng)絡(CNN)的人工智能系統(tǒng)填補視頻幀之間的空白,從而大大提升了網(wǎng)絡的活動識別能力。 雷鋒網(wǎng) AI 科技評論簡介如下。

機器學習系統(tǒng)通過僅僅在幾個關鍵幀中觀察物體如何變化從而有效地識別活動

MIT周博磊團隊:時序關系網(wǎng)絡幫助計算機填補視頻幀之間的空白

研究人員將這個模塊稱為時序關系網(wǎng)絡(TRN),它能夠?qū)W習視頻中的物體在不同的時間發(fā)生了怎樣的變化。它通過分析一些在視頻的不同階段描繪某種活動的關鍵幀(例如,堆疊放置的物體被推倒。)來做到這一點。接著,它可以使用相同的過程識別一段新視頻中相同類型的活動。 

在實驗中,該模塊在識別數(shù)百種基本活動時,表現(xiàn)大大超過了現(xiàn)有的模型,這些活動就像將某些物體戳倒、將物體拋向空中,或者漸漸豎起大拇指。它還能更加準確地預測出視頻中接下來會發(fā)生什么。例如,在給定少量的早期視頻幀的情況下,推測出兩只手在輕微地撕扯一張紙。

在未來,這個模塊可以被用來幫助機器人更好地理解它們周圍發(fā)生了什么。

論文第一作者、前 MIT 計算機科學和人工智能實驗室(CSAIL)博士生、現(xiàn)任香港中文大學計算機科學專業(yè)助理教授周博磊說:「我們構(gòu)建了一個人工智能系統(tǒng),我們用它來識別物體的變化,而不是識別物體外觀。該系統(tǒng)并不會對所有的幀進行處理,它會挑出關鍵幀,然后使用這些幀的時序關系,識別究竟發(fā)生了什么。這將提高系統(tǒng)的效率,使其能夠準確地實時運行」。

這篇論文的聯(lián)合作者是CSAIL 首席科學家 Antonio Torralba(他同時也是MIT 電子工程和計算機科學系的教授)、CSAIL 首席研究員Aude Oliva,以及CSAIL 研究助理 Alex Andonian。

選取關鍵幀

目前常常被用于活動識別的兩種卷積神經(jīng)網(wǎng)絡模塊存在效率和準確率方面的缺陷。其中第一種模型時準確的,但是在做預測之前必須逐幀對視頻進行分析,這樣做的計算復雜度是很大的,運行起來十分緩慢。另一種模型被稱為雙流卷積神經(jīng)網(wǎng)絡,它的準確率較之于前一種模型低一些,但計算效率更高。雙流網(wǎng)絡使用一個流來提取一個視頻幀的特征,然后將結(jié)果與「光流」(提取出的一組關于每個像素點運動的信息流)融合在一起。提取光流的計算復雜度同樣很高,所以這個模型仍然沒有那么高效。

「我們想要在這兩種模型(效率與準確率)之間找到一種折中的方式」。

研究人員在三個眾包的進行各種各樣活動的短視頻數(shù)據(jù)集上訓練并測試了它們的模塊。第一個數(shù)據(jù)集叫做「Something-Something」,它是由TwentyBN 公司構(gòu)建的,包含174 個活動類別的超過20萬條短視頻,比如說戳倒一個物體或舉起一個物體。第二個數(shù)據(jù)集是「Jester」,它包含關于27 種不同的手勢的大約15 萬條視頻,例如豎起大拇指或向左揮擊。第三個數(shù)據(jù)集是由卡內(nèi)基梅隆大學的研究人員構(gòu)建的「Charades」,它包含157 個活動類別的超過1 萬條短視頻,比騎自行車或打籃球。

當我們擁有一個視頻文件時,研究人員構(gòu)建的模塊每間隔一段時間同時以兩幀一組、三幀一組或四幀一組處理順序排列的幀。然后,模塊會迅速分配一個概率,它代表物體在這些幀之間的變化與一個特定的活動類別相匹配的可能性。例如,如果我們要使用模塊處理兩個幀,其中后一幀在屏幕的底部顯示了一個物體,而這個物體在前一幀中出現(xiàn)在屏幕頂部,該模塊就會為活動「將物體向下移動」分配一個高的概率。如果此時第三幀顯示物體在屏幕的中間,那么這個概率還會繼續(xù)增加,以此類推。通過這種方法,該模塊可以在最能代表某類活動的幀中學習對象變換的特征。

識別和預測活動

在測試中,配備了新模塊的卷積神經(jīng)網(wǎng)絡使用兩幀準確地識別出了許多活動,但是通過采樣更多的幀,準確率還能被繼續(xù)提升。對于Jester 數(shù)據(jù)集來說,模塊在活動識別中達到了最高的95% 的準確率,擊敗了一些現(xiàn)有的模型。

新模塊甚至在模糊分類任務「Something-Something」上也得到了正確的結(jié)果。例如,包括「假裝打開一本書」和「打開一本書」之類的行動。為了將二者區(qū)分開來,該模塊只是對一些關鍵幀進行了取樣,例如,一只手在較早的幀中放在一本書旁邊,而在較晚的書中則遠離了這本書。

其它的一些活動識別模型也對關鍵幀進行處理,但是并沒有考慮幀與幀之間的時序關系,這會降低它們的準確率。研究人員指出,他們的TRN 模塊在某些測試中比那些關鍵幀模型的準確率提升了幾乎一倍。

在給定的視頻幀有限的情況下,該模塊在預測活動方面的表現(xiàn)也優(yōu)于其他模型。在處理了前25% 的幀之后,該模塊的準確率比對比基線模型搞了幾個百分點。當處理了50% 的幀之后,該模塊的準確率的準確率提高了10% 到40%。例如,根據(jù)兩只手在較早的幀中的位置來判斷紙張是否會被撕開一點,并且預測一只向前伸出的舉起的手會向下滑動。

「這對機器人應用十分重要,」周博磊說?!府斈銏?zhí)行某種特定的動作時,你會想要一個機器人能夠事先知道接下來會發(fā)生什么」。

 接下來,研究人員的目標是提高模塊的復雜程度。首先,他們將同時實現(xiàn)活動識別和物體識別。然后,他們希望引入一些「直觀的物理知識」,這能夠幫助該模塊理解物體的實際物理性質(zhì)?!敢驗槲覀冎肋@些視頻中的許多物理學原理,我們可以訓練該模塊學習這些物理定律,并用它們來識別新的視頻,」周博磊說?!肝覀円矊㈤_源所有的代碼和模型?;顒永斫馐悄壳叭斯ぶ悄茴I域一個令人興奮的研究課題」。

論文地址:https://arxiv.org/abs/1711.08496

via mit.csail,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

MIT周博磊團隊:時序關系網(wǎng)絡幫助計算機填補視頻幀之間的空白

分享:
相關文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說