0
本文作者: 伍文靚 | 2019-04-04 19:30 |
雷鋒網注:【 圖片來源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】
如今,人們可以通過錄制視頻的方式與朋友和愛人分享美好時光,這已經不再是什么新鮮事。然而,每個擁有大量視頻素材的人都會告訴你這樣一個事實:遍歷所有原始視頻素材,尋找值得重溫,或者適合與家人朋友共享的完美視頻片段,是一項十分耗時的工作。
由于谷歌圖片會自動在視頻中尋找具有紀念意義的畫面,并創(chuàng)建動畫,所以,像孩子吹滅蠟燭的瞬間,或者朋友跳進泳池的瞬間,諸如此類的畫面都可以被快速捕捉。這樣一來,與朋友和家人分享美妙瞬間就容易多了。
在反復研究了用于時序動作定位(TAL)的R-CNN架構之后,自動化方面的一些難題已解決。這些難題的棘手之處在于,從千萬種不同排列的數(shù)據(jù)中完成辨認或分類。因此,我們建立了TALNet,它能在一定時間內識別大量的短暫性動作。目前來說,相比起其他方法,TALNet完成這個任務的用時最短。它還允許谷歌圖片推薦視頻的最佳畫面,讓你可以與朋友和家人分享。
雷鋒網注:【 圖片來源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】
想要識別視頻中的美妙瞬間,第一步是將人們可能希望保留的動作瞬間集合起來,比如吹滅生日蠟燭,貓搖尾巴等。然后,我們將這些帶有特定動作的視頻片段進行注釋,以創(chuàng)建一個大型培訓數(shù)據(jù)庫。之后,我們會要求評定員找出并標記所有時刻。最后,模型經過這個帶注釋的數(shù)據(jù)集訓練,之后就可以在全新的視頻中識別所需的瞬間。
識別這些動作屬于計算機視覺領域,它與生活中常見的對象識別一樣,屬于視覺檢測的范疇。然而,TAL的目的是,在一個冗長且未修剪的視頻里,標識每個動作的開始和結束時間,并給不同的動作貼上標簽(如“吹滅蠟燭”)。它更側重在一維視頻幀序列中捕捉包含動作的時間片段。
我們使用的TALNet方法是受到了R-CNN二維圖像對象檢測框架的啟發(fā)。因此,要理解TALNet,首先要理解R-CNN。下圖演示了如何使用R-CNN架構進行對象檢測。
雷鋒網注:【 圖片來源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】
第一步是生成一組對象推薦,可以對圖像中的對象進行分類。在此之前,要先通過卷積神經網絡(CNN)將輸入圖像轉換為二維特征圖。然后,對象推薦網絡圍繞候選對象生成包圍框。這些框是在多個尺度上生成的,以便應對自然圖像中對象大小的不確定性。在對象確定之后,使用深度神經網絡(DNN)將邊界框中的對象分類為特定對象,比如“人”、“自行車”等。
時序動作定位是用一種類似于R-CNN的方式完成的。首先將視頻輸入幀序列轉換為編碼場景的一維特征映射序列。此映射被傳遞到一個視頻段推薦網絡,該網絡生成候選段,每個候選段由開始和結束時間來定義。然后,DNN對視頻片段中的動作進行分類,比如灌籃、傳球。
雷鋒網注:【 圖片來源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】
雖然時序動作定位可以看作是對象檢測的一維對應物,但是,處理動作定位有一些值得注意的問題。為了將R-CNN方法應用到動作定位領域,我們特意解決了三個問題,并重新設計了體系結構來專門解決這些問題。
1.動作在持續(xù)時間方面變量更大
動作執(zhí)行的時間范圍變化很大,可以從幾秒鐘到幾分鐘不等。對于長時間的動作,理解動作的每一個框架并不重要。相反,我們可以通過快速瀏覽視頻,使用擴展的時間卷積來更好地處理這個動作。這種方法允許TALNet搜索視頻中的動作,同時根據(jù)既定的膨脹率跳過交替幀。根據(jù)錨段的長度自動選擇不同速率的視頻進行分析,可以有效地識別大至整個視頻或短至一秒的動作。
目標動作前后的內容包含了定位和分類的關鍵信息,這里說的是時間前后,而不是空間前后。因此,我們在時間內容上進行了編碼,方法是在推薦生成和分類生成的階段,將目標段在時間前后上按一定比例擴展。
3.目標動作需要多模式輸入
目標動作由外觀、運動軌跡,有時甚至是音頻信息來定義。因此,為了獲得最佳的結果,考慮特征的多種形式是很重要的。我們對推薦生成網絡和分類網絡都使用了一種后期融合方案,其中每種模式都有一個單獨的推薦生成網絡,這些網絡的輸出組合在一起才能得到最終的推薦集。
這些推薦使用單獨的分類網絡對每種模式進行分類,然后經過綜合平均得到最終的預測。由于這些改進,在THUMOS的14檢測基準上,TALNet在動作推薦和行動定位方面表現(xiàn)最佳,并在ActivityNet項目中展示了其競爭力。現(xiàn)在,每當人們將視頻保存到谷歌圖片中時,模型就會開始識別這些視頻并創(chuàng)建動畫來共享。
我們正在不斷完善,使用更多的數(shù)據(jù)、特性和模型來提高動作定位的精度。時序動作定位的改進可以推動視頻亮點、視頻摘要、視頻搜索等許多重要功能的進展。我們希望繼續(xù)提高這一領域的技術水平,同時為人們提供更多方式來追憶他們寶貴的記憶。
雷鋒網注:本文編譯自Google AI Blog
【封面圖片來源:網站名Google AI Blog,所有者:Sudheendra Vijayanarasimhan and David Ross】
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。