0
本文作者: 隔壁王大喵 | 編輯:郭奕欣 | 2017-06-14 16:00 | 專題:CVPR 2017 |
李飛飛作為人工智能領(lǐng)域鮮有的活躍女性學者,不知道這一次她又帶領(lǐng)著團隊做出了怎樣的貢獻呢?趕緊隨雷鋒網(wǎng)AI科技評論來看看吧。這項研究是李飛飛團隊在今年CVPR上的一項最新工作,該方法提出了一種模型用于自動標注網(wǎng)絡(luò)中巨量的嘈雜視頻。
以下內(nèi)容是雷鋒網(wǎng)AI科技評論根據(jù)論文內(nèi)容進行的部分編譯。
人類行為多種多樣,而要如何才能讓機器理解具有多樣化和細粒度的人類行為,則是計算機視覺領(lǐng)域中的一個關(guān)鍵性的開放問題。通過手工的方式標注訓練視頻,對于少數(shù)的動作類型是可行的,但是這種策略無法完整覆蓋豐富多樣的所有動作。
圖一,該論文中的模型使用一組標注數(shù)據(jù)來學習如何為新的沒有見過的動作類別進行標注的策略。這樣可以學習特定領(lǐng)域的專有知識,以及如何在避免語義漂移(Semantic drift)的同時選擇不同的范例。比如,該模型可以從訓練數(shù)據(jù)中進行學習,如圖所示,其中人的動作線索對正確動作分類的幫助更大(比如“騎馬”),而不是動物的外形。在測試期間,這種知識可以被應用于標記一些全新類別的嘈雜數(shù)據(jù),比如“飼養(yǎng)動物”,而傳統(tǒng)的半監(jiān)督方法則是基于視覺相似(Visual similarity)性進行標注。
當前,解決這一個問題的一個可能有效的策略是,使用半監(jiān)督(Semi-supervised)或者“網(wǎng)絡(luò)監(jiān)督(Webly-supervised)”的方法,利用來自網(wǎng)絡(luò)檢索所產(chǎn)生的嘈雜數(shù)據(jù)來學習新的動作。然而,這些方法要么通常無法學習到特定領(lǐng)域的知識(Domain-specific knowledge),要么依賴于需要不斷迭代的手工調(diào)整的數(shù)據(jù)標簽策略(Hand-tuned data labeling policies)。據(jù)雷鋒網(wǎng)了解在這項研究中,李飛飛她們團隊提出了一種基于增強學習(Reinforcement learning-based)的方法,該方法能夠從嘈雜的網(wǎng)絡(luò)檢索結(jié)果中篩選出適合于訓練分類器的樣本。
圖二,模型框架圖。該模型使用從網(wǎng)絡(luò)搜索所得的候選示例集,為特定的視覺概念學習分類器。在每一個時間節(jié)距(time step)t,模型通過Q-learning的智能體來選擇樣本(比如Dk),并將該樣本加入到已經(jīng)存在的正樣本數(shù)據(jù)集Dt-1中構(gòu)成訓練樣本。然后該訓練樣本被用于訓練視覺分類器。分類器將同時更新智能體的狀態(tài)st+1并提供一個獎勵rt。然后在測試期間,經(jīng)過訓練的智能體能夠用于從任意的全新的視覺概念的網(wǎng)絡(luò)檢索結(jié)果中,自動選取出正樣本。
該方法的核心思想是,使用Q-learning來學習一個小型標簽訓練數(shù)據(jù)上的數(shù)據(jù)標簽策略,然后再利用該模型來自動標注嘈雜的網(wǎng)絡(luò)數(shù)據(jù),以獲得新的視覺概念。
據(jù)雷鋒網(wǎng)了解,為了驗證該方法,研究員們在當前最富有挑戰(zhàn)性的動作識別數(shù)據(jù)集Sports-1M上進行了實驗,實驗內(nèi)容包括動作識別基準、細粒度和新動作類別預測。通過實驗證明了該方法能夠為嘈雜數(shù)據(jù)學習到足夠好的標簽,并且使用這些標簽能夠?qū)W習到準確的視覺概念分類器。
Via Learning to Learn from Noisy Web Videos
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章