0
本文作者: AI科技評論 | 2018-07-18 09:57 |
雷鋒網 AI 科技評論按:本文由美國萊斯大學博士后牛力為 AI 科技評論提供的獨家稿件,未經許可不得轉載。
傳統(tǒng)的機器學習尤其是深度學習,需要大量的標注數(shù)據(jù),但是標注數(shù)據(jù)的獲取非常費時費力??紤]到每天都有大量的圖片和視頻被上傳到網上可供免費下載,為了有效地避免由于標注數(shù)據(jù)不足帶來的對傳統(tǒng)機器學習模型的不利影響,我們利用互聯(lián)網上已有的、大量標注得比較粗糙的網絡圖片或視頻來訓練模型,用于物體識別、人體動作識別、視頻事件檢測等應用。
然而,用網絡圖片或視頻來訓練模型存在諸多問題,比如:
1.網絡圖片或視頻標簽是由用戶提供的,非常不準確。有噪聲的訓練集對模型訓練有非常負面的影響;
2. 網絡圖片視頻和測試集的圖片視頻在數(shù)據(jù)分布上存在巨大差異,如果用網絡數(shù)據(jù)訓練模型,得到的模型在數(shù)據(jù)分布差別很大的測試集上,效果會很不理想。
但是,基于網絡數(shù)據(jù)學習也有一些優(yōu)勢,比如:
1.網絡圖片和視頻通常會配有標簽、標題等文字信息,但測試圖片和視頻沒有這種文字信息。這種只有訓練數(shù)據(jù)有但測試數(shù)據(jù)沒有的信息稱為特權信息 (privileged information),我們可以利用特權信息來幫助訓練圖片或視頻的分類模型;
2. 網絡上有可以免費獲得的語義信息,比如我們可以從維基百科上獲取每一個類別的語義信息,用來輔助訓練更魯棒的圖片或視頻的分類模型;
3. 網絡數(shù)據(jù)具有多源性。不論是圖片還是視頻,我們都可以從很多不同的網站下載大量免費的數(shù)據(jù),比如從 Google、Bing 上獲取圖片,從 YouTube、Flickr 中獲取視頻。然而,每一個數(shù)據(jù)源的數(shù)據(jù)分布都會有很大的差異,因此如何利用多源網絡數(shù)據(jù)進行學習也是很重要的研究課題。
為了充分利用網絡數(shù)據(jù)的優(yōu)勢,解決基于網絡數(shù)據(jù)學習中存在的關鍵問題,我們提出了一系列基于網絡數(shù)據(jù)的學習方法,使得網絡圖片和視頻能被用于訓練更魯棒的模型,在物體識別、人體動作識別、視頻事件識別等應用上取得了很好的效果。接下來就分別介紹如何利用上述網絡數(shù)據(jù)的三個優(yōu)勢(特權信息、語義信息和多源信息)來解決基于網絡數(shù)據(jù)學習的兩大主要問題(標簽噪音和數(shù)據(jù)分布差異)。
為了解決網絡數(shù)據(jù)的標簽噪音問題,我們參照多示例學習 (multi-instance learning) 把網絡圖片分成若干個包。對于二分類問題,我們用類名作為關鍵詞可以搜索得到很多相關樣本,然后用其他關鍵詞搜索得到很多無關樣本。我們把相關樣本分成正包,無關樣本分成負包。我們只知道每個包的標簽,但不知道每個包里面樣本的真實標簽。因而,我們對樣本的標簽做了如下假設:每個負包里面的樣本都是負樣本,但對于每個正包,至少有一定比例的樣本是正樣本而其他是負樣本。其中提到的比例屬于先驗信息,可以根據(jù)實驗觀察人為設定。根據(jù)以上假設,我們就可以提出多實例學習的模型來解決標簽噪音的問題。
另外,我們同時使用特權信息來進一步減弱標簽噪音的影響。受 SVM+的啟發(fā),我們用基于特權信息的損失函數(shù) (loss function) 來代替多實例學習模型中的損失變量,從而用特權信息控制損失的大小。一般來說,在特權信息的約束下,噪音樣本的損失函數(shù)值較大,也就說我們允許它們的損失比較大;而非噪音樣本的損失函數(shù)值比較小,也就是說我們強制要求它們的損失比較小。綜上,我們將特權信息用于多種多示例學習方法,提出一種新的學習框架,如下圖所示。
在上述框架的基礎上,我們進一步解決網絡訓練數(shù)據(jù)和用戶測試數(shù)據(jù)的分布性差異問題。我們給不同的訓練樣本分配不同的權重。具體來說,離測試數(shù)據(jù)中心比較近的被分配較高的權重,而離測試數(shù)據(jù)中心較遠的被分配較低的權重,從而拉近加權的訓練數(shù)據(jù)中心和測試數(shù)據(jù)中心的距離。經過公式推導,我們有一個有意思的發(fā)現(xiàn):對于每一個訓練樣本,它和訓練數(shù)據(jù)中心的相似度減去它和測試數(shù)據(jù)中心的相似度可以被看成另外一種特權信息。至此,我們將學習框架拓展為可以同時解決基于網絡數(shù)據(jù)學習的兩大問題。在實驗部分,我們用 Flickr 圖片或視頻作為訓練集,在圖片分類、人體動作識別和視頻事件檢測的標準測試集上做了大量的實驗,結果證明了特權信息的有效性。我們的論文發(fā)表在 ECCV 2014 [1],后來被拓展到 IJCV [2]。
在網上我們可以免費獲得每一種類別的語義信息 (semantic information)。比如給定一個類名,我們可以從它的維基主頁上抽取文本信息作為該類別的語義信息,也可以用類名的詞向量 (word vector) 作為該類別的語義信息。我們的方法建立在差分自編碼器 (variational auto-encoder (VAE)) 的基礎上,出于以下兩點考慮:1. 自編碼器可以用來檢測噪音;2. 自編碼器的隱藏層 (hidden layer) 可以加入語義信息。
我們方法的框架見下圖,分成上下兩個子網絡。下面的子網絡是 VAE,輸入是圖片的 CNN 特征,輸出是重建概率,可以用來指示該圖片是不是噪音。具體來講,噪音的重建概率比較低而非噪音的重建概率比較高。上面的子網絡是分類器,輸入是類別的語義信息和 VAE 的隱藏變量,輸出是類別種類,這也相當于用分類器來約束 VAE 的隱藏層。在這種情況下,分類器和 VAE 可以聯(lián)合利用語義信息來抵制噪音。從我們最終的目標函數(shù)可以看出,我們旨在減少加權的分類損失。具體來說,更可能是非噪音的圖片的損失被分配更高的權重,因為非噪音的圖片對訓練魯棒的模型貢獻更大。在訓練階段,我們訓練一個端到端的網絡以優(yōu)化 CNN、VAE 和分類器的參數(shù)。在測試階段,我們輸入測試圖片和所有測試類別的語義信息,預測測試圖片的類別。
在上述網絡結構的基礎上,我們做了兩點改進用來解決網絡訓練數(shù)據(jù)和用戶測試數(shù)據(jù)的分布性差異問題:
首先,我們用 VAE 同時重建網絡訓練數(shù)據(jù)和無標簽的測試數(shù)據(jù),該方法已被之前域遷移 (domain adaptation) 的論文證明有效。
其次,我們用網絡訓練數(shù)據(jù)的隱藏變量 (hidden variable) 來重建測試數(shù)據(jù)的隱藏變量。
具體來說,我們假設測試數(shù)據(jù)的隱藏變量可以由網絡訓練數(shù)據(jù)的隱藏變量線性表示,并且表示矩陣是低秩的。借助低秩表示 (low-rank representation) 的學習方法,我們可以更新測試數(shù)據(jù)的隱藏變量并用更新后的數(shù)據(jù)重新預測。在實驗部分,我們用 Google 圖片作為訓練集,在三個圖片分類的標準測試集上做測試。結果表明類別的語義信息可以輔助解決基于網絡數(shù)據(jù)學習的兩大問題。我們的論文發(fā)表在 CVPR 2018 [3]。
網絡上的數(shù)據(jù)多模態(tài)且多源。比如圖片可以從 Google, Flickr, Bing 等網站下載,視頻可以從 Flickr, YouTube 等網站下載,并且從網上下載的圖片或視頻都帶有文本信息。從不同網站下載的數(shù)據(jù)有很大的分布差異性。如果用網絡數(shù)據(jù)作為訓練集,我們希望選取和測試集分布比較接近的網絡源作為訓練集,這樣訓練出來的模型在測試集上能取得更好的效果。所以我們想要在不同的網絡源上分配不同的權重,具體來講,給和測試集分布比較接近的網絡源分配更高的權重。
我們的流程圖如下,給定若干個網絡源,其中一部分是圖片源,另一部分是視頻源。我們從圖片中抽取 2D 視覺特征,從視頻中抽取 3D 視覺特征,從文本信息中抽取文本特征,輸入到我們的學習模型。同時,我們的方法也需要輸入無標簽的測試視頻,從測試視頻中同時抽取 2D 視覺特征和 3D 視覺特征?;谝曈X特征,我們在每個源上訓練一個分類器。給定一個測試樣本,每個分類器會產生一個預測值。我們把所有的預測值加權平均,和測試樣本的標簽作比較。然而,測試樣本的標簽在訓練階段是未知的,所以我們還需要推斷測試樣本的偽標簽。綜上,在訓練階段,我們需要同時學習每個源的權重,每個源上的分類器以及測試樣本的偽標簽。這樣就可以解決網絡訓練數(shù)據(jù)和用戶測試數(shù)據(jù)分布的差異性問題。
在流程圖中,我們還可以看到所有的圖片和視頻都有附帶的文本信息。我們利用附帶的文本信息作為特權信息來幫助解決網絡數(shù)據(jù)標簽噪音的問題。如何利用特權信息去噪已經在第一部分講過,技術細節(jié)比較相似,在此就不重復了。在實驗部分,我們把 Google 和 Bing 作為圖片源,把 Flickr 作為視頻源,在人體動作識別和視頻事件檢測的標準測試集上做了大量的實驗。實驗證明我們的方法可以更好地利用多模態(tài)多源的網絡數(shù)據(jù)。我們的論文發(fā)表在 CVPR 2013 [4],然后拓展到 T-NNLS [5].
基于網絡數(shù)據(jù)學習存在兩大主要問題:標簽噪音和數(shù)據(jù)分布差異性,所以和基于精確標注數(shù)據(jù)的學習相比在性能上仍有一定的差距。但是考慮到網絡數(shù)據(jù)的諸多優(yōu)勢,基于網絡數(shù)據(jù)學習有著很大的提升空間和廣闊的應用前景。在這篇文章中,我們結合過去嘗試的方法,講述了如何利用特權信息、語義信息和多源信息幫助解決基于網絡數(shù)據(jù)學習的主要問題。在未來工作中,我們會繼續(xù)探索如何充分利用網絡數(shù)據(jù)的優(yōu)勢去提升基于網絡數(shù)據(jù)學習的性能,并把應用擴展到物體檢測,語義分割、文本和圖片的雙向檢索以及其他領域。
[1] Li Niu *, Wen Li *, and Dong Xu, 「Exploiting Privileged Information from Web Data for Image Categorization」, ECCV, 2014.
[2] Li Niu, Wen Li, and Dong Xu, 「Exploiting Privileged Information from Web Data for Action and Event Recognition」, IJCV, 2016.
[3] Li Niu, Qingtao Tang, Ashok Veeraraghavan, and Ashu Sabharwal,「Learning from Noisy Web Data with Category-level Supervision」, CVPR, 2018.
[4] Lin Chen, Lixin Duan, and Dong Xu,「Event recognition in videos by learning from heterogeneous Web sources」, CVPR, 2013.
[5] Li Niu, Xinxing Xu, Lin Chen, Lixin Duan, and Dong Xu, 「Action and Event Recognition in Videos by Learning from Heterogeneous Web Sources」, T-NNLS, 2017.
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。