丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI科技評(píng)論
發(fā)送

0

利用特權(quán)信息、語(yǔ)義信息和多源信息輔助基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)

本文作者: AI科技評(píng)論 2018-07-18 09:57
導(dǎo)語(yǔ):美國(guó)萊斯大學(xué)博士后牛力團(tuán)隊(duì)基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)方法,使得網(wǎng)絡(luò)圖片和視頻能被用于訓(xùn)練更魯棒的模型,在物體識(shí)別、人體動(dòng)作識(shí)別、視頻事件識(shí)別等應(yīng)用上取得了很好的效果。

雷鋒網(wǎng) AI 科技評(píng)論按:本文由美國(guó)萊斯大學(xué)博士后牛力為 AI 科技評(píng)論提供的獨(dú)家稿件,未經(jīng)許可不得轉(zhuǎn)載。

傳統(tǒng)的機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí),需要大量的標(biāo)注數(shù)據(jù),但是標(biāo)注數(shù)據(jù)的獲取非常費(fèi)時(shí)費(fèi)力??紤]到每天都有大量的圖片和視頻被上傳到網(wǎng)上可供免費(fèi)下載,為了有效地避免由于標(biāo)注數(shù)據(jù)不足帶來(lái)的對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)模型的不利影響,我們利用互聯(lián)網(wǎng)上已有的、大量標(biāo)注得比較粗糙的網(wǎng)絡(luò)圖片或視頻來(lái)訓(xùn)練模型,用于物體識(shí)別、人體動(dòng)作識(shí)別、視頻事件檢測(cè)等應(yīng)用。

然而,用網(wǎng)絡(luò)圖片或視頻來(lái)訓(xùn)練模型存在諸多問(wèn)題,比如:

1.網(wǎng)絡(luò)圖片或視頻標(biāo)簽是由用戶提供的,非常不準(zhǔn)確。有噪聲的訓(xùn)練集對(duì)模型訓(xùn)練有非常負(fù)面的影響;

2. 網(wǎng)絡(luò)圖片視頻和測(cè)試集的圖片視頻在數(shù)據(jù)分布上存在巨大差異,如果用網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練模型,得到的模型在數(shù)據(jù)分布差別很大的測(cè)試集上,效果會(huì)很不理想。

但是,基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)也有一些優(yōu)勢(shì),比如:

1.網(wǎng)絡(luò)圖片和視頻通常會(huì)配有標(biāo)簽、標(biāo)題等文字信息,但測(cè)試圖片和視頻沒(méi)有這種文字信息。這種只有訓(xùn)練數(shù)據(jù)有但測(cè)試數(shù)據(jù)沒(méi)有的信息稱為特權(quán)信息 (privileged information),我們可以利用特權(quán)信息來(lái)幫助訓(xùn)練圖片或視頻的分類模型;

2. 網(wǎng)絡(luò)上有可以免費(fèi)獲得的語(yǔ)義信息,比如我們可以從維基百科上獲取每一個(gè)類別的語(yǔ)義信息,用來(lái)輔助訓(xùn)練更魯棒的圖片或視頻的分類模型;

3. 網(wǎng)絡(luò)數(shù)據(jù)具有多源性。不論是圖片還是視頻,我們都可以從很多不同的網(wǎng)站下載大量免費(fèi)的數(shù)據(jù),比如從 Google、Bing 上獲取圖片,從 YouTube、Flickr 中獲取視頻。然而,每一個(gè)數(shù)據(jù)源的數(shù)據(jù)分布都會(huì)有很大的差異,因此如何利用多源網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行學(xué)習(xí)也是很重要的研究課題。

為了充分利用網(wǎng)絡(luò)數(shù)據(jù)的優(yōu)勢(shì),解決基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)中存在的關(guān)鍵問(wèn)題,我們提出了一系列基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)方法,使得網(wǎng)絡(luò)圖片和視頻能被用于訓(xùn)練更魯棒的模型,在物體識(shí)別、人體動(dòng)作識(shí)別、視頻事件識(shí)別等應(yīng)用上取得了很好的效果。接下來(lái)就分別介紹如何利用上述網(wǎng)絡(luò)數(shù)據(jù)的三個(gè)優(yōu)勢(shì)(特權(quán)信息、語(yǔ)義信息和多源信息)來(lái)解決基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)的兩大主要問(wèn)題(標(biāo)簽噪音和數(shù)據(jù)分布差異)。

一、 利用特權(quán)信息輔助基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)

為了解決網(wǎng)絡(luò)數(shù)據(jù)的標(biāo)簽噪音問(wèn)題,我們參照多示例學(xué)習(xí) (multi-instance learning) 把網(wǎng)絡(luò)圖片分成若干個(gè)包。對(duì)于二分類問(wèn)題,我們用類名作為關(guān)鍵詞可以搜索得到很多相關(guān)樣本,然后用其他關(guān)鍵詞搜索得到很多無(wú)關(guān)樣本。我們把相關(guān)樣本分成正包,無(wú)關(guān)樣本分成負(fù)包。我們只知道每個(gè)包的標(biāo)簽,但不知道每個(gè)包里面樣本的真實(shí)標(biāo)簽。因而,我們對(duì)樣本的標(biāo)簽做了如下假設(shè):每個(gè)負(fù)包里面的樣本都是負(fù)樣本,但對(duì)于每個(gè)正包,至少有一定比例的樣本是正樣本而其他是負(fù)樣本。其中提到的比例屬于先驗(yàn)信息,可以根據(jù)實(shí)驗(yàn)觀察人為設(shè)定。根據(jù)以上假設(shè),我們就可以提出多實(shí)例學(xué)習(xí)的模型來(lái)解決標(biāo)簽噪音的問(wèn)題。

另外,我們同時(shí)使用特權(quán)信息來(lái)進(jìn)一步減弱標(biāo)簽噪音的影響。受 SVM+的啟發(fā),我們用基于特權(quán)信息的損失函數(shù) (loss function) 來(lái)代替多實(shí)例學(xué)習(xí)模型中的損失變量,從而用特權(quán)信息控制損失的大小。一般來(lái)說(shuō),在特權(quán)信息的約束下,噪音樣本的損失函數(shù)值較大,也就說(shuō)我們?cè)试S它們的損失比較大;而非噪音樣本的損失函數(shù)值比較小,也就是說(shuō)我們強(qiáng)制要求它們的損失比較小。綜上,我們將特權(quán)信息用于多種多示例學(xué)習(xí)方法,提出一種新的學(xué)習(xí)框架,如下圖所示。

利用特權(quán)信息、語(yǔ)義信息和多源信息輔助基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)

在上述框架的基礎(chǔ)上,我們進(jìn)一步解決網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)和用戶測(cè)試數(shù)據(jù)的分布性差異問(wèn)題。我們給不同的訓(xùn)練樣本分配不同的權(quán)重。具體來(lái)說(shuō),離測(cè)試數(shù)據(jù)中心比較近的被分配較高的權(quán)重,而離測(cè)試數(shù)據(jù)中心較遠(yuǎn)的被分配較低的權(quán)重,從而拉近加權(quán)的訓(xùn)練數(shù)據(jù)中心和測(cè)試數(shù)據(jù)中心的距離。經(jīng)過(guò)公式推導(dǎo),我們有一個(gè)有意思的發(fā)現(xiàn):對(duì)于每一個(gè)訓(xùn)練樣本,它和訓(xùn)練數(shù)據(jù)中心的相似度減去它和測(cè)試數(shù)據(jù)中心的相似度可以被看成另外一種特權(quán)信息。至此,我們將學(xué)習(xí)框架拓展為可以同時(shí)解決基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)的兩大問(wèn)題。在實(shí)驗(yàn)部分,我們用 Flickr 圖片或視頻作為訓(xùn)練集,在圖片分類、人體動(dòng)作識(shí)別和視頻事件檢測(cè)的標(biāo)準(zhǔn)測(cè)試集上做了大量的實(shí)驗(yàn),結(jié)果證明了特權(quán)信息的有效性。我們的論文發(fā)表在 ECCV 2014 [1],后來(lái)被拓展到 IJCV [2]。

二、利用語(yǔ)義信息輔助基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)

在網(wǎng)上我們可以免費(fèi)獲得每一種類別的語(yǔ)義信息 (semantic information)。比如給定一個(gè)類名,我們可以從它的維基主頁(yè)上抽取文本信息作為該類別的語(yǔ)義信息,也可以用類名的詞向量 (word vector) 作為該類別的語(yǔ)義信息。我們的方法建立在差分自編碼器 (variational auto-encoder (VAE)) 的基礎(chǔ)上,出于以下兩點(diǎn)考慮:1. 自編碼器可以用來(lái)檢測(cè)噪音;2. 自編碼器的隱藏層 (hidden layer) 可以加入語(yǔ)義信息。

我們方法的框架見(jiàn)下圖,分成上下兩個(gè)子網(wǎng)絡(luò)。下面的子網(wǎng)絡(luò)是 VAE,輸入是圖片的 CNN 特征,輸出是重建概率,可以用來(lái)指示該圖片是不是噪音。具體來(lái)講,噪音的重建概率比較低而非噪音的重建概率比較高。上面的子網(wǎng)絡(luò)是分類器,輸入是類別的語(yǔ)義信息和 VAE 的隱藏變量,輸出是類別種類,這也相當(dāng)于用分類器來(lái)約束 VAE 的隱藏層。在這種情況下,分類器和 VAE 可以聯(lián)合利用語(yǔ)義信息來(lái)抵制噪音。從我們最終的目標(biāo)函數(shù)可以看出,我們旨在減少加權(quán)的分類損失。具體來(lái)說(shuō),更可能是非噪音的圖片的損失被分配更高的權(quán)重,因?yàn)榉窃胍舻膱D片對(duì)訓(xùn)練魯棒的模型貢獻(xiàn)更大。在訓(xùn)練階段,我們訓(xùn)練一個(gè)端到端的網(wǎng)絡(luò)以優(yōu)化 CNN、VAE 和分類器的參數(shù)。在測(cè)試階段,我們輸入測(cè)試圖片和所有測(cè)試類別的語(yǔ)義信息,預(yù)測(cè)測(cè)試圖片的類別。 利用特權(quán)信息、語(yǔ)義信息和多源信息輔助基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)

在上述網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,我們做了兩點(diǎn)改進(jìn)用來(lái)解決網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)和用戶測(cè)試數(shù)據(jù)的分布性差異問(wèn)題:

  • 首先,我們用 VAE 同時(shí)重建網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)和無(wú)標(biāo)簽的測(cè)試數(shù)據(jù),該方法已被之前域遷移 (domain adaptation) 的論文證明有效。

  • 其次,我們用網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)的隱藏變量 (hidden variable) 來(lái)重建測(cè)試數(shù)據(jù)的隱藏變量。

具體來(lái)說(shuō),我們假設(shè)測(cè)試數(shù)據(jù)的隱藏變量可以由網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)的隱藏變量線性表示,并且表示矩陣是低秩的。借助低秩表示 (low-rank representation) 的學(xué)習(xí)方法,我們可以更新測(cè)試數(shù)據(jù)的隱藏變量并用更新后的數(shù)據(jù)重新預(yù)測(cè)。在實(shí)驗(yàn)部分,我們用 Google 圖片作為訓(xùn)練集,在三個(gè)圖片分類的標(biāo)準(zhǔn)測(cè)試集上做測(cè)試。結(jié)果表明類別的語(yǔ)義信息可以輔助解決基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)的兩大問(wèn)題。我們的論文發(fā)表在 CVPR 2018 [3]。

三、 利用多源信息輔助基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)

網(wǎng)絡(luò)上的數(shù)據(jù)多模態(tài)且多源。比如圖片可以從 Google, Flickr, Bing 等網(wǎng)站下載,視頻可以從 Flickr, YouTube 等網(wǎng)站下載,并且從網(wǎng)上下載的圖片或視頻都帶有文本信息。從不同網(wǎng)站下載的數(shù)據(jù)有很大的分布差異性。如果用網(wǎng)絡(luò)數(shù)據(jù)作為訓(xùn)練集,我們希望選取和測(cè)試集分布比較接近的網(wǎng)絡(luò)源作為訓(xùn)練集,這樣訓(xùn)練出來(lái)的模型在測(cè)試集上能取得更好的效果。所以我們想要在不同的網(wǎng)絡(luò)源上分配不同的權(quán)重,具體來(lái)講,給和測(cè)試集分布比較接近的網(wǎng)絡(luò)源分配更高的權(quán)重。

我們的流程圖如下,給定若干個(gè)網(wǎng)絡(luò)源,其中一部分是圖片源,另一部分是視頻源。我們從圖片中抽取 2D 視覺(jué)特征,從視頻中抽取 3D 視覺(jué)特征,從文本信息中抽取文本特征,輸入到我們的學(xué)習(xí)模型。同時(shí),我們的方法也需要輸入無(wú)標(biāo)簽的測(cè)試視頻,從測(cè)試視頻中同時(shí)抽取 2D 視覺(jué)特征和 3D 視覺(jué)特征。基于視覺(jué)特征,我們?cè)诿總€(gè)源上訓(xùn)練一個(gè)分類器。給定一個(gè)測(cè)試樣本,每個(gè)分類器會(huì)產(chǎn)生一個(gè)預(yù)測(cè)值。我們把所有的預(yù)測(cè)值加權(quán)平均,和測(cè)試樣本的標(biāo)簽作比較。然而,測(cè)試樣本的標(biāo)簽在訓(xùn)練階段是未知的,所以我們還需要推斷測(cè)試樣本的偽標(biāo)簽。綜上,在訓(xùn)練階段,我們需要同時(shí)學(xué)習(xí)每個(gè)源的權(quán)重,每個(gè)源上的分類器以及測(cè)試樣本的偽標(biāo)簽。這樣就可以解決網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)和用戶測(cè)試數(shù)據(jù)分布的差異性問(wèn)題。

在流程圖中,我們還可以看到所有的圖片和視頻都有附帶的文本信息。我們利用附帶的文本信息作為特權(quán)信息來(lái)幫助解決網(wǎng)絡(luò)數(shù)據(jù)標(biāo)簽噪音的問(wèn)題。如何利用特權(quán)信息去噪已經(jīng)在第一部分講過(guò),技術(shù)細(xì)節(jié)比較相似,在此就不重復(fù)了。在實(shí)驗(yàn)部分,我們把 Google 和 Bing 作為圖片源,把 Flickr 作為視頻源,在人體動(dòng)作識(shí)別和視頻事件檢測(cè)的標(biāo)準(zhǔn)測(cè)試集上做了大量的實(shí)驗(yàn)。實(shí)驗(yàn)證明我們的方法可以更好地利用多模態(tài)多源的網(wǎng)絡(luò)數(shù)據(jù)。我們的論文發(fā)表在 CVPR 2013 [4],然后拓展到 T-NNLS [5].

利用特權(quán)信息、語(yǔ)義信息和多源信息輔助基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)

總結(jié)

基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)存在兩大主要問(wèn)題:標(biāo)簽噪音和數(shù)據(jù)分布差異性,所以和基于精確標(biāo)注數(shù)據(jù)的學(xué)習(xí)相比在性能上仍有一定的差距。但是考慮到網(wǎng)絡(luò)數(shù)據(jù)的諸多優(yōu)勢(shì),基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)有著很大的提升空間和廣闊的應(yīng)用前景。在這篇文章中,我們結(jié)合過(guò)去嘗試的方法,講述了如何利用特權(quán)信息、語(yǔ)義信息和多源信息幫助解決基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)的主要問(wèn)題。在未來(lái)工作中,我們會(huì)繼續(xù)探索如何充分利用網(wǎng)絡(luò)數(shù)據(jù)的優(yōu)勢(shì)去提升基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)的性能,并把應(yīng)用擴(kuò)展到物體檢測(cè),語(yǔ)義分割、文本和圖片的雙向檢索以及其他領(lǐng)域。

[1] Li Niu *, Wen Li *, and Dong Xu, 「Exploiting Privileged Information from Web Data for Image Categorization」, ECCV, 2014.

[2] Li Niu, Wen Li, and Dong Xu, 「Exploiting Privileged Information from Web Data for Action and Event Recognition」, IJCV, 2016.

[3] Li Niu, Qingtao Tang, Ashok Veeraraghavan, and Ashu Sabharwal,「Learning from Noisy Web Data with Category-level Supervision」, CVPR, 2018.

[4] Lin Chen, Lixin Duan, and Dong Xu,「Event recognition in videos by learning from heterogeneous Web sources」, CVPR, 2013.

[5] Li Niu, Xinxing Xu, Lin Chen, Lixin Duan, and Dong Xu, 「Action and Event Recognition in Videos by Learning from Heterogeneous Web Sources」, T-NNLS, 2017.

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

利用特權(quán)信息、語(yǔ)義信息和多源信息輔助基于網(wǎng)絡(luò)數(shù)據(jù)的學(xué)習(xí)

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)