0
本文作者: 奕欣 | 2018-07-20 10:21 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文由美國(guó)萊斯大學(xué)博士后牛力為 AI 科技評(píng)論提供的獨(dú)家稿件,未經(jīng)許可不得轉(zhuǎn)載。
細(xì)粒度分類是分類問題中一個(gè)非常有挑戰(zhàn)性的子問題。和傳統(tǒng)的粗粒度分類不同,細(xì)粒度分類不是區(qū)分不同的大類,而是區(qū)分一個(gè)大類下面的子類,比如不同品種的貓。由于不同子類之間的差異非常微小,所以細(xì)粒度分類比粗粒度分類難度更大。并且,為細(xì)粒度分類收集訓(xùn)練數(shù)據(jù)也是一項(xiàng)十分艱巨的任務(wù),原因如下。
首先,一個(gè)大類下面往往有大量子類。據(jù)統(tǒng)計(jì),世界上有 14000 種鳥,很難為每一種鳥都收集足夠的訓(xùn)練數(shù)據(jù)。其次,為子類標(biāo)注需要專業(yè)的知識(shí)。比如標(biāo)注不同種類的鳥就需要知道每一類鳥的具體細(xì)節(jié),比如嘴、翅膀、尾巴的顏色形狀等等。大多數(shù)人并不具備這種專業(yè)知識(shí),因而能做細(xì)粒度標(biāo)注的專家非常稀缺。
由于為細(xì)粒度分類收集訓(xùn)練數(shù)據(jù)異常困難,注定會(huì)有很多子類沒有對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。對(duì)于某些種類缺乏訓(xùn)練數(shù)據(jù)的情況,現(xiàn)有的研究工作主要集中于以下兩個(gè)領(lǐng)域:第一,收集弱監(jiān)督數(shù)據(jù),也就是標(biāo)簽不準(zhǔn)確的數(shù)據(jù),比如從網(wǎng)絡(luò)上獲取免費(fèi)但標(biāo)簽有噪音的數(shù)據(jù) (webly supervised learning);第二,借助類別的語義信息,把知識(shí)從有標(biāo)注數(shù)據(jù)的種類轉(zhuǎn)移到?jīng)]有標(biāo)注數(shù)據(jù)的種類,比如零示例學(xué)習(xí) (zero-shot learning)。但上述兩個(gè)領(lǐng)域的研究都有各自的缺陷。具體來說,基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)會(huì)受到標(biāo)簽噪音以及網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間分布差異問題的影響,而零示例學(xué)習(xí)性能不佳且忽視了大量免費(fèi)可用的網(wǎng)絡(luò)數(shù)據(jù)?;谝陨嫌^察,我們嘗試將基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)和零示例學(xué)習(xí)結(jié)合起來用來做細(xì)粒度分類,工作發(fā)表在 CVPR 2018 (spotlight):「Webly Supervised Learning Meets Zero-shot Learning: A Hybrid Approach for Fine-grained Classification」。
我們的做法如下,先選取一部分子類進(jìn)行人工標(biāo)注,然后為剩余的子類從網(wǎng)上下載圖片。為了描述方便,我們把人工標(biāo)注的子類稱為標(biāo)注子類,把利用網(wǎng)絡(luò)圖片的子類稱為網(wǎng)絡(luò)子類。標(biāo)注子類和網(wǎng)絡(luò)子類構(gòu)成了所有的子類。之前提到了網(wǎng)絡(luò)數(shù)據(jù)有標(biāo)簽噪音和數(shù)據(jù)分布差異的問題,而人工標(biāo)注的子類沒有這兩個(gè)問題。為了解決基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)的兩個(gè)問題,我們借助于類別的語義信息,將知識(shí)從標(biāo)注子類轉(zhuǎn)移到網(wǎng)絡(luò)子類。類別的語義信息有很多種,包括特征 (attribute) 和詞向量 (word vector) 等等。因?yàn)樘卣餍枰獙<疫M(jìn)行標(biāo)注,比較難獲取,所以我們使用從免費(fèi)的維基文本中學(xué)到的詞向量。
我們方法的流程圖如下,給定一個(gè)大類,我們?yōu)闃?biāo)注子類收集人工標(biāo)注的精確數(shù)據(jù),為剩余的網(wǎng)絡(luò)子類從網(wǎng)絡(luò)上下載圖片,然后獲取所有子類的詞向量。借助詞向量,我們建立起標(biāo)注子類和網(wǎng)絡(luò)子類之間的聯(lián)系,將知識(shí)從標(biāo)注子類遷移到網(wǎng)絡(luò)子類,用來解決網(wǎng)絡(luò)子類存在的標(biāo)簽噪音和數(shù)據(jù)分布差異問題。同時(shí),我們?cè)谟?xùn)練階段也使用了無標(biāo)簽的測(cè)試圖片,用來減小網(wǎng)絡(luò)訓(xùn)練圖片和測(cè)試圖片在數(shù)據(jù)分布上的差異??傊?,我們的學(xué)習(xí)模型把所有子類的詞向量以及標(biāo)注子類、網(wǎng)絡(luò)子類和測(cè)試圖片的視覺特征作為輸入,輸出測(cè)試圖片的種類。
第一步:學(xué)習(xí)基于標(biāo)注子類的詞典 (dictionary)
我們用標(biāo)準(zhǔn)的詞典學(xué)習(xí)得到基于標(biāo)注子類的詞典。
第二步:從標(biāo)注子類轉(zhuǎn)移知識(shí)到網(wǎng)絡(luò)子類用來解決網(wǎng)絡(luò)子類存在的問題
在上面的表達(dá)式中,第一項(xiàng)是標(biāo)準(zhǔn)的詞典學(xué)習(xí),第二項(xiàng)讓基于標(biāo)注子類的詞典和基于網(wǎng)絡(luò)子類的詞典接近,也就是把標(biāo)注子類的知識(shí)轉(zhuǎn)移到網(wǎng)絡(luò)子類,第三項(xiàng)期望測(cè)試集上的詞向量矩陣是低秩的,因?yàn)橄嗤宇悳y(cè)試圖片的詞向量應(yīng)該彼此相似,第四項(xiàng)是在網(wǎng)絡(luò)訓(xùn)練圖片上賦予不同的權(quán)重以拉近加權(quán)網(wǎng)絡(luò)數(shù)據(jù)的中心和測(cè)試數(shù)據(jù)的中心之間的距離,也就是減少網(wǎng)絡(luò)圖片和測(cè)試圖片在數(shù)據(jù)分布上的差異,第五項(xiàng)是用同樣的權(quán)重解決標(biāo)簽噪音的問題,注意到我們用group lasso迫使分類損失矩陣的某些行稀疏,也就是強(qiáng)制某些網(wǎng)絡(luò)圖片的分類損失很小。這些分類損失小的網(wǎng)絡(luò)圖片對(duì)應(yīng)著標(biāo)簽準(zhǔn)確的圖片,相應(yīng)的權(quán)重也會(huì)更大,因?yàn)樗麄儗?duì)訓(xùn)練魯棒的分類器更重要。同時(shí),我們對(duì)權(quán)重加了限制條件,希望在限制的搜索空間內(nèi)找到最優(yōu)的權(quán)重,可以選出標(biāo)簽準(zhǔn)確并且離測(cè)試圖片分布較近的網(wǎng)絡(luò)圖片。上述問題可以通過交替的方式求解,也就是固定其他變量,求解剩下的一個(gè)變量。通過求解上述問題,我們可以獲得測(cè)試數(shù)據(jù)的詞向量。最后,把測(cè)試數(shù)據(jù)的詞向量和測(cè)試子類的詞向量作比較,我們就可以得到測(cè)試數(shù)據(jù)的子類標(biāo)簽。
在實(shí)驗(yàn)部分,我們用了零示例學(xué)習(xí)常用的三個(gè)數(shù)據(jù)庫(kù):CUB、SUN和Dogs。對(duì)每個(gè)數(shù)據(jù)庫(kù),我們把可見子類 (seen categories) 作為標(biāo)注子類,把未見子類 (unseen categories) 作為網(wǎng)絡(luò)子類和測(cè)試子類。和零示例學(xué)習(xí)不同的是,我們?yōu)槲匆娮宇悘腇lickr下載了網(wǎng)絡(luò)圖片,也就是說為未見子類提供了弱監(jiān)督的訓(xùn)練數(shù)據(jù)。所以我們的學(xué)習(xí)范式可以看成弱監(jiān)督的零示例學(xué)習(xí),或者有額外子類的弱監(jiān)督學(xué)習(xí)。以下是我們的實(shí)驗(yàn)設(shè)定和實(shí)驗(yàn)結(jié)果。我們比較了只使用網(wǎng)絡(luò)子類 (web subcategories) 的方法、只使用標(biāo)注子類 (labeled subcategories)的方法、和二者簡(jiǎn)單的結(jié)合。結(jié)果表明,我們的方法相比較基于網(wǎng)絡(luò)數(shù)據(jù)學(xué)習(xí)和零示例學(xué)習(xí)的簡(jiǎn)單結(jié)合,效果取得了顯著的提升,也說明了從標(biāo)注子類轉(zhuǎn)移知識(shí)到網(wǎng)絡(luò)子類用來解決網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)存在的問題是一套行之有效的方法。
除了定量分析,我們還提供了一些定性分析。記得在我們學(xué)習(xí)模型的第二步,我們?yōu)榫W(wǎng)絡(luò)訓(xùn)練圖片分配了不同的權(quán)重,期望選出標(biāo)簽準(zhǔn)確并且離測(cè)試圖片分布較近的網(wǎng)絡(luò)圖片。接下來,我們拿Dogs數(shù)據(jù)庫(kù)舉例,從網(wǎng)絡(luò)訓(xùn)練圖片中選出權(quán)重最大和最小的幾張圖片 (我們把權(quán)重范圍設(shè)定在[0, 1.5])。從下圖中可以看出我們方法選出的高權(quán)重圖片都標(biāo)簽準(zhǔn)確,并且物體占據(jù)圖片的中間大部分區(qū)域,這也從另一個(gè)角度證明了我們方法的有效性。更多細(xì)節(jié)請(qǐng)參照我們的論文http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/3280.pdf。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。