0
本文作者: 奕欣 | 2018-10-10 14:54 |
雷鋒網(wǎng) AI 科技評論按:本文由上海交通大學(xué)副教授牛力為 AI 科技評論提供的獨(dú)家稿件,未經(jīng)許可不得轉(zhuǎn)載。
在傳統(tǒng)的機(jī)器學(xué)習(xí)中,訓(xùn)練和測試都在相同的種類集合上進(jìn)行。而在零示例學(xué)習(xí) (zero-shot learning) 中,訓(xùn)練種類集合和測試種類集合沒有重合,即在屬于訓(xùn)練種類集合的數(shù)據(jù)上訓(xùn)練模型,然后在屬于測試種類集合的數(shù)據(jù)上進(jìn)行預(yù)測。訓(xùn)練種類和測試種類需要通過所有種類的語義信息建立聯(lián)系,才能把在訓(xùn)練種類的分類模型用于測試種類。常見的種類語義信息包括屬性 (attribute) 和詞向量 (word vector) 等等。其中屬性需要人工標(biāo)注,但是更精確,因而效果更好。我們把圖像的視覺特征稱為視覺空間 (visual space),把種類的語義信息稱為語義空間 (semantic space)。現(xiàn)有的一大類零示例學(xué)習(xí)的方法是把視覺空間映射到語義空間,或者把語義空間映射到視覺空間,或者把兩者映射到共同的子空間。其中學(xué)習(xí)到的映射稱為視覺語義映射 (visual-semantic mapping)。比如語義空間有一種屬性是 has_tail,我們需要學(xué)習(xí)從視覺空間到該屬性的映射,這樣給定一張新的動物圖片,我們就可以判斷它有沒有尾巴。在這種情況下,視覺語義映射相當(dāng)于由若干個(gè)屬性分類器構(gòu)成。但是對于不同種類來說,視覺語義映射有很大的差異。比如斑馬和豬都有尾巴,但是它們尾巴的視覺呈現(xiàn)差別很大,因而對應(yīng)的屬性分類器差異也很大。如果對于所有種類使用相同的視覺語義映射,在測試種類上得到的效果就會大打折扣。這個(gè)問題被稱為零示例學(xué)習(xí)中的映射域遷移 (projection domain shift) 問題。
之前大多數(shù)解決映射域遷移的方法都是在訓(xùn)練階段使用未標(biāo)注的測試種類數(shù)據(jù),為訓(xùn)練種類和測試種類學(xué)習(xí)一個(gè)共同的映射,或者為訓(xùn)練種類和測試種類分別學(xué)習(xí)一個(gè)映射。但是由于各個(gè)種類的映射之間差異性都很大,僅僅學(xué)習(xí)一個(gè)或兩個(gè)映射是遠(yuǎn)遠(yuǎn)不夠的。所以我們提出為每一個(gè)種類都學(xué)習(xí)一個(gè)不同的視覺語義映射 (category-specific visual-semantic mapping),文章發(fā)表在期刊 Transaction on Image Processing (T-IP) . 具體來說,我們先提出了一種傳統(tǒng)的方法 AEZSL,利用種類之間的相似關(guān)系為每一個(gè)測試種類訓(xùn)練一個(gè)視覺語義映射。但是對于大規(guī)模任務(wù)來說這種訓(xùn)練成本十分高昂,所以我們又提出一種基于深度學(xué)習(xí)的方法 DAEZSL,只需要訓(xùn)練一次就可以應(yīng)用到任意測試種類。下面分別介紹 AEZSL 和 DAEZSL。
我們的方法基于 Embarrassingly Simple Zero-Shot Learning (ESZSL)。ESZSL 的表達(dá)式如下,
其中 X 是視覺特征,A 是語義信息,W 是視覺語義映射,Y 是種類標(biāo)簽信息。ESZSL 為所有種類學(xué)習(xí)一個(gè)相同的視覺語義映射 W。我們在 ESZSL 的基礎(chǔ)上稍作修改,利用每一個(gè)測試種類和所有訓(xùn)練種類的相似關(guān)系(根據(jù)種類的語義信息計(jì)算得到),為每一個(gè)測試種類學(xué)一個(gè)單獨(dú)的視覺語義映射,表達(dá)式如下:
其中 Wc 是第 c 個(gè)測試種類的視覺語義映射,Sc 是第 c 個(gè)測試種類和所有訓(xùn)練種類的相似矩陣。這樣就可以利用種類之間的相似關(guān)系把視覺語義映射遷移到各個(gè)測試種類。但是我們的 AEZSL 需要對每一個(gè)測試種類都訓(xùn)練一個(gè)視覺語義映射,對于大規(guī)模的任務(wù)訓(xùn)練成本非常高昂。因此我們又提出了一種基于深度學(xué)習(xí)的方法 Deep AEZSL (DAEZSL),只需要在訓(xùn)練種類上訓(xùn)練一次就能應(yīng)用到任意測試種類,具體介紹如下。
我們旨在學(xué)習(xí)一個(gè)從語義信息到視覺語義映射的映射函數(shù),這樣給定任意一個(gè)種類的語義信息,我們就能很方便地獲得該種類的視覺語義映射。但是這樣一個(gè)映射函數(shù)復(fù)雜度較高,所以我們采取一種替代的方式,假設(shè)每一個(gè)種類都存在學(xué)習(xí)視覺特征權(quán)重,然后學(xué)習(xí)從語義信息到視覺特征權(quán)重的映射函數(shù)。學(xué)習(xí)針對每個(gè)種類的視覺特種權(quán)重相當(dāng)于隱性地學(xué)習(xí)針對每個(gè)種類的視覺語義映射,具體解釋請參考論文。我們設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)如下圖。在訓(xùn)練階段,假設(shè)共有 C 個(gè)訓(xùn)練種類,在上面的子網(wǎng)絡(luò)中,訓(xùn)練圖片的視覺特征被復(fù)制成 C 份,在下面的子網(wǎng)絡(luò)中,所有種類的語義信息通過 MLP 產(chǎn)生所有種類的視覺特征權(quán)重,作用于復(fù)制了 C 份的視覺特征。加權(quán)后的視覺特征通過全連接層(相當(dāng)于視覺語義映射)后和所有種類的語義信息相乘得到最終的預(yù)測值。在測試階段,測試圖片通過上面的子網(wǎng)絡(luò),所有測試種類的語義信息通過下面的子網(wǎng)絡(luò),相乘得到該測試圖片的預(yù)測值。
我們在三個(gè)小規(guī)模數(shù)據(jù)庫 CUB, SUN, Dogs 和一個(gè)大規(guī)模數(shù)據(jù)庫 ImageNet 上做了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明我們的方法在小規(guī)模和大規(guī)模數(shù)據(jù)庫上均取得了最優(yōu)的結(jié)果。除了定量結(jié)果,我們也提供了深入的定性分析。我們選擇了兩張「flea market」種類的圖片,這兩張圖片被我們的 AEZSL 方法成功分類,卻被 ESZSL 錯(cuò)分為「shoe shop」。通過對比「flea market」和「shoe shop」的語義信息,「cloth」和「cluttered space」這兩個(gè)屬性更能代表「flea market」。我們在下圖列出了兩張圖片通過 ESZSL 和 AEZSL 方法得到的在「cloth」和「cluttered space」兩屬性上的投影值。從下圖可以看出我們的方法 AEZSL 在兩個(gè)屬性上有更高的投影值,也就是說我們的方法能更好地捕獲「flea market」種類在「cloth」和「cluttered space」兩屬性上的語義信息。
為了更好的解釋說明,我們列舉了同樣包含「cloth」屬性的兩個(gè)種類「badminton court」和「bedchamber」, 以及同樣包含「cluttered space」屬性的兩個(gè)種類「recycling plant」和「landfill」。從下圖可以看出,同一個(gè)屬性在不同種類上的視覺呈現(xiàn)和語義信息大相徑庭。
對于「flea market」種類,我們列舉了和它最相近的幾個(gè)種類 bazaar, thrift shop, market, general store(如下圖所示)??梢妼τ凇竎loth」和「cluttered space」兩個(gè)屬性,「flea market」和上述種類更為接近。我們的方法通過關(guān)聯(lián)和「flea market」相近的幾個(gè)種類,更好地捕獲了「flea market」種類的「cloth」和「cluttered space」屬性的語義信息,學(xué)到了更契合該種類的視覺語義映射。
總結(jié)一下,我們提出了為每一個(gè)種類學(xué)習(xí)單獨(dú)的視覺語義映射,更好地捕獲每個(gè)種類的語義信息,從而解決零示例學(xué)習(xí)中的映射域遷移問題。具體來說,我們提出了傳統(tǒng)的 AEZSL 方法和基于深度學(xué)習(xí)的 DAEZSL 方法。AEZSL 方法為每個(gè)測試種類訓(xùn)練得到一個(gè)視覺語義映射,而 DAEZSL 只需要在訓(xùn)練種類上訓(xùn)練一次便可應(yīng)用到任意測試種類。在四個(gè)數(shù)據(jù)庫上的定量結(jié)果和定性分析充分展示了我們方法的優(yōu)越性。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。