0
雷鋒網(wǎng) AI 科技評論按:近日 Facebook 科學(xué)家團隊發(fā)布基于主題標簽的深度學(xué)習(xí)方法,使用已有的擁有主題標簽的圖片作為訓(xùn)練數(shù)據(jù),從而大幅提升了訓(xùn)練數(shù)據(jù)集的大小。數(shù)據(jù)集的增大必然會引起圖片錯誤率的提升,他們同時發(fā)布了處理圖片噪音的方法。他們團隊的這項工作對于現(xiàn)今的圖片識別領(lǐng)域有著廣泛而深遠的影響。雷鋒網(wǎng)對全文翻譯如下。
圖片識別是AI 的一個支柱領(lǐng)域,目前也是 Facebook 關(guān)注的領(lǐng)域之一。我們的研究人員與工程師專注于開拓 CV 的邊界,并將相關(guān)工作應(yīng)用到生活中從而服務(wù)世界。例如,利用 AI 生成圖片的音頻提示來照顧一些視力受損的用戶。為了改善我們的 CV 系統(tǒng)并使他們可以持續(xù)識別和分類各種各樣的物體,我們需要數(shù)以十億級的照片數(shù)據(jù)集,而不是今天常用的百萬數(shù)據(jù)集。
因為現(xiàn)在用來訓(xùn)練模型的數(shù)據(jù)集一般需要人為標注的,所以簡單增加圖片(無標注)數(shù)量的方法并不能很好的提高識別效果。這種計算密集型的監(jiān)督學(xué)習(xí)通??梢员憩F(xiàn)的很好,但缺點是這種手動標注的數(shù)據(jù)集的大小受到「手動」這個特點的嚴重限制。舉個例子,現(xiàn)在 Facebook 用一個有 5000 萬張圖片的數(shù)據(jù)集訓(xùn)練模型,但「手動」將這個數(shù)據(jù)集拓展到 10 億級是非常難實現(xiàn)的。
現(xiàn)在我們的研究員和工程師通過訓(xùn)練帶有主題標簽的數(shù)據(jù)集的方法解決了這個問題,這個超大數(shù)據(jù)集包含了 35 億張圖片和 17,000 個主題標簽。這個方法的關(guān)鍵點在于使用已經(jīng)存在的由用戶提供的公開主題標簽來取代手動分類的標簽。這個方法在我們的測試中表現(xiàn)良好。通過使用這個包含 10 億張圖片的版本訓(xùn)練模型,我們的模型取得了 85.4% 的識別準確度,打破了 ImageNet(常用基準測試工具)的準確度記錄。這項工作除了在圖像識別性能上有了真正的突破,還為如何從監(jiān)督學(xué)習(xí)遷移到弱監(jiān)督學(xué)習(xí)提供了重要思路,即使用已經(jīng)存在的標簽(如本實驗中的主題標簽)而不是專門為 AI 訓(xùn)練而準備的標簽。我們打算在未來開源這些模型的嵌入部件,這樣其他研究團隊就可以在這個表示方法上使用、建立高級任務(wù)。
人們通常會為他們的照片打上主題標簽,我們由此認為這是模型訓(xùn)練數(shù)據(jù)的一個理想來源。我們使用主題標簽的另一個考量是主題標簽可以簡要概括某一類事物,從而讓圖片更加容易被理解。
但主題標簽經(jīng)常會涉及到不直觀的概念,例如 #tbt 代表著「throwback Thursday」。有時又會模棱兩可,例如標簽 #party 既可以用來描述一項活動也可以表示一項設(shè)置。對于識別圖像這個目的來說,標簽被用作弱監(jiān)督數(shù)據(jù),那么模棱兩可或者不相關(guān)的主題標簽就成了會誤導(dǎo)深度學(xué)習(xí)模型的「不相關(guān)標簽噪音」。
這些噪音標簽是我們大規(guī)模性訓(xùn)練必須關(guān)注的核心問題,為此我們研發(fā)出新的基于主題標簽的監(jiān)督學(xué)習(xí)方法,這種方法針對圖像識別實驗進行了專門的調(diào)整。這些調(diào)整包括對每個圖片進行多標簽處理(人們通常給圖片打上不止一個標簽),按主題標簽同義詞進行排序,以及平衡常見標簽與不常見標簽對模型的影響。為了讓標簽可以更好的應(yīng)用于圖片識別訓(xùn)練,我們團隊先訓(xùn)練了一個大規(guī)模的主題標簽預(yù)測模型。這是一次效果極佳的遷移學(xué)習(xí),結(jié)果這個模型分類后的圖片可以廣泛應(yīng)用于其他 AI 系統(tǒng)。這項新的工作基于 Facebook 之前的研究,比如基于評論、主題標簽和視頻的圖像分類調(diào)查。這次對于弱監(jiān)督學(xué)習(xí)的探索是 AML(Facebook's Applied Machine Learning)和 FAIR(Facebook Artificial Intelligence Research)廣泛合作的成果。
由于一臺機器要花一年多時間才能完成模型訓(xùn)練,我們發(fā)明了一種新方法將任務(wù)分發(fā)給 336 塊 GPU,這樣就將訓(xùn)練時間縮短至一周。隨著訓(xùn)練模型越來越大(我們研究中使用的最大的模型是有 8.61 億個參數(shù)的 ResNeXt 101-32x48d),這種分布式訓(xùn)練也越來越重要。除此之外,我們還設(shè)計了一個移除副本的方法,這種方法可以防止我們把待評估的圖片用來訓(xùn)練模型—一個困擾此領(lǐng)域相關(guān)研究的問題。
盡管我們都希望圖片識別的性能提升,但結(jié)果著實給人驚喜。我們使用 10 億張圖片(含 1500 個主題標簽)訓(xùn)練出的模型在 ImageNet 上取得了 85.4% 的準確率。這是當(dāng)前 ImageNet 最高識別率,這成績比以往最佳模型的識別率高了 2%??紤]到卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的影響,目前可見的性能提升更加顯著:使用數(shù)以十億級的圖片(含主題標簽)進行深度學(xué)習(xí),對識別率的提升高達 22.5%。
在另外一個基準測試—COCO 物體檢測挑戰(zhàn)中,我們發(fā)現(xiàn)使用主題標簽進行預(yù)訓(xùn)練可以將模型的平均精度提升 2%。
這些是對圖像識別和物體檢測的基礎(chǔ)改進,代表著計算機視覺前進了一步。但是我們的實驗也揭示了與大規(guī)模訓(xùn)練和噪音標簽相關(guān)的具體機遇和挑戰(zhàn)。
盡管提升訓(xùn)練數(shù)據(jù)集的大小是非常有用,選擇和特定識別任務(wù)相匹配的主題標簽一樣重要。我們對 10 億張圖片(1500 個主題標簽且與 ImageNet 數(shù)據(jù)集中的類相匹配)進行訓(xùn)練得到的結(jié)果要優(yōu)于對 10 億張圖片(17000 個主題標簽)進行訓(xùn)練的結(jié)果。另一方面,對具有更大視覺多樣性的任務(wù),使用 17,000 個主題標簽進行訓(xùn)練的模型的性能改進變得更加明顯,這表明我們應(yīng)該在未來的訓(xùn)練中增加主題標簽的數(shù)量。
增加訓(xùn)練數(shù)據(jù)量通常對圖像分類有好處。但它可能會產(chǎn)生新的問題,包括圖像中物體定位能力的明顯下降。我們還了解到,我們當(dāng)前最大的模型遠沒有充分利用 35 億圖像訓(xùn)練集的數(shù)據(jù),這意味著我們應(yīng)該訓(xùn)練更大的模型。
這項研究的一個重要結(jié)果—甚至比在圖像識別方面的各項改進還要重要—就是確認使用主題標簽去訓(xùn)練計算機視覺模型完全可行。由于我們使用了一些基礎(chǔ)技術(shù)來合并同類主題標簽以及削弱標簽權(quán)重,我們完全不需要復(fù)雜的「清理」程序來消除標簽噪音。相反,我們可以用主題標簽訓(xùn)練我們的模型并且對訓(xùn)練過程修改很少。這時候數(shù)據(jù)集規(guī)模的提升就顯得很有益,因為在數(shù)十億的圖像上訓(xùn)練的模型顯示出對標簽噪聲的顯著恢復(fù)能力。
在不遠的將來,我們還設(shè)想了其他將主題標簽用作計算機視覺標簽的方式。這些方式可能包括使用 AI 來更好地理解視頻片段或改變圖片在 Facebook 推薦中的排名方式。主題標簽不僅可以幫助系統(tǒng)識別一般類別的圖片還可以識別特定子類別的圖片。例如,「樹上有個鳥」這種語音提示是有用的,但一個可以指明確切物種的語音提示可以為視障用戶提供更好的場景描述,比如「一個北美紅雀棲息在北美楓樹上」。
拋開主題標簽的使用不談,這項研究依舊取得了廣泛的圖片識別相關(guān)的進展,這些改進足以影響現(xiàn)有產(chǎn)品和新產(chǎn)品。例如,更加精確的模型可能會改善我們在 Facebook 上呈現(xiàn)歷史記錄的方式。這項研究還指出長期影響與弱監(jiān)督數(shù)據(jù)有關(guān)。隨著訓(xùn)練數(shù)據(jù)集越來越大,弱監(jiān)督(長期來說,無監(jiān)督)學(xué)習(xí)變得越來越重要。知道如何彌補噪音大。標簽少的缺點對建立和使用的大規(guī)模訓(xùn)練數(shù)據(jù)集至關(guān)重要。
Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan 等人的論文—「Exploring the Limits of Weakly Supervised Pretraining」對研究進行了詳細描述。因為本實驗使用了超大規(guī)模級別的數(shù)據(jù)集,最后的觀測結(jié)果為一系列新研究方向鋪平了道路,包括開發(fā)新一代的足夠復(fù)雜的深度學(xué)習(xí)模型用來從數(shù)十億的圖像中有效地學(xué)習(xí)。
這項工作還表明,我們需要開發(fā)像 ImageNet 一樣可以廣泛使用的新基準數(shù)據(jù)庫,一是可以讓我們更好地衡量當(dāng)今圖像識別系統(tǒng)的質(zhì)量和局限性。二是為以后更大,監(jiān)督更弱的系統(tǒng)做準備。
雷鋒網(wǎng)認為Facebook團隊這項工作對于現(xiàn)如今圖像識別領(lǐng)域會有很大影響。一是訓(xùn)練數(shù)據(jù)集的提升導(dǎo)致訓(xùn)練模型的提升,二是他們還引導(dǎo)學(xué)習(xí)方式從監(jiān)督到弱監(jiān)督的轉(zhuǎn)變。閱讀原文戳:Facebook F8。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。