0
雷鋒網(wǎng)按:本文由「圖普科技」編譯自Using Deep Learning to automatically rank millions of hotel images
德國比價網(wǎng)站idealo.de訓(xùn)練了兩個深度神經(jīng)網(wǎng)絡(luò)來評估圖像的美學質(zhì)量和技術(shù)質(zhì)量。
基于訓(xùn)練模型的美感可視化(美觀性按從左到右的順序逐漸增加)
idealo.de是歐洲領(lǐng)先的價格比較網(wǎng)站,也是德國最大的電商門戶網(wǎng)站之一,可提供市場上最好的酒店價格比較。對于每家酒店,我們都會收到數(shù)十張圖片,我們需在的優(yōu)惠對比頁面上為每個優(yōu)惠項選擇“最具吸引力”的圖片,這是一項具有挑戰(zhàn)性的工作,因為照片和評論一樣對顧客是否預(yù)訂有著舉足輕重的影響。我們擁有全球百萬家酒店的近億張酒店圖像,需要對其進行“吸引力”評估。
我們基于谷歌發(fā)布的研究論文“NIMA:神經(jīng)圖像評估”,通過進行美學和技術(shù)質(zhì)量分類來自動評估圖像質(zhì)量。NIMA由兩個卷積神經(jīng)網(wǎng)絡(luò)(CNN)組成,旨在分別預(yù)測圖像的美學質(zhì)量和技術(shù)質(zhì)量。我們通過遷移學習來訓(xùn)練模型,其中ImageNet預(yù)訓(xùn)練的CNN會針對每個質(zhì)量分類任務(wù)進行微調(diào)。
在本文中,我們將介紹我們在整個過程中使用的訓(xùn)練方法和一些見解。然后,我們將嘗試通過可視化我們訓(xùn)練模型的卷積濾波器權(quán)重和輸出節(jié)點來闡明訓(xùn)練模型習得的內(nèi)容。
我們在GitHub上發(fā)布了訓(xùn)練模型和代碼。提供的代碼支持人們使用Keras中任何預(yù)訓(xùn)練的CNN,因此我們希望為探索利用其他CNN進行圖像質(zhì)量評估的作出貢獻?。
訓(xùn)練
美學和技術(shù)分類器通過遷移學習方法進行訓(xùn)練。我們將MobileNet架構(gòu)與ImageNet權(quán)重相結(jié)合,并將MobileNet中的最后一個密集層替換為輸出為10個類(分數(shù)為1到10)的密集層。
Earth Mover損失函數(shù)
NIMA的一個特點是使用Earth Mover損失(EML)作為損失函數(shù),與分類交叉熵(CCE)損失相反,該函數(shù)通常應(yīng)用于深度學習分類任務(wù)。EML可以理解為使兩個概率分布相等需要移動的“泥土”的量。該損失函數(shù)的一個有用屬性是它可以捕獲類的固有順序。 在我們的圖像質(zhì)量等級評估中,得分為4,5和6比得分為1,5和10的相關(guān)性更高,即在真實得分為10時,我們對得分為4的預(yù)測的懲罰比真實得分為5時更多。CCE無法獲得這種關(guān)系,并且在目標分類任務(wù)中通常不需要使用CCE。(例如,將樹錯誤分類為狗與將其歸類為貓同樣糟糕)。
為了使用EML,我們需要每個圖像在所有十個分數(shù)類別中的分布概率。對于用于訓(xùn)練美學質(zhì)量分類的AVA數(shù)據(jù)集,可以使用這些分布概率。對于用于技術(shù)質(zhì)量分類的TID2013數(shù)據(jù)集,我們根據(jù)為每個圖像給出的平均分數(shù)推斷出其分布。有關(guān)我們的分布推斷的更多詳細信息,請查看我們的GitHub repo。
微調(diào)階段
我們的模型訓(xùn)練分為兩個階段:
1.我們首先訓(xùn)練具有較高學習速率的最后一個密集層,以確保將新添加的隨機權(quán)重調(diào)整為ImageNet卷積權(quán)重。如果沒有這個老化期,你可能會在訓(xùn)練開始時需要兼顧卷積權(quán)重,從而拖慢整個訓(xùn)練過程。
2.在老化期之后,我們訓(xùn)練學習速率較低的CNN中的所有權(quán)重。
對于美學和技術(shù)模型,訓(xùn)練損失和驗證損失曲線分別在第5和第25個時間段后變平。這是一個很好的指標,說明新增加的權(quán)重已經(jīng)學會盡可能好地分類不同美學和技術(shù)質(zhì)量的圖像,并且是時候開始訓(xùn)練所有權(quán)重了。
對于美學分類器,一旦我們也開始訓(xùn)練卷積權(quán)重,損失會顯著下降(如左圖中的虛線),這表明我們正在調(diào)整美學質(zhì)量分類任務(wù)的卷積權(quán)重。對于技術(shù)分類器,損失的下降幅度較小,這首先是反直覺的,因為圖像技術(shù)質(zhì)量應(yīng)該是對象不可知的,但ImageNet權(quán)重被優(yōu)化以便識別對象。小幅下降可能是由于規(guī)范小型TID2013數(shù)據(jù)集訓(xùn)練所需的學習速率很低。
您可以在我們的GitHub repo中找到用于訓(xùn)練的所有超參數(shù)
結(jié)果
MobileNet美學預(yù)測
MobileNet技術(shù)預(yù)測
上述預(yù)測表明,美學分類器正確地將圖像按照美觀性進行了排列,從非常美觀(最左邊的日落圖像)到最不美觀(最右邊的無聊的酒店房間)。類似地,對于技術(shù)質(zhì)量分類,分類器預(yù)測的未失真圖像(左起第一和第四張圖像)比進行了jpeg壓縮(第二和第五張)或模糊(第三和第六張)的圖像分數(shù)更高。
可視化
為了更好地理解CNN如何評估圖像的美學質(zhì)量,我們使用了Lucid包來顯示Aesthetic MobileNet中的習得卷積濾波器權(quán)重和輸出節(jié)點。特征可視化這篇博客文章提供了最先進的CNN可視化技術(shù)的精彩互動概述。
第23層濾波器可視化(頂行是ImageNet MobileNet,底行是Aesthetic MobileNet)
較早的卷積層通常與更簡單的結(jié)構(gòu)相關(guān)聯(lián),例如邊緣,波形圖案和網(wǎng)格。上圖顯示了與MobileNet第23層中的六個濾波器相關(guān)聯(lián)的圖案 - 頂行中的六張圖像是由原始的MobileNet ImageNet權(quán)重(ImageNet MobileNet)生成的,而底行圖像是由根據(jù)美學質(zhì)量評級的AVA數(shù)據(jù)集微調(diào)的MobileNet權(quán)重(Aesthetic MobileNet)生成的。從濾波器可視化中我們可以看到,較早的卷積濾波器在整個微調(diào)過程中受到的影響不大,因為它們與原始圖像非常相似。
第51層濾波器可視化(頂行是ImageNet MobileNet,底行是Aesthetic MobileNet)
對于處于第51層的中間卷積濾波器,其所學習的形狀更復(fù)雜,類似于毛發(fā)或有扣眼的網(wǎng)格等交織結(jié)構(gòu)。即使在這種程度,Aesthetic MobileNet濾波器也非常類似于ImageNet MobileNet濾波器。
第79層濾波器可視化(頂行是ImageNet MobileNet,底行是Aesthetic MobileNet)
后來的卷積層呈現(xiàn)出更復(fù)雜的結(jié)構(gòu),類似于動物和樹木的形狀。 我們可以看到,Aesthetic MobileNet的濾波器與ImageNet的濾波器有很大不同,因為它們似乎不太關(guān)注目標,例如 左起第四個濾波器中沒有動物形狀。
我們還可以將Aesthetic MobileNet的輸出節(jié)點可視化,來表示分數(shù)1到10的概率。因此,可視化顯示與每個分數(shù)相關(guān)聯(lián)的“代表性”圖像。
輸出節(jié)點可視化Aesthetic MobileNet(按升序排列,從左上角到右下角分數(shù)為1到10)
輸出節(jié)點的可視化很難解釋,就像很難定義美觀性一樣。若有任何不同的話,較低分數(shù)的圖像的可視化似乎不那么多姿多彩,而較高的分數(shù)則與更多的色彩和豐富的形狀相關(guān)聯(lián)。 得分為10的圖像看起來類似于具有天空背景的景觀,通常被認為具有高度美感。
總結(jié)
在本文中,我們介紹了自動評估圖像質(zhì)量的挑戰(zhàn)。經(jīng)過訓(xùn)練的美學和技術(shù)模型根據(jù)美學和技術(shù)質(zhì)量成功地對圖像進行排序。我們通過可視化卷積濾波器和輸出節(jié)點進一步探索了美學模型的習得CNN權(quán)重,并得出結(jié)論,微調(diào)主要影響后來的卷積權(quán)重。
微調(diào)深度神經(jīng)網(wǎng)絡(luò)是解決企業(yè)面臨的許多計算機視覺問題的一種良好策略。然而,這些模型的分類及其數(shù)百萬個參數(shù)通常很難解釋,我們希望通過可視化分析能使人們對這個黑盒子有所了解。
相關(guān)文章:
圖普科技 CEO 李明強:如何用圖像識別云服務(wù),建立商業(yè)閉環(huán) 丨CCF-GAIR 2018
Google工程師:教你用樹莓派+Arduino+TensorFlow搭建圖像識別小車
從原理到代碼:大牛教你如何用 TensorFlow 親手搭建一套圖像識別模塊 | AI 研習社
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。