丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給MrBear
發(fā)送

0

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

本文作者: MrBear 編輯:楊曉凡 2018-01-30 11:44
導(dǎo)語:別看新模型結(jié)構(gòu)提出來了那么多,U-Net 還是那么給力

雷鋒網(wǎng) AI 科技評論按:2017 年 7 月,美國二手汽車零售平臺 Carvana 在知名機(jī)器學(xué)習(xí)競賽平臺 kaggle 上發(fā)布了名為 Carvana 圖像掩模大挑戰(zhàn)賽(Carvana Image Masking Challenge)的比賽項(xiàng)目,吸引了許多計(jì)算機(jī)視覺等相關(guān)領(lǐng)域的研究者參與。

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

輸入圖像(左)和理想的輸出圖像(右)

Carvana 希望為消費(fèi)者提供全面、透明的購車信息,以提升購買體驗(yàn)。傳統(tǒng)的二手車銷售平臺向消費(fèi)者提供的車輛展示圖片往往是模糊的,缺少標(biāo)準(zhǔn)規(guī)范的汽車信息圖片往往也不能全面地向消費(fèi)者展示全面的信息。這嚴(yán)重降低了二手車的銷售效率。為了解決這一問題,Carvana 設(shè)計(jì)了一套用以展示 16 張可旋轉(zhuǎn)的汽車圖片的系統(tǒng)。然而,反光以及車身顏色與背景過于相似等問題會(huì)引起一系列視覺錯(cuò)誤,使得 Carvana 不得不聘請專業(yè)的圖片編輯來修改汽車圖片。這無疑是一件費(fèi)時(shí)費(fèi)力的工作。因此,Carvana 希望此次比賽的參賽者設(shè)計(jì)出能夠自動(dòng)將圖片中的汽車從背景中抽離的算法,以便日后將汽車融合到新的背景中去。

此次比賽歷時(shí)約 2 個(gè)月,共吸引了來自 735 支參賽隊(duì)伍的 875 名選手。其中,來自 Lyft 公司的 Vladimir Iglovikov 和來自 MIT 的 Alexey Shvets 憑借名為 TernausNet 的工作拔得頭籌。獲獎(jiǎng)之后他們也撰寫了一篇論文介紹了自己的比賽思路和使用的模型,雷鋒網(wǎng) AI 科技評論把論文主要內(nèi)容介紹如下。

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

背景

近年來,用于密集計(jì)算的計(jì)算機(jī)硬件取得了進(jìn)步,并且隨著這些硬件越來越平民化,研究者們能夠處理擁有數(shù)以百萬計(jì)的參數(shù)的復(fù)雜模型。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種在圖像分類、目標(biāo)識別、場景分類等任務(wù)中被廣泛應(yīng)用的模型,取得了巨大的成功。不例外地,此次競賽獲得第一名的工作 TernausNet 也用到了基于 CNN 的神經(jīng)網(wǎng)絡(luò)組件。TernausNet 是一個(gè)可用于密集圖像分割的深度學(xué)習(xí)模型,能夠根據(jù)使用者的要求,對原始圖像進(jìn)行劃分,將原始圖像分成有不同意義的若干部分。避免傳統(tǒng)的手動(dòng)圖像分割的耗時(shí)耗力的麻煩,達(dá)到高效、高質(zhì)量、標(biāo)準(zhǔn)化的圖像分割要求。

TernausNet 使用利用 ImageNet 數(shù)據(jù)預(yù)訓(xùn)練得到的 VGG11 編碼器達(dá)到了提高 U-Net 網(wǎng)絡(luò)性能的目的,出色的完成圖像分割的任務(wù)。

網(wǎng)絡(luò)架構(gòu)

U-Net 是一種編碼器-解碼器結(jié)構(gòu),在網(wǎng)絡(luò)向前傳播的過程中,編碼器逐漸收縮,減少池化層的空間維度;而解碼器逐漸擴(kuò)張,逐步修復(fù)物體的細(xì)節(jié)和空間維度。編碼器和解碼器之間通常存在跳躍連接(skip connection),跳躍連接能夠?qū)⒌蛯哟蔚奶卣鲌D和高層次的特征圖結(jié)合起來,能幫助解碼器更好地修復(fù)目標(biāo)的細(xì)節(jié),實(shí)現(xiàn)像素級的定位。在上采樣部分,大量的特征通道能向更高分辨率的層傳送上下文信息。

U-Net 的編碼器是一個(gè)基于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的網(wǎng)絡(luò)結(jié)構(gòu),即將卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的全連接層替換為卷積層。FCN 可以接受任意尺寸的輸入圖像,采用反卷積層對最后一個(gè)卷積層的特征圖進(jìn)行上采樣, 使它恢復(fù)到輸入圖像相同的尺寸,從而可以對每個(gè)像素都產(chǎn)生了一個(gè)預(yù)測, 同時(shí)保留了原始輸入圖像中的空間信息, 最后在上采樣的特征圖上進(jìn)行逐像素分類。

具體而言,TernausNet 的模型結(jié)構(gòu)如圖 1 所示。編碼器是一個(gè)特征圖尺寸逐漸收縮、通道數(shù)逐漸增加的 FCN 網(wǎng)絡(luò)結(jié)構(gòu),卷積層和池化層交替工作,用來捕捉上下文的信息,逐步對特征圖進(jìn)行下采樣;解碼器是一個(gè)與編碼器對稱的結(jié)構(gòu),其特征圖尺寸逐漸擴(kuò)張,通道數(shù)逐漸減少,對特征圖進(jìn)行上采樣,逐步恢復(fù)高分辨率的圖片細(xì)節(jié)。根據(jù) U-Net 的思想,解碼器可以通過跳躍連接將對應(yīng)的編碼器的高分辨率特征和解碼器上采樣得到的特征圖結(jié)合起來,最終輸出一個(gè)逐像素的掩碼。

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

圖1. U-NET 編碼器-解碼器神經(jīng)網(wǎng)絡(luò)架構(gòu),編碼器為用單一卷積層替換全連接層的 VGG11 網(wǎng)絡(luò)。藍(lán)色的矩形代表經(jīng)過上一階段變換的多通道特征圖。矩形的高度與特征圖的尺寸成正比、寬度和通道數(shù)成正比。左側(cè)編碼器的通道數(shù)逐漸增加,右側(cè)解碼器的通道數(shù)逐漸減少。頂部連接左側(cè)和右側(cè)的箭頭表示從編碼層向相應(yīng)的解碼層的信息遷移。

TernausNet 采用 VGG11 作為 U-Net 網(wǎng)絡(luò)的編碼器。如圖 2 所示,VGG11 由 11 個(gè)向前傳播的網(wǎng)絡(luò)層組成。其中有 8 個(gè)卷積層,每個(gè)卷積層采用了 3*3 的卷積核,每個(gè)卷積層后都緊跟一個(gè) ReLU 激勵(lì)函數(shù)層,第 1、2、4、6、8 個(gè)卷積層后都緊跟一個(gè) 2*2 的最大池化操作,每次操作后特征圖尺寸減半。第一個(gè)卷積層通道數(shù)為 64,第二層通道數(shù)為 128,第三層第四層通道數(shù)為 256,第五層到第八層通道數(shù)為 512。為了達(dá)到語義分割的目的,編碼器采用了類似 FCN 的設(shè)計(jì)思路,將 VGG11 的最后 3 層替換為了一個(gè) 512 通道的卷積層,它同時(shí)也是編碼器與解碼器的「瓶頸」,將 U-Net 的左右兩個(gè)部分分開。

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

圖2. VGG11網(wǎng)絡(luò)架構(gòu)。圖中每個(gè)卷積層之后是ReLU激活函數(shù)。每個(gè)框中的數(shù)字表示對應(yīng)特征圖的通道數(shù)量

為了構(gòu)建解碼器,TernausNet 用兩倍于特征圖大小的轉(zhuǎn)置卷積層同時(shí)將通道數(shù)減半。轉(zhuǎn)置卷積的輸出接著被連接到相應(yīng)的編碼器輸出。得到的特征圖通過卷積運(yùn)算處理,保持通道數(shù)量與對應(yīng)的編碼器相同。上采樣步驟重復(fù)了 5 次用來與 5 個(gè)最大池化層配對。如圖 1 所示,由于 TernausNet 有 5 個(gè)最大池化層,每層下采樣圖像兩次,因此,只有邊可以被 32,即 2 的 5 次方,整除的圖像可以用作此模型的輸入。

通常 U-Net 的權(quán)重是隨機(jī)初始化的。而 TernausNet 相對于傳統(tǒng)的 U-Net 網(wǎng)絡(luò)最大的改進(jìn)在于:TernausNet 先用 ImageNet 預(yù)訓(xùn)練的權(quán)重初始化了 U-Net 的前幾層,并應(yīng)用了微調(diào)(fine tuning)。事實(shí)上,對于圖像分割任務(wù)而言,手動(dòng)標(biāo)注的圖像分割數(shù)據(jù)集往往至多也只有幾千張圖像,這樣的數(shù)據(jù)規(guī)模相對于 ImageNet 等包含數(shù)百萬張圖像的數(shù)據(jù)集來說是很小的。為了避免過擬合問題,數(shù)據(jù)集合應(yīng)該要足夠大,然而這會(huì)帶來很高的時(shí)間開銷。為了減小時(shí)間開銷并防止過擬合,TernausNet 使用了 ImageNet 數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)權(quán)重作為預(yù)訓(xùn)練的參數(shù)。

模型訓(xùn)練及實(shí)驗(yàn)結(jié)果

作者在 Inria 航空圖像標(biāo)注數(shù)據(jù)集上測試了 TernausNet 的性能。作者采用了 Jaccard 相似系數(shù)作為評價(jià)模型的標(biāo)準(zhǔn)。Jaccar 相似系數(shù)是兩個(gè)有限集合之間的相似度度量。給定兩個(gè)集合 A 和 B,Jaccard 相似系數(shù)定義為 A 與 B 交集的大小與 A 與 B 并集的大小的比值,定義如下:

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

在圖像分割任務(wù)中,由于圖像由像素點(diǎn)組成,在離散問題中,我們可以將jaccard相似系數(shù)改寫為:

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

其中,Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀是像素點(diǎn)i的二值類別屬性,Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀是通過模型預(yù)測得出的像素點(diǎn)的概率。

此時(shí),可以將圖像分割問題看作一個(gè)像素的二分類問題,其交叉熵?fù)p失函數(shù)可以表示為:

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

換句話說,整個(gè) TernausNet 的損失函數(shù)可以表示為:

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

在測試集上得到的實(shí)驗(yàn)結(jié)果如圖3所示:

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

圖3. 三種不同權(quán)重初始化條件下的 U-Net 模型的 Jaccard 相似系數(shù)隨著訓(xùn)練次數(shù)的變化情況。藍(lán)線表示隨機(jī)初始化權(quán)重的模型,橙色的線表示編碼器用 ImageNet 上預(yù)訓(xùn)練的 VGG11 網(wǎng)絡(luò)權(quán)重初始化的模型,綠線表示網(wǎng)絡(luò)在 Carvana 數(shù)據(jù)集上預(yù)訓(xùn)練的模型。

TernausNet 在 Inria 航拍圖片數(shù)據(jù)集上的圖像分割效果如圖 4 所示:

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

圖4. 綠色像素的二進(jìn)制掩模表示分類簇(建筑物)。圖 A 表示初始圖像和疊加的真實(shí)掩模。圖 B 到圖 D 表示通過不同的方式初始化并且訓(xùn)練 100 次之后得到的預(yù)測結(jié)果。圖 B 中的網(wǎng)絡(luò)具有隨機(jī)的初始化權(quán)重。圖 C 中的模型解碼器的權(quán)重是隨機(jī)初始化的,編碼器的權(quán)重以是在 ImageNet 上預(yù)訓(xùn)練的 VGG11 的網(wǎng)絡(luò)權(quán)重進(jìn)行初始化。圖 D 的模型使用在 Carvana 數(shù)據(jù)集上預(yù)訓(xùn)練得到的權(quán)重。

TernausNet 的作者認(rèn)為,未來可以考慮更多先進(jìn)的預(yù)訓(xùn)練編碼器,例如:VGG16或者ResNet,用來構(gòu)造編碼器-解碼器模型。

原論文地址:https://arxiv.org/pdf/1801.05746.pdf ,雷鋒網(wǎng) AI 科技評論編譯

相關(guān)文章:

Kaggle比賽冠軍經(jīng)驗(yàn)分享:如何用 RNN 預(yù)測維基百科網(wǎng)絡(luò)流量

Kaggle16000份問卷揭示數(shù)據(jù)科學(xué)家平均畫像:30歲,碩士學(xué)位,年薪36萬

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Kaggle Carvana 圖像分割比賽冠軍模型 TernausNet 解讀

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說