丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

Computer Vision 雜志對何愷明 Rethinking ImageNet Pre-training 的最新評論

本文作者: MrBear 編輯:汪思穎 2019-02-02 23:07
導(dǎo)語:愷明大帝出品,必屬精品!預(yù)訓(xùn)練+調(diào)優(yōu)的訓(xùn)練范式將被終結(jié)?

雷鋒網(wǎng) AI 科技評論按,2018 年 11 月,何愷明在 arxiv 上提交論文 「Rethinking ImageNet Pre-training」,這篇論文由他與 Ross Girshick,Piotr Dollar 合作,系統(tǒng)地對預(yù)訓(xùn)練模型是不是必須的問題進行了研究,在坊間引起諸多討論。兩個多月過去,Computer Vision News 也對這篇文章開始了一輪 review,全面且系統(tǒng)地介紹了這篇 paper 中的研究方法、創(chuàng)新點、實驗結(jié)果等諸多關(guān)鍵點,雷鋒網(wǎng) AI 科技評論將這篇 review 整理如下,以饗讀者。

「Rethinking ImageNet Pre-training」這篇驚艷的論文向我們展示了:使用從隨機初始化的狀態(tài)開始訓(xùn)練的標準模型在 COCO 數(shù)據(jù)集上也可以在目標檢測和實例分割任務(wù)中取得十分出色的結(jié)果,其結(jié)果可以與使用 ImageNet 預(yù)訓(xùn)練的模型所得到的結(jié)果相媲美。研究人員驚奇地發(fā)現(xiàn),使用隨機初始化的模型具有很強的魯棒性。在以下三種情況下,模型的結(jié)果仍然能保持在比較高的水平上:(1)即使僅僅使用 10% 的訓(xùn)練數(shù)據(jù),(2)使用更深和更寬的模型,(3)處理多任務(wù)并使用多種評價指標。

實驗表明,使用 ImageNet 預(yù)訓(xùn)練可以在訓(xùn)練早期加速收斂,但不一定能起到正則化的作用或提高模型在最終的目標任務(wù)上的準確率。

引言

從 RCNN 驚天出世開始,在早期的將深度學習應(yīng)用于目標檢測的任務(wù)中,使用在 ImageNet 數(shù)據(jù)集上為圖像分類預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),然后再在數(shù)據(jù)集上進行調(diào)優(yōu),這取得了許多突破。受到這些結(jié)果的啟發(fā),目前大多數(shù)用于目標檢測的神經(jīng)網(wǎng)絡(luò)和許多其它的計算機視覺算法都遵循「先使用預(yù)訓(xùn)練初始化,再進行調(diào)優(yōu)」的訓(xùn)練范式。學界最近發(fā)表的一些論文在大小相當于 6-3000 倍 ImageNet 的數(shù)據(jù)集(JTF 為 6 倍,ImageNet-5k 為 300 倍,Instagram 為 3000 倍)上進行了預(yù)訓(xùn)練,從而又進一步推廣了這樣的訓(xùn)練范式。盡管這種范式在圖像分類訓(xùn)練中展現(xiàn)出了相當大的性能提升,但它在目標檢測任務(wù)中卻收效甚微(提升大約能達到 1.5%)。而相對于預(yù)訓(xùn)練的數(shù)據(jù)集,目標檢測任務(wù)的數(shù)據(jù)集越大,這種提升就越小。

研究方法和創(chuàng)新點

在本文中,作者說明了:

1. 盡管使用 ImageNet 進行預(yù)訓(xùn)練可以加速模型訓(xùn)練收斂速度,在給定充足的訓(xùn)練時間的情況下,從頭開始訓(xùn)練的模型也可以得到與前者相當?shù)臏蚀_率。請注意,在從頭開始訓(xùn)練的過程中,網(wǎng)絡(luò)必然會學到在預(yù)訓(xùn)練過程中通常會學到的低級和中級特征(如邊緣、紋理等特征)。

2. 當我們認為預(yù)訓(xùn)練的訓(xùn)練范式更加高效時,我們往往并沒有考慮到預(yù)訓(xùn)練所需要的時間。

3. 本文作者說明了:如果我們謹慎地選取超參數(shù)從而克服過擬合,那么,從隨機初始化的狀態(tài)開始在僅僅 10% 的 COCO 數(shù)據(jù)集上進行訓(xùn)練可以得到與使用預(yù)訓(xùn)練參數(shù)進行初始化的訓(xùn)練過程旗鼓相當?shù)慕Y(jié)果。在使用與預(yù)訓(xùn)練的網(wǎng)絡(luò)相同的超參數(shù)設(shè)置的情況下,即使在僅僅 10% 的數(shù)據(jù)集上進行訓(xùn)練,隨機初始化的訓(xùn)練也能得到幾乎相同的結(jié)果。

4. 當目標任務(wù)/評價指標對于局部的空間信息更敏感時,在 ImageNet 上進行預(yù)訓(xùn)練幾乎沒有作用。

對于目前最先進的工作來說,本文得到的結(jié)果是十分令人驚訝的,它們會對「使用 ImageNet 進行預(yù)訓(xùn)練的訓(xùn)練范式究竟有多大影響」提出挑戰(zhàn)。使用 ImageNet 預(yù)訓(xùn)練的范式在目前以及在未來的一段時間內(nèi)將仍然繼續(xù)成為從業(yè)人員的首選方案,特別是在以下兩種情況下 :(1)當開發(fā)者擁有的用于在其目標任務(wù)中從頭開始訓(xùn)練的數(shù)據(jù)和計算資源不足時;(2)得益于前人所做的標注工作、以及使用 ImageNet 預(yù)訓(xùn)練過的模型較為容易獲得,ImageNet 預(yù)訓(xùn)練被廣泛認為是一種「免費開放」的資源。

模型實現(xiàn)

接下來,讓我們研究一下本文的工作所使用的網(wǎng)絡(luò)框架、學習率、優(yōu)化和歸一化方法以及超參數(shù)設(shè)置:

網(wǎng)絡(luò)架構(gòu):

本文研究了使用 ResNet 的 Mask R-CNN、ResNeXt+ 特征金字塔網(wǎng)絡(luò)(FPN)主干架構(gòu)。

歸一化方法:

那些人們通常在訓(xùn)練標準的預(yù)訓(xùn)練網(wǎng)絡(luò)時所使用的歸一化方法往往并不太適用于檢測和分割任務(wù)的訓(xùn)練,因為這些歸一化方法需要載入大量的訓(xùn)練數(shù)據(jù)(分辨率非常高的圖像,并且為每個像素都打上了標簽)。這將導(dǎo)致我們在每一批中只能處理數(shù)量非常有限的圖像(因為顯存有限),從而使正則化非常困難。而我們通過調(diào)優(yōu)范式網(wǎng)絡(luò)可以避免這種困難,它能利用預(yù)訓(xùn)練時學到的歸一化參數(shù)。

在從隨機初始化狀態(tài)開始訓(xùn)練的檢測和分割任務(wù)中,作者采用了以下兩種歸一化方法:

1.群組歸一化(GN):執(zhí)行獨立于批維度的計算,其準確率對批大小不敏感 。

2.同步批量歸一化(SyncBN):是批量歸一化的一種實現(xiàn)方式,它通過使用多個 GPU 運算提升了批量歸一化(BN)時有效批處理的規(guī)模。

注:群組歸一化(GN)也是本文作者何愷明于 2018 年發(fā)表的一份工作(https://arxiv.org/abs/1803.08494)。

學習率:

學習率的更新策略是,學習率更新策略是在最后 60k 迭代中將學習率降低 10 倍。在最后的 20k 次迭代中再降低 10 倍。作者指出,沒有必要在訓(xùn)練結(jié)束前更早地降低學習率,也沒有必要長時間以較低的學習率進行訓(xùn)練,這只會導(dǎo)致過擬合。

超參數(shù):

所有其它(學習率之外的)超參數(shù)都遵循 Detectron 中的超參數(shù)。具體而言,初始學習率是 0.02(使用線性的熱啟動操作,https://arxiv.org/abs/1706.02677)。權(quán)重衰減為 0.0001,動量衰減為 0.9。所有的模型都在 8 個 GPU 上使用同步的隨機梯度下降進行訓(xùn)練,每個 GPU 的 Mini-batch 的規(guī)模為 2 張圖像。根據(jù) Detectron 的默認設(shè)置,Mask R-CNN 在測試不使用數(shù)據(jù)增強技術(shù),僅僅訓(xùn)練中使用水平翻轉(zhuǎn)增強。在較短的邊上,圖像的尺寸是 800 個像素點。

實驗結(jié)果

實際上,從下圖中可以看出,在給定充足的數(shù)據(jù)的情況下,任何網(wǎng)絡(luò)都可以被訓(xùn)練到較好的狀態(tài)。亮藍色的橫條代表用于 ImageNet 預(yù)訓(xùn)練的數(shù)據(jù)量,深藍色的橫條代表調(diào)優(yōu)所使用的數(shù)據(jù)量,紫色的橫條代表從頭開始訓(xùn)練所使用的數(shù)據(jù)量。最上方的一欄橫條代表的是用于訓(xùn)練的訓(xùn)練過的圖像數(shù)量;中間一欄代表物體的數(shù)量(每個圖像中可能包含不止一個物體);最下面的紫色橫條代表所處理的所有像素點的數(shù)量(不同的數(shù)據(jù)集中的圖像規(guī)模差別很大),我們可以將其換算為數(shù)據(jù)的體量。讀者可以從最下方的一欄中的紫色橫條中看出,整體而言,網(wǎng)絡(luò)處理的經(jīng)過了預(yù)訓(xùn)練再進行調(diào)優(yōu)的數(shù)據(jù)量和從頭開始訓(xùn)練(隨機初始化)處理的數(shù)據(jù)量是相當?shù)摹?nbsp;

 

Computer Vision 雜志對何愷明 Rethinking ImageNet Pre-training 的最新評論

如下圖所示,在驗證集上的邊界框平均精度 bbox AP 曲線被并排排列了出來,圖中顯示了以 ResNet-101(R101)為主干架構(gòu),以及使用 ResNet-50(R50)作為主干架構(gòu)的實驗結(jié)果。每一組曲線都對比了從隨機初始化開始訓(xùn)練的模型與先在 ImageNet 上進行預(yù)訓(xùn)練再進行調(diào)優(yōu)的模型的性能。 

 

Computer Vision 雜志對何愷明 Rethinking ImageNet Pre-training 的最新評論

下圖則將對比使用 Mask R-CNN 對不同系統(tǒng)從隨機初始化開始訓(xùn)練與先進行預(yù)訓(xùn)練再調(diào)優(yōu)的方法的比較,具體包括:(1)使用 FPN 和 GN 的對比基線,(2)使用訓(xùn)練時多尺度增強的對比基線,(3)使用級聯(lián) RCNN 和訓(xùn)練時增強的對比基線,(4)加上測試時多尺度增強的對比基線。左圖:R50;右圖:R101。

 

Computer Vision 雜志對何愷明 Rethinking ImageNet Pre-training 的最新評論

作者重復(fù)使用不同的方法、不同的配置和不同的架構(gòu)進行訓(xùn)練,并且將從隨機初始化狀態(tài)開始訓(xùn)練的網(wǎng)絡(luò)的性能與先預(yù)訓(xùn)練再進行調(diào)優(yōu)的網(wǎng)絡(luò)性能進行比較,說明了無論是從頭開始還是使用預(yù)訓(xùn)練的網(wǎng)絡(luò),整體而言,所需要的數(shù)據(jù)都是等價的,這不可能僅僅是偶然。實驗所使用的方法也是相同的。

  

Computer Vision 雜志對何愷明 Rethinking ImageNet Pre-training 的最新評論

作者進行的另一項實驗旨在研究訓(xùn)練預(yù)訓(xùn)練的網(wǎng)絡(luò)去找到最優(yōu)的超參數(shù)設(shè)置。作者使用了通過訓(xùn)練預(yù)訓(xùn)練網(wǎng)絡(luò)發(fā)現(xiàn)的超參數(shù)設(shè)置去訓(xùn)練他們從頭開始訓(xùn)練的隨機初始化的網(wǎng)絡(luò)。實驗結(jié)果表明,他們僅僅使用了三分之一的數(shù)據(jù)就獲得了同等水平的模型性能。下圖顯示了訓(xùn)練的準確率(紫色的線表示隨機初始化的訓(xùn)練情況,灰色的線表示先進行預(yù)訓(xùn)練再進行調(diào)優(yōu)的訓(xùn)練情況)。

 

Computer Vision 雜志對何愷明 Rethinking ImageNet Pre-training 的最新評論

訓(xùn)練用于 COCO 人體關(guān)鍵點檢測任務(wù)的 Mask RCNN 模型:對于人體關(guān)鍵點檢測任務(wù),隨機初始化的網(wǎng)絡(luò)可以比先進行預(yù)訓(xùn)練再調(diào)優(yōu)的網(wǎng)絡(luò)快得多地學習,不需要使用額外的訓(xùn)練時間。關(guān)鍵點監(jiān)測是對于局部空間信息預(yù)測非常敏感的任務(wù)。這說明,對于局部空間信息預(yù)測來說,ImageNet 預(yù)訓(xùn)練的作用非常有限,對于這樣的任務(wù),從頭開始訓(xùn)練模型的效果和使用預(yù)訓(xùn)練再調(diào)優(yōu)的效果幾乎是一樣的。

Computer Vision 雜志對何愷明 Rethinking ImageNet Pre-training 的最新評論

本文的觀點的總結(jié)

  • 在目標任務(wù)中幾乎不對架構(gòu)進行修改,從頭開始訓(xùn)練網(wǎng)絡(luò)(使用隨機初始化)是可行的。

  • 從頭開始訓(xùn)練往往需要經(jīng)過更多的迭代才能收斂,而預(yù)訓(xùn)練的網(wǎng)絡(luò)收斂得更快。

  • 在許多不同的設(shè)置和情況下,從頭開始訓(xùn)練的網(wǎng)絡(luò)可以獲得與先預(yù)訓(xùn)練再調(diào)優(yōu)的網(wǎng)絡(luò)相媲美的性能,甚至包括僅僅在一萬張 COCO 圖像上進行訓(xùn)練的情況。

  • 除了訓(xùn)練數(shù)據(jù)集極其小的情況,在 ImageNet 上進行預(yù)訓(xùn)練并不一定能夠幫助緩解過擬合現(xiàn)象。

  • 相對于物體的類別信息,如果目標任務(wù)與物體位置信息更加相關(guān),那么在 ImageNet 上進行預(yù)訓(xùn)練將收效甚微。

 via:https://www.rsipvision.com/ComputerVisionNews-2019January/4/

雷鋒網(wǎng) AI 科技評論編譯整理。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Computer Vision 雜志對何愷明 Rethinking ImageNet Pre-training 的最新評論

分享:
相關(guān)文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說