丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給AI科技評論
發(fā)送

0

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊提出自適配歸一化取得突破

本文作者: AI科技評論 2018-07-12 10:03
導(dǎo)語:港中文最新論文研究表明目前的深度神經(jīng)網(wǎng)絡(luò)即使在人工標(biāo)注的標(biāo)準(zhǔn)數(shù)據(jù)庫中訓(xùn)練(例如 ImageNet),性能也會出現(xiàn)劇烈波動。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊提出自適配歸一化取得突破

雷鋒網(wǎng) AI 科技評論:港中文最新論文研究表明目前的深度神經(jīng)網(wǎng)絡(luò)即使在人工標(biāo)注的標(biāo)準(zhǔn)數(shù)據(jù)庫中訓(xùn)練(例如 ImageNet),性能也會出現(xiàn)劇烈波動。這種情況在使用少批量數(shù)據(jù)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)時更為嚴(yán)重。研究發(fā)現(xiàn)這是由于 BN(Batch Normalization)導(dǎo)致的。BN 是 Google 在 2015 年提出的歸一化方法。至今已有 5000+次引用,在學(xué)術(shù)界和工業(yè)界均被廣泛使用。港中文團(tuán)隊提出的 SN(Switchable Normalization)解決了 BN 的不足。SN 在 ImageNet 大規(guī)模圖像識別數(shù)據(jù)集和 Microsoft COCO 大規(guī)模物體檢測數(shù)據(jù)集的準(zhǔn)確率,還超過了最近由 Facebook 何愷明等人提出的組歸一化 GN(Group Normalization)。原論文請參考 arXiv:1806.10779 和代碼 Github

背景解讀:

*ImageNet 是大規(guī)模圖像識別數(shù)據(jù)庫。由斯坦福大學(xué)李飛飛教授在 2009 年建立。在 ImageNet 中識別率的競賽,被稱為計算機(jī)視覺的奧林匹克競賽。

*Microsoft COCO 是目前使用最廣泛的物體檢測與分割數(shù)據(jù)集。每年舉辦的 COCO Challenge 吸引了大量國內(nèi)外著名企業(yè)與實驗室參與,包括 Google,F(xiàn)acebook,Berkely 等等。

*BN(批歸一化)是由 Google 在 2015 年提出的一種歸一化方法。至今已經(jīng)被引用了 5000 余次,在學(xué)術(shù)界與工業(yè)界廣泛使用。幾乎所有主流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)都使用了BN,例如微軟亞洲研究院提出的殘差神經(jīng)網(wǎng)絡(luò)(ResNet,CVPR 2016 best paper)和由康奈爾大學(xué)提出的 DenseNet(CVPR 2017 best paper)。

*SN 是港中文團(tuán)隊最新提出的歸一化方法。其在 ImageNet 的識別率超越了其它歸一化方法。使用 SN 訓(xùn)練的 ResNet50 達(dá)到了 77.5% 的 top-1 識別率。這是目前在 ResNet50 模型上匯報的最高結(jié)果,超過了主流深度學(xué)習(xí)平臺所提供的模型,例如 TensorFlow、PyTorch、Caffe 等。值得注意的是,這個結(jié)果甚至超過了 101 層的殘差神經(jīng)網(wǎng)絡(luò)模型。該模型已經(jīng)開源并提供下載。

我們先從一張圖來看批歸一化 BN 遇到的瓶頸。下圖縱軸表示一個 ResNet 神經(jīng)網(wǎng)絡(luò)模型在 ImageNet 中的圖像識別準(zhǔn)確率(越高越好),橫軸表示訓(xùn)練時更新網(wǎng)絡(luò)的樣本數(shù)量從大到小排列。藍(lán)色線、紅色線、和綠色線分別表示使用 Google 的 BN,F(xiàn)acebook 的 GN 和港中文提出的 SN 訓(xùn)練模型的準(zhǔn)確率。可以看出,當(dāng)用于更新網(wǎng)絡(luò)的樣本數(shù)量(又稱「批量」)減小時,BN 模型的識別率急劇下降。例如批量等于 16 時,BN 模型相比 SN 模型識別率下降了 11%。當(dāng)批量等于 8 時,BN 模型的圖像識別率跌至 50% 以下。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊提出自適配歸一化取得突破


BN 導(dǎo)致性能下降?

BN(批歸一化)是一種歸一化方法。歸一化一般指把數(shù)據(jù)的分布變成一個均值為 0 和方差為 1 的分布。要達(dá)到此目的,BN 在進(jìn)行歸一化操作時需要估計訓(xùn)練數(shù)據(jù)的均值和方差。由于訓(xùn)練數(shù)據(jù)量很大(ImageNet 有上百萬數(shù)據(jù)),估計這些統(tǒng)計量需要大量的運算。因此,這兩個統(tǒng)計量一般是利用一小批數(shù)據(jù)來估計的。然而,當(dāng)批量較小時,例如上圖的 32,這些統(tǒng)計量估計不準(zhǔn)確,導(dǎo)致識別率開始明顯下降。正如需要估計全校的平均分,只統(tǒng)計一個班級是不準(zhǔn)確的。因此,BN 會導(dǎo)致性能損失。

既然 BN 在小批量當(dāng)中效果變差,我們能否避免使用小批量進(jìn)行訓(xùn)練呢?

為什么需要小批量學(xué)習(xí)?

原因有兩點。首先,在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,往往需要更新數(shù)億級別的參數(shù),而在很多實際應(yīng)用中需要訓(xùn)練的圖片大小又很大(例如 1000x1000 以上),使得能夠放到 GPU 中的圖片數(shù)量很少(通常小于 2)。這種情況經(jīng)常出現(xiàn)在物體檢測、場景分割、和視頻識別等任務(wù)當(dāng)中,它們在自動駕駛和視頻監(jiān)控中有廣泛應(yīng)用。然而,如前面的圖所示,網(wǎng)絡(luò)訓(xùn)練時的樣本數(shù)量減少(小批量),使訓(xùn)練變得困難??傮w來說,批量越小,訓(xùn)練過程越不穩(wěn)定。Facebook 提出的組歸一化(GN)正是為了解決上述問題。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊提出自適配歸一化取得突破

圖為物體檢測與分割示例

其次,深度神經(jīng)網(wǎng)絡(luò)一般使用大量 GPUs 進(jìn)行訓(xùn)練。訓(xùn)練方法可以分為兩大類:同步訓(xùn)練與異步訓(xùn)練。同步訓(xùn)練代表網(wǎng)絡(luò)參數(shù)的更新需要在多個 GPU 當(dāng)中同步;異步訓(xùn)練是一種去中心化的方法。它比同步訓(xùn)練的好處在于,網(wǎng)絡(luò)參數(shù)的更新可以在每個 GPU 當(dāng)中單獨進(jìn)行,不需要同步。然而,由于網(wǎng)絡(luò)占用大量內(nèi)存,單獨一塊 GPU 只能放下少量訓(xùn)練樣本,妨礙了參數(shù)在一塊 GPU 中更新,使得異步訓(xùn)練無法進(jìn)行。

從上述原因得知,一種對批量不敏感的技術(shù)是非常必要的。

港中文的解決方案

為了解決上述問題,港中文團(tuán)隊提出了自適配歸一化 SN(Switchable Norm)。它統(tǒng)一了現(xiàn)有的歸一化方法,例如批歸一化 BN,實例歸一化 IN(Instance Norm 在 16 年提出并在 arXiv:1607.08022 公開),層歸一化 LN(Layer Norm 由 Geoffrey Hinton 等在 16 年提出在 arXiv:1607.06450 公開),和組歸一化 GN 等。SN 允許為神經(jīng)網(wǎng)絡(luò)中不同的歸一化層自動學(xué)習(xí)不同的歸一化操作。與強化學(xué)習(xí)不同,SN 使用可微分學(xué)習(xí),使得選擇歸一化操作能夠和優(yōu)化網(wǎng)絡(luò)參數(shù)同時進(jìn)行,保證優(yōu)化效率的同時還保持高性能。下圖為自適配歸一化的直觀解釋。它通過學(xué)習(xí)不同的歸一化方法的權(quán)重系數(shù)來選擇不同的操作。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊提出自適配歸一化取得突破

如何解決 BN 的問題

下圖左邊表示一個神經(jīng)網(wǎng)絡(luò)的子網(wǎng)絡(luò),而一個完整的神經(jīng)網(wǎng)絡(luò)往往由多達(dá)幾十個子網(wǎng)絡(luò)構(gòu)成。前面提到的 ResNet 和 DenseNet 也可以歸為這種結(jié)構(gòu)。在一個子網(wǎng)絡(luò)里,可以有多個 BN 層。換句話說,一個神經(jīng)網(wǎng)絡(luò)可以有上百個 BN 層。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊提出自適配歸一化取得突破

我們稱一個 BN 所在的層為一個歸一化層。那么為什么在主流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,所有的歸一化層都只采用 BN 呢?

目前幾乎所有的神經(jīng)網(wǎng)絡(luò)的全部歸一化層都使用同樣的歸一化操作。這是因為手工為每一個歸一化層指定操作需要進(jìn)行大量的實驗驗證,耗時耗力。

由于這個問題,使得深度學(xué)習(xí)系統(tǒng)達(dá)不到最優(yōu)性能。直觀地說,港中文團(tuán)隊相信歸一化操作應(yīng)該可以通過學(xué)習(xí)得到;不同的歸一化層應(yīng)該允許自由的使用不同的歸一化操作。如上圖右邊所示,子網(wǎng)絡(luò)中的所有歸一化層會使用 SN。它能夠為每一個歸一化層學(xué)習(xí)歸一化策略,可能是 BN,IN,LN,GN 或者它們的組合。

SN 學(xué)習(xí)不同歸一化策略的組合,避免了 BN 對小批量特別敏感的問題。

如最前面的圖所示,當(dāng)批量逐漸減小時,SN 的識別率保持最優(yōu)。

SN 與 GN 的比較

組歸一化 GN 是由 Facebook 何愷明等最新提出的歸一化方法。該方法為了解決批歸一化 BN 在小批量優(yōu)化時性能下降明顯的問題。直觀地說,批量越小,訓(xùn)練越不穩(wěn)定,訓(xùn)練得到的模型識別率越低。何愷明團(tuán)隊通過大量的實驗驗證了 GN 的有效性:例如在 ImageNet 當(dāng)中,GN 在小批量條件下獲得的識別率遠(yuǎn)遠(yuǎn)高于 BN 的識別率。但是,在正常批量條件下,GN 的識別率并不如 BN。

如前面所說,SN 是為了解決在神經(jīng)網(wǎng)絡(luò)不同的歸一化層中自動學(xué)習(xí)歸一化操作而提出的。港中文團(tuán)隊發(fā)現(xiàn),SN 與 GN 一樣能夠在小批量條件下獲得高識別率。并且,SN 在正常批量條件下超過 GN,甚至還超過了 BN。例如,在批量為 256 的情況下,用 SN 來訓(xùn)練的 ResNet50 在 ImageNet 的精度可以達(dá)到 77.5% 以上,而用 GN 和 BN 來訓(xùn)練的網(wǎng)絡(luò)的精度分別為 75.9% 和 76.4%。

結(jié)果

港中文團(tuán)隊驗證了自適配歸一化 SN 在多個視覺任務(wù)中的性能,包括圖像識別、物體檢測、物體分割、視頻理解、圖像風(fēng)格化和循環(huán)神經(jīng)網(wǎng)絡(luò)如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索。下面以物體檢測為例,比較 SN,BN 和 GN 在 Microsoft COCO 物體檢測數(shù)據(jù)集中的檢測結(jié)果。

與圖像分類不同,對于物體檢測和分割任務(wù),每個 GPU 中圖片的數(shù)量通常只有 1 到 2 張。在這種情況下,BN 的效果會明顯下降。而 SN 能夠有效拓展到不同的檢測模型,以及不同的深度學(xué)習(xí)平臺上。下表展示了 SN 在 Mask R-CNN 和 Faster R-CNN 上的結(jié)果,可以看到 SN 在各項精度指標(biāo)下保持了領(lǐng)先。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊提出自適配歸一化取得突破

原論文同時展示了 SN 在圖像風(fēng)格化,以及網(wǎng)絡(luò)結(jié)構(gòu)搜索上的效果,詳情可見論文。

相關(guān)文獻(xiàn):

1. BN: S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015

2. GN: Y. Wu and K. He. Group normalization. arXiv:1803.08494, 2018

3. SN:Ping Luo, Jiamin Ren, Zhanglin Peng,Differentiable Learning-to-Normalize via Switchable Normalization,arXiv:1806.10779,2018

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊提出自適配歸一化取得突破

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說