丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI科技評(píng)論
發(fā)送

0

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊(duì)提出自適配歸一化取得突破

本文作者: AI科技評(píng)論 2018-07-12 10:03
導(dǎo)語:港中文最新論文研究表明目前的深度神經(jīng)網(wǎng)絡(luò)即使在人工標(biāo)注的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中訓(xùn)練(例如 ImageNet),性能也會(huì)出現(xiàn)劇烈波動(dòng)。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊(duì)提出自適配歸一化取得突破

雷鋒網(wǎng) AI 科技評(píng)論:港中文最新論文研究表明目前的深度神經(jīng)網(wǎng)絡(luò)即使在人工標(biāo)注的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中訓(xùn)練(例如 ImageNet),性能也會(huì)出現(xiàn)劇烈波動(dòng)。這種情況在使用少批量數(shù)據(jù)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)時(shí)更為嚴(yán)重。研究發(fā)現(xiàn)這是由于 BN(Batch Normalization)導(dǎo)致的。BN 是 Google 在 2015 年提出的歸一化方法。至今已有 5000+次引用,在學(xué)術(shù)界和工業(yè)界均被廣泛使用。港中文團(tuán)隊(duì)提出的 SN(Switchable Normalization)解決了 BN 的不足。SN 在 ImageNet 大規(guī)模圖像識(shí)別數(shù)據(jù)集和 Microsoft COCO 大規(guī)模物體檢測(cè)數(shù)據(jù)集的準(zhǔn)確率,還超過了最近由 Facebook 何愷明等人提出的組歸一化 GN(Group Normalization)。原論文請(qǐng)參考 arXiv:1806.10779 和代碼 Github。

背景解讀:

*ImageNet 是大規(guī)模圖像識(shí)別數(shù)據(jù)庫(kù)。由斯坦福大學(xué)李飛飛教授在 2009 年建立。在 ImageNet 中識(shí)別率的競(jìng)賽,被稱為計(jì)算機(jī)視覺的奧林匹克競(jìng)賽。

*Microsoft COCO 是目前使用最廣泛的物體檢測(cè)與分割數(shù)據(jù)集。每年舉辦的 COCO Challenge 吸引了大量國(guó)內(nèi)外著名企業(yè)與實(shí)驗(yàn)室參與,包括 Google,F(xiàn)acebook,Berkely 等等。

*BN(批歸一化)是由 Google 在 2015 年提出的一種歸一化方法。至今已經(jīng)被引用了 5000 余次,在學(xué)術(shù)界與工業(yè)界廣泛使用。幾乎所有主流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)都使用了BN,例如微軟亞洲研究院提出的殘差神經(jīng)網(wǎng)絡(luò)(ResNet,CVPR 2016 best paper)和由康奈爾大學(xué)提出的 DenseNet(CVPR 2017 best paper)。

*SN 是港中文團(tuán)隊(duì)最新提出的歸一化方法。其在 ImageNet 的識(shí)別率超越了其它歸一化方法。使用 SN 訓(xùn)練的 ResNet50 達(dá)到了 77.5% 的 top-1 識(shí)別率。這是目前在 ResNet50 模型上匯報(bào)的最高結(jié)果,超過了主流深度學(xué)習(xí)平臺(tái)所提供的模型,例如 TensorFlow、PyTorch、Caffe 等。值得注意的是,這個(gè)結(jié)果甚至超過了 101 層的殘差神經(jīng)網(wǎng)絡(luò)模型。該模型已經(jīng)開源并提供下載。

我們先從一張圖來看批歸一化 BN 遇到的瓶頸。下圖縱軸表示一個(gè) ResNet 神經(jīng)網(wǎng)絡(luò)模型在 ImageNet 中的圖像識(shí)別準(zhǔn)確率(越高越好),橫軸表示訓(xùn)練時(shí)更新網(wǎng)絡(luò)的樣本數(shù)量從大到小排列。藍(lán)色線、紅色線、和綠色線分別表示使用 Google 的 BN,F(xiàn)acebook 的 GN 和港中文提出的 SN 訓(xùn)練模型的準(zhǔn)確率。可以看出,當(dāng)用于更新網(wǎng)絡(luò)的樣本數(shù)量(又稱「批量」)減小時(shí),BN 模型的識(shí)別率急劇下降。例如批量等于 16 時(shí),BN 模型相比 SN 模型識(shí)別率下降了 11%。當(dāng)批量等于 8 時(shí),BN 模型的圖像識(shí)別率跌至 50% 以下。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊(duì)提出自適配歸一化取得突破


BN 導(dǎo)致性能下降?

BN(批歸一化)是一種歸一化方法。歸一化一般指把數(shù)據(jù)的分布變成一個(gè)均值為 0 和方差為 1 的分布。要達(dá)到此目的,BN 在進(jìn)行歸一化操作時(shí)需要估計(jì)訓(xùn)練數(shù)據(jù)的均值和方差。由于訓(xùn)練數(shù)據(jù)量很大(ImageNet 有上百萬數(shù)據(jù)),估計(jì)這些統(tǒng)計(jì)量需要大量的運(yùn)算。因此,這兩個(gè)統(tǒng)計(jì)量一般是利用一小批數(shù)據(jù)來估計(jì)的。然而,當(dāng)批量較小時(shí),例如上圖的 32,這些統(tǒng)計(jì)量估計(jì)不準(zhǔn)確,導(dǎo)致識(shí)別率開始明顯下降。正如需要估計(jì)全校的平均分,只統(tǒng)計(jì)一個(gè)班級(jí)是不準(zhǔn)確的。因此,BN 會(huì)導(dǎo)致性能損失。

既然 BN 在小批量當(dāng)中效果變差,我們能否避免使用小批量進(jìn)行訓(xùn)練呢?

為什么需要小批量學(xué)習(xí)?

原因有兩點(diǎn)。首先,在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,往往需要更新數(shù)億級(jí)別的參數(shù),而在很多實(shí)際應(yīng)用中需要訓(xùn)練的圖片大小又很大(例如 1000x1000 以上),使得能夠放到 GPU 中的圖片數(shù)量很少(通常小于 2)。這種情況經(jīng)常出現(xiàn)在物體檢測(cè)、場(chǎng)景分割、和視頻識(shí)別等任務(wù)當(dāng)中,它們?cè)谧詣?dòng)駕駛和視頻監(jiān)控中有廣泛應(yīng)用。然而,如前面的圖所示,網(wǎng)絡(luò)訓(xùn)練時(shí)的樣本數(shù)量減少(小批量),使訓(xùn)練變得困難??傮w來說,批量越小,訓(xùn)練過程越不穩(wěn)定。Facebook 提出的組歸一化(GN)正是為了解決上述問題。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊(duì)提出自適配歸一化取得突破

圖為物體檢測(cè)與分割示例

其次,深度神經(jīng)網(wǎng)絡(luò)一般使用大量 GPUs 進(jìn)行訓(xùn)練。訓(xùn)練方法可以分為兩大類:同步訓(xùn)練與異步訓(xùn)練。同步訓(xùn)練代表網(wǎng)絡(luò)參數(shù)的更新需要在多個(gè) GPU 當(dāng)中同步;異步訓(xùn)練是一種去中心化的方法。它比同步訓(xùn)練的好處在于,網(wǎng)絡(luò)參數(shù)的更新可以在每個(gè) GPU 當(dāng)中單獨(dú)進(jìn)行,不需要同步。然而,由于網(wǎng)絡(luò)占用大量?jī)?nèi)存,單獨(dú)一塊 GPU 只能放下少量訓(xùn)練樣本,妨礙了參數(shù)在一塊 GPU 中更新,使得異步訓(xùn)練無法進(jìn)行。

從上述原因得知,一種對(duì)批量不敏感的技術(shù)是非常必要的。

港中文的解決方案

為了解決上述問題,港中文團(tuán)隊(duì)提出了自適配歸一化 SN(Switchable Norm)。它統(tǒng)一了現(xiàn)有的歸一化方法,例如批歸一化 BN,實(shí)例歸一化 IN(Instance Norm 在 16 年提出并在 arXiv:1607.08022 公開),層歸一化 LN(Layer Norm 由 Geoffrey Hinton 等在 16 年提出在 arXiv:1607.06450 公開),和組歸一化 GN 等。SN 允許為神經(jīng)網(wǎng)絡(luò)中不同的歸一化層自動(dòng)學(xué)習(xí)不同的歸一化操作。與強(qiáng)化學(xué)習(xí)不同,SN 使用可微分學(xué)習(xí),使得選擇歸一化操作能夠和優(yōu)化網(wǎng)絡(luò)參數(shù)同時(shí)進(jìn)行,保證優(yōu)化效率的同時(shí)還保持高性能。下圖為自適配歸一化的直觀解釋。它通過學(xué)習(xí)不同的歸一化方法的權(quán)重系數(shù)來選擇不同的操作。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊(duì)提出自適配歸一化取得突破

如何解決 BN 的問題

下圖左邊表示一個(gè)神經(jīng)網(wǎng)絡(luò)的子網(wǎng)絡(luò),而一個(gè)完整的神經(jīng)網(wǎng)絡(luò)往往由多達(dá)幾十個(gè)子網(wǎng)絡(luò)構(gòu)成。前面提到的 ResNet 和 DenseNet 也可以歸為這種結(jié)構(gòu)。在一個(gè)子網(wǎng)絡(luò)里,可以有多個(gè) BN 層。換句話說,一個(gè)神經(jīng)網(wǎng)絡(luò)可以有上百個(gè) BN 層。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊(duì)提出自適配歸一化取得突破

我們稱一個(gè) BN 所在的層為一個(gè)歸一化層。那么為什么在主流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,所有的歸一化層都只采用 BN 呢?

目前幾乎所有的神經(jīng)網(wǎng)絡(luò)的全部歸一化層都使用同樣的歸一化操作。這是因?yàn)槭止槊恳粋€(gè)歸一化層指定操作需要進(jìn)行大量的實(shí)驗(yàn)驗(yàn)證,耗時(shí)耗力。

由于這個(gè)問題,使得深度學(xué)習(xí)系統(tǒng)達(dá)不到最優(yōu)性能。直觀地說,港中文團(tuán)隊(duì)相信歸一化操作應(yīng)該可以通過學(xué)習(xí)得到;不同的歸一化層應(yīng)該允許自由的使用不同的歸一化操作。如上圖右邊所示,子網(wǎng)絡(luò)中的所有歸一化層會(huì)使用 SN。它能夠?yàn)槊恳粋€(gè)歸一化層學(xué)習(xí)歸一化策略,可能是 BN,IN,LN,GN 或者它們的組合。

SN 學(xué)習(xí)不同歸一化策略的組合,避免了 BN 對(duì)小批量特別敏感的問題。

如最前面的圖所示,當(dāng)批量逐漸減小時(shí),SN 的識(shí)別率保持最優(yōu)。

SN 與 GN 的比較

組歸一化 GN 是由 Facebook 何愷明等最新提出的歸一化方法。該方法為了解決批歸一化 BN 在小批量?jī)?yōu)化時(shí)性能下降明顯的問題。直觀地說,批量越小,訓(xùn)練越不穩(wěn)定,訓(xùn)練得到的模型識(shí)別率越低。何愷明團(tuán)隊(duì)通過大量的實(shí)驗(yàn)驗(yàn)證了 GN 的有效性:例如在 ImageNet 當(dāng)中,GN 在小批量條件下獲得的識(shí)別率遠(yuǎn)遠(yuǎn)高于 BN 的識(shí)別率。但是,在正常批量條件下,GN 的識(shí)別率并不如 BN。

如前面所說,SN 是為了解決在神經(jīng)網(wǎng)絡(luò)不同的歸一化層中自動(dòng)學(xué)習(xí)歸一化操作而提出的。港中文團(tuán)隊(duì)發(fā)現(xiàn),SN 與 GN 一樣能夠在小批量條件下獲得高識(shí)別率。并且,SN 在正常批量條件下超過 GN,甚至還超過了 BN。例如,在批量為 256 的情況下,用 SN 來訓(xùn)練的 ResNet50 在 ImageNet 的精度可以達(dá)到 77.5% 以上,而用 GN 和 BN 來訓(xùn)練的網(wǎng)絡(luò)的精度分別為 75.9% 和 76.4%。

結(jié)果

港中文團(tuán)隊(duì)驗(yàn)證了自適配歸一化 SN 在多個(gè)視覺任務(wù)中的性能,包括圖像識(shí)別、物體檢測(cè)、物體分割、視頻理解、圖像風(fēng)格化和循環(huán)神經(jīng)網(wǎng)絡(luò)如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索。下面以物體檢測(cè)為例,比較 SN,BN 和 GN 在 Microsoft COCO 物體檢測(cè)數(shù)據(jù)集中的檢測(cè)結(jié)果。

與圖像分類不同,對(duì)于物體檢測(cè)和分割任務(wù),每個(gè) GPU 中圖片的數(shù)量通常只有 1 到 2 張。在這種情況下,BN 的效果會(huì)明顯下降。而 SN 能夠有效拓展到不同的檢測(cè)模型,以及不同的深度學(xué)習(xí)平臺(tái)上。下表展示了 SN 在 Mask R-CNN 和 Faster R-CNN 上的結(jié)果,可以看到 SN 在各項(xiàng)精度指標(biāo)下保持了領(lǐng)先。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊(duì)提出自適配歸一化取得突破

原論文同時(shí)展示了 SN 在圖像風(fēng)格化,以及網(wǎng)絡(luò)結(jié)構(gòu)搜索上的效果,詳情可見論文。

相關(guān)文獻(xiàn):

1. BN: S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015

2. GN: Y. Wu and K. He. Group normalization. arXiv:1803.08494, 2018

3. SN:Ping Luo, Jiamin Ren, Zhanglin Peng,Differentiable Learning-to-Normalize via Switchable Normalization,arXiv:1806.10779,2018

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

超越何愷明等組歸一化 Group Normalization,港中文團(tuán)隊(duì)提出自適配歸一化取得突破

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說