超越何愷明等組歸一化 Group Normalization，港中文團(tuán)隊提出自適配歸一化取得突破

本文作者： AI科技評論

2018-07-12 10:03

導(dǎo)語：港中文最新論文研究表明目前的深度神經(jīng)網(wǎng)絡(luò)即使在人工標(biāo)注的標(biāo)準(zhǔn)數(shù)據(jù)庫中訓(xùn)練（例如 ImageNet），性能也會出現(xiàn)劇烈波動。

雷鋒網(wǎng) AI 科技評論：港中文最新論文研究表明目前的深度神經(jīng)網(wǎng)絡(luò)即使在人工標(biāo)注的標(biāo)準(zhǔn)數(shù)據(jù)庫中訓(xùn)練（例如 ImageNet），性能也會出現(xiàn)劇烈波動。這種情況在使用少批量數(shù)據(jù)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)時更為嚴(yán)重。研究發(fā)現(xiàn)這是由于 BN（Batch Normalization）導(dǎo)致的。BN 是 Google 在 2015 年提出的歸一化方法。至今已有 5000+次引用，在學(xué)術(shù)界和工業(yè)界均被廣泛使用。港中文團(tuán)隊提出的 SN（Switchable Normalization）解決了 BN 的不足。SN 在 ImageNet 大規(guī)模圖像識別數(shù)據(jù)集和 Microsoft COCO 大規(guī)模物體檢測數(shù)據(jù)集的準(zhǔn)確率，還超過了最近由 Facebook 何愷明等人提出的組歸一化 GN（Group Normalization）。原論文請參考 arXiv:1806.10779 和代碼 Github。

背景解讀：
*ImageNet 是大規(guī)模圖像識別數(shù)據(jù)庫。由斯坦福大學(xué)李飛飛教授在 2009 年建立。在 ImageNet 中識別率的競賽，被稱為計算機(jī)視覺的奧林匹克競賽。
*Microsoft COCO 是目前使用最廣泛的物體檢測與分割數(shù)據(jù)集。每年舉辦的 COCO Challenge 吸引了大量國內(nèi)外著名企業(yè)與實驗室參與，包括 Google，F(xiàn)acebook，Berkely 等等。
*BN（批歸一化）是由 Google 在 2015 年提出的一種歸一化方法。至今已經(jīng)被引用了 5000 余次，在學(xué)術(shù)界與工業(yè)界廣泛使用。幾乎所有主流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)都使用了BN，例如微軟亞洲研究院提出的殘差神經(jīng)網(wǎng)絡(luò)（ResNet，CVPR 2016 best paper）和由康奈爾大學(xué)提出的 DenseNet（CVPR 2017 best paper）。
*SN 是港中文團(tuán)隊最新提出的歸一化方法。其在 ImageNet 的識別率超越了其它歸一化方法。使用 SN 訓(xùn)練的 ResNet50 達(dá)到了 77.5% 的 top-1 識別率。這是目前在 ResNet50 模型上匯報的最高結(jié)果，超過了主流深度學(xué)習(xí)平臺所提供的模型，例如 TensorFlow、PyTorch、Caffe 等。值得注意的是，這個結(jié)果甚至超過了 101 層的殘差神經(jīng)網(wǎng)絡(luò)模型。該模型已經(jīng)開源并提供下載。

我們先從一張圖來看批歸一化 BN 遇到的瓶頸。下圖縱軸表示一個 ResNet 神經(jīng)網(wǎng)絡(luò)模型在 ImageNet 中的圖像識別準(zhǔn)確率（越高越好），橫軸表示訓(xùn)練時更新網(wǎng)絡(luò)的樣本數(shù)量從大到小排列。藍(lán)色線、紅色線、和綠色線分別表示使用 Google 的 BN，F(xiàn)acebook 的 GN 和港中文提出的 SN 訓(xùn)練模型的準(zhǔn)確率。可以看出，當(dāng)用于更新網(wǎng)絡(luò)的樣本數(shù)量（又稱「批量」）減小時，BN 模型的識別率急劇下降。例如批量等于 16 時，BN 模型相比 SN 模型識別率下降了 11%。當(dāng)批量等于 8 時，BN 模型的圖像識別率跌至 50% 以下。

超越何愷明等組歸一化 Group Normalization，港中文團(tuán)隊提出自適配歸一化取得突破

BN 導(dǎo)致性能下降？

BN（批歸一化）是一種歸一化方法。歸一化一般指把數(shù)據(jù)的分布變成一個均值為 0 和方差為 1 的分布。要達(dá)到此目的，BN 在進(jìn)行歸一化操作時需要估計訓(xùn)練數(shù)據(jù)的均值和方差。由于訓(xùn)練數(shù)據(jù)量很大（ImageNet 有上百萬數(shù)據(jù)），估計這些統(tǒng)計量需要大量的運算。因此，這兩個統(tǒng)計量一般是利用一小批數(shù)據(jù)來估計的。然而，當(dāng)批量較小時，例如上圖的 32，這些統(tǒng)計量估計不準(zhǔn)確，導(dǎo)致識別率開始明顯下降。正如需要估計全校的平均分，只統(tǒng)計一個班級是不準(zhǔn)確的。因此，BN 會導(dǎo)致性能損失。

既然 BN 在小批量當(dāng)中效果變差，我們能否避免使用小批量進(jìn)行訓(xùn)練呢？

為什么需要小批量學(xué)習(xí)？

原因有兩點。首先，在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中，往往需要更新數(shù)億級別的參數(shù)，而在很多實際應(yīng)用中需要訓(xùn)練的圖片大小又很大（例如 1000x1000 以上），使得能夠放到 GPU 中的圖片數(shù)量很少（通常小于 2）。這種情況經(jīng)常出現(xiàn)在物體檢測、場景分割、和視頻識別等任務(wù)當(dāng)中，它們在自動駕駛和視頻監(jiān)控中有廣泛應(yīng)用。然而，如前面的圖所示，網(wǎng)絡(luò)訓(xùn)練時的樣本數(shù)量減少（小批量），使訓(xùn)練變得困難?？傮w來說，批量越小，訓(xùn)練過程越不穩(wěn)定。Facebook 提出的組歸一化（GN）正是為了解決上述問題。

超越何愷明等組歸一化 Group Normalization，港中文團(tuán)隊提出自適配歸一化取得突破

圖為物體檢測與分割示例

其次，深度神經(jīng)網(wǎng)絡(luò)一般使用大量 GPUs 進(jìn)行訓(xùn)練。訓(xùn)練方法可以分為兩大類：同步訓(xùn)練與異步訓(xùn)練。同步訓(xùn)練代表網(wǎng)絡(luò)參數(shù)的更新需要在多個 GPU 當(dāng)中同步；異步訓(xùn)練是一種去中心化的方法。它比同步訓(xùn)練的好處在于，網(wǎng)絡(luò)參數(shù)的更新可以在每個 GPU 當(dāng)中單獨進(jìn)行，不需要同步。然而，由于網(wǎng)絡(luò)占用大量內(nèi)存，單獨一塊 GPU 只能放下少量訓(xùn)練樣本，妨礙了參數(shù)在一塊 GPU 中更新，使得異步訓(xùn)練無法進(jìn)行。

從上述原因得知，一種對批量不敏感的技術(shù)是非常必要的。

港中文的解決方案

為了解決上述問題，港中文團(tuán)隊提出了自適配歸一化 SN（Switchable Norm）。它統(tǒng)一了現(xiàn)有的歸一化方法，例如批歸一化 BN，實例歸一化 IN（Instance Norm 在 16 年提出并在 arXiv:1607.08022 公開），層歸一化 LN（Layer Norm 由 Geoffrey Hinton 等在 16 年提出在 arXiv:1607.06450 公開），和組歸一化 GN 等。SN 允許為神經(jīng)網(wǎng)絡(luò)中不同的歸一化層自動學(xué)習(xí)不同的歸一化操作。與強化學(xué)習(xí)不同，SN 使用可微分學(xué)習(xí)，使得選擇歸一化操作能夠和優(yōu)化網(wǎng)絡(luò)參數(shù)同時進(jìn)行，保證優(yōu)化效率的同時還保持高性能。下圖為自適配歸一化的直觀解釋。它通過學(xué)習(xí)不同的歸一化方法的權(quán)重系數(shù)來選擇不同的操作。

超越何愷明等組歸一化 Group Normalization，港中文團(tuán)隊提出自適配歸一化取得突破

如何解決 BN 的問題

下圖左邊表示一個神經(jīng)網(wǎng)絡(luò)的子網(wǎng)絡(luò)，而一個完整的神經(jīng)網(wǎng)絡(luò)往往由多達(dá)幾十個子網(wǎng)絡(luò)構(gòu)成。前面提到的 ResNet 和 DenseNet 也可以歸為這種結(jié)構(gòu)。在一個子網(wǎng)絡(luò)里，可以有多個 BN 層。換句話說，一個神經(jīng)網(wǎng)絡(luò)可以有上百個 BN 層。

超越何愷明等組歸一化 Group Normalization，港中文團(tuán)隊提出自適配歸一化取得突破

我們稱一個 BN 所在的層為一個歸一化層。那么為什么在主流神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中，所有的歸一化層都只采用 BN 呢？

目前幾乎所有的神經(jīng)網(wǎng)絡(luò)的全部歸一化層都使用同樣的歸一化操作。這是因為手工為每一個歸一化層指定操作需要進(jìn)行大量的實驗驗證，耗時耗力。

由于這個問題，使得深度學(xué)習(xí)系統(tǒng)達(dá)不到最優(yōu)性能。直觀地說，港中文團(tuán)隊相信歸一化操作應(yīng)該可以通過學(xué)習(xí)得到；不同的歸一化層應(yīng)該允許自由的使用不同的歸一化操作。如上圖右邊所示，子網(wǎng)絡(luò)中的所有歸一化層會使用 SN。它能夠為每一個歸一化層學(xué)習(xí)歸一化策略，可能是 BN，IN，LN，GN 或者它們的組合。

SN 學(xué)習(xí)不同歸一化策略的組合，避免了 BN 對小批量特別敏感的問題。

如最前面的圖所示，當(dāng)批量逐漸減小時，SN 的識別率保持最優(yōu)。

SN 與 GN 的比較

組歸一化 GN 是由 Facebook 何愷明等最新提出的歸一化方法。該方法為了解決批歸一化 BN 在小批量優(yōu)化時性能下降明顯的問題。直觀地說，批量越小，訓(xùn)練越不穩(wěn)定，訓(xùn)練得到的模型識別率越低。何愷明團(tuán)隊通過大量的實驗驗證了 GN 的有效性：例如在 ImageNet 當(dāng)中，GN 在小批量條件下獲得的識別率遠(yuǎn)遠(yuǎn)高于 BN 的識別率。但是，在正常批量條件下，GN 的識別率并不如 BN。

如前面所說，SN 是為了解決在神經(jīng)網(wǎng)絡(luò)不同的歸一化層中自動學(xué)習(xí)歸一化操作而提出的。港中文團(tuán)隊發(fā)現(xiàn)，SN 與 GN 一樣能夠在小批量條件下獲得高識別率。并且，SN 在正常批量條件下超過 GN，甚至還超過了 BN。例如，在批量為 256 的情況下，用 SN 來訓(xùn)練的 ResNet50 在 ImageNet 的精度可以達(dá)到 77.5% 以上，而用 GN 和 BN 來訓(xùn)練的網(wǎng)絡(luò)的精度分別為 75.9% 和 76.4%。

結(jié)果

港中文團(tuán)隊驗證了自適配歸一化 SN 在多個視覺任務(wù)中的性能，包括圖像識別、物體檢測、物體分割、視頻理解、圖像風(fēng)格化和循環(huán)神經(jīng)網(wǎng)絡(luò)如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索。下面以物體檢測為例，比較 SN，BN 和 GN 在 Microsoft COCO 物體檢測數(shù)據(jù)集中的檢測結(jié)果。

與圖像分類不同，對于物體檢測和分割任務(wù)，每個 GPU 中圖片的數(shù)量通常只有 1 到 2 張。在這種情況下，BN 的效果會明顯下降。而 SN 能夠有效拓展到不同的檢測模型，以及不同的深度學(xué)習(xí)平臺上。下表展示了 SN 在 Mask R-CNN 和 Faster R-CNN 上的結(jié)果，可以看到 SN 在各項精度指標(biāo)下保持了領(lǐng)先。

超越何愷明等組歸一化 Group Normalization，港中文團(tuán)隊提出自適配歸一化取得突破