丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊文
發(fā)送

0

何愷明團(tuán)隊(duì)最新力作:群組歸一化(Group Normalization)

本文作者: 楊文 編輯:楊曉凡 2018-03-24 10:02
導(dǎo)語(yǔ):群組歸一化(Group Normalization)簡(jiǎn)介

雷鋒網(wǎng)AI科技評(píng)論按:近日,F(xiàn)AIR 研究工程師吳育昕和研究科學(xué)家何愷明聯(lián)名著作的一篇論文 Group Normalization 提到了一種新的訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法。該方法稱為群組歸一化(Group Normalization),試圖以群組方式實(shí)現(xiàn)快速訓(xùn)練神經(jīng)網(wǎng)絡(luò),這種方法對(duì)于硬件的需求大大降低,并在實(shí)驗(yàn)中超過(guò)了傳統(tǒng)的批量歸一化方法。

批量歸一化和群組歸一化

批量歸一化(Batch Normalization,以下簡(jiǎn)稱 BN)是深度學(xué)習(xí)發(fā)展中的一項(xiàng)里程碑式技術(shù),可讓各種網(wǎng)絡(luò)并行訓(xùn)練。但是,批量維度進(jìn)行歸一化會(huì)帶來(lái)一些問(wèn)題——批量統(tǒng)計(jì)估算不準(zhǔn)確導(dǎo)致批量變小時(shí),BN 的誤差會(huì)迅速增加。在訓(xùn)練大型網(wǎng)絡(luò)和將特征轉(zhuǎn)移到計(jì)算機(jī)視覺(jué)任務(wù)中(包括檢測(cè)、分割和視頻),內(nèi)存消耗限制了只能使用小批量的BN。在這篇論文中,作者巧妙提出了群組歸一化 Group Normalization (簡(jiǎn)稱 GN) 作為 BN 的替代方案。

何愷明團(tuán)隊(duì)最新力作:群組歸一化(Group Normalization)

GN 將通道分成組,并在每組內(nèi)計(jì)算歸一化的均值和方差。GN 的計(jì)算與批量大小無(wú)關(guān),并且其準(zhǔn)確度在各種批量大小下都很穩(wěn)定。在 ImageNet 上訓(xùn)練的 ResNet-50 上,GN 使用批量大小為 2 時(shí)的錯(cuò)誤率比 BN 的錯(cuò)誤率低 10.6%;當(dāng)使用典型的批量時(shí),GN 與 BN 相當(dāng),并且優(yōu)于其他標(biāo)歸一化變體。而且,GN 可以自然地從預(yù)訓(xùn)練遷移到微調(diào)。在進(jìn)行 COCO 中的目標(biāo)檢測(cè)和分割以及 Kinetics 中的視頻分類比賽中,GN 可以勝過(guò)其競(jìng)爭(zhēng)對(duì)手,表明 GN 可以在各種任務(wù)中有效地取代強(qiáng)大的 BN。在最新的代碼庫(kù)中,GN 可以通過(guò)幾行代碼輕松實(shí)現(xiàn)。

背景介紹

批量歸一化已被證實(shí)為深度學(xué)習(xí)中非常有效的組成部分,在很大程度上推動(dòng)了計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展。許多實(shí)踐都證明了這一點(diǎn),BN 使用(小)批計(jì)算的均值和方差對(duì)特征進(jìn)行歸一化,以簡(jiǎn)化優(yōu)化使非常深的網(wǎng)絡(luò)能夠融合。批量統(tǒng)計(jì)的隨機(jī)不確定性也可以作為一個(gè)正則化器,它可以適用于泛化。BN 一直是許多最先進(jìn)的計(jì)算機(jī)視覺(jué)算法的基礎(chǔ)。

盡管 BN 取得了巨大的成功,但其存在的弊端也是由于其獨(dú)特的歸一化行為造成的。

何愷明團(tuán)隊(duì)最新力作:群組歸一化(Group Normalization)

圖1. ImageNet分類錯(cuò)誤與批量大小的對(duì)比圖,這是一個(gè)ResNet-50模型,使用8張GPU卡在ImageNet訓(xùn)練集中進(jìn)行訓(xùn)練,并在驗(yàn)證集中進(jìn)行評(píng)估。

特別是,BN 要求有足夠大的批量才能工作。小批量會(huì)導(dǎo)致批量統(tǒng)計(jì)數(shù)據(jù)的估算不準(zhǔn)確,并且減少 BN 的批量大小會(huì)顯著增加模型誤差(圖 1)。因此,最近的許多模型都是用較大的批量來(lái)進(jìn)行訓(xùn)練的,這些大批量都是很耗費(fèi)內(nèi)存的。反過(guò)來(lái),訓(xùn)練模型時(shí)對(duì) BN 有效性的高度依賴性阻礙了人們用有限內(nèi)存探索更高容量的模型。

計(jì)算機(jī)視覺(jué)任務(wù)(包括檢測(cè)、分割、視頻識(shí)別和其他基于此的高級(jí)系統(tǒng))對(duì)批量大小的限制要求更高。例如,F(xiàn)ast / er 和 Mask R-CNN 框架使用批量為 1 或 2 的圖像,為了更高的分辨率,其中 BN 通過(guò)變換為線性層而被「固定」;在 3D 卷積視頻分類中,時(shí)空特征的出現(xiàn)導(dǎo)致在時(shí)間長(zhǎng)度和批大小之間需要作出權(quán)衡。BN 的使用通常要求這些系統(tǒng)在模型設(shè)計(jì)和批大小之間作出妥協(xié)。

本文提出群組歸一化(GN)作為 BN 的替代方案。作者注意到像 SIFT 和 HOG 這樣的許多經(jīng)典特征是分組特征并且包括分組規(guī)范化。例如,HOG 矢量是幾個(gè)空間單元的結(jié)果,其中每個(gè)單元由歸一化方向直方圖表示。同樣,作者提出 GN 作為一個(gè)層,將通道劃分為組,并對(duì)每個(gè)組內(nèi)的特征進(jìn)行歸一化(圖 2)。GN 不用批量維度,其計(jì)算與批量大小無(wú)關(guān)。

GN 在大范圍的批量下運(yùn)行都非常穩(wěn)定(圖 1)。在批量大小為 2 的樣本中,GN 比 ImageNet 中的 ResNet-50 的 BN 對(duì)應(yīng)的誤差低 10.6%。對(duì)于常規(guī)的批量規(guī)格,GN 與 BN 表現(xiàn)相當(dāng)(差距為 0.5%),并且優(yōu)于其它歸一化變體 。此外,盡管批量可能會(huì)發(fā)生變化,但 GN 可以自然地從預(yù)訓(xùn)練遷移到微調(diào)。在 COCO 目標(biāo)檢測(cè)和分割任務(wù)的 Mask R-CNN 上,以及在 Kinetics 視頻分類任務(wù)的 3D 卷積網(wǎng)絡(luò)上,相比于 BN 的對(duì)應(yīng)變體,GN 都能獲得提升或者超越的結(jié)果。GN 在 ImageNet、COCO 和 Kinetics 上的有效性表明 GN 是 BN 的有力競(jìng)爭(zhēng)者,而 BN 在過(guò)去一直在這些任務(wù)上作為主導(dǎo)方法。

何愷明團(tuán)隊(duì)最新力作:群組歸一化(Group Normalization)

圖2

已有的方法,如層次歸一化(LN)和實(shí)例歸一化(IN)(圖 2),也避免了沿著批量維度進(jìn)行歸一化。這些方法對(duì)訓(xùn)練序列模型(RNN / LSTM )或生成模型(GANs)是有效的。但正如論文中通過(guò)實(shí)驗(yàn)表明的那樣,LN 和 IN 在視覺(jué)識(shí)別方面取得的成功是有限的,GN 可以提供了更好的性能表現(xiàn)。甚至,GN 可以用來(lái)替代 LN 和 IN,來(lái)適用于有序或生成模型。這超出了本文的研究重點(diǎn),但它對(duì)未來(lái)的研究提供了啟示。

視覺(jué)表現(xiàn)的通道并不完全獨(dú)立。SIFT ,HOG 和 GIST 的典型特征是按設(shè)計(jì)分組表示的,其中每組通道由某種直方圖構(gòu)成。這些功能通常通過(guò)每個(gè)直方圖或每個(gè)方向上的分組歸一化進(jìn)行處理。VLAD 和 Fisher Vector(FV)等更高級(jí)的特征也是群組特征,其中一組可以被認(rèn)為是相對(duì)于一個(gè)群集計(jì)算的子向量。

類似地,沒(méi)有必要將深層神經(jīng)網(wǎng)絡(luò)特征看作非結(jié)構(gòu)化向量。例如,對(duì)于網(wǎng)絡(luò)的 conv1(第一卷積層),期望濾波器及其水平翻轉(zhuǎn)在自然圖像上呈現(xiàn)類似的濾波器響應(yīng)分布是合理的。如果 conv1 碰巧近似學(xué)習(xí)這一對(duì)濾波器,或者如果通過(guò)設(shè)計(jì)將水平翻轉(zhuǎn)(或其他變換)設(shè)計(jì)為架構(gòu) ,則可以將這些濾波器的相應(yīng)通道一起歸一化。

越高層的圖層越抽象,它們的行為也不那么直觀。然而,除了方向(SIFT ,HOG )之外,還有許多因素可能導(dǎo)致分組,例如頻率,形狀,光照度和質(zhì)地,它們的系數(shù)可以相互依存。事實(shí)上,神經(jīng)科學(xué)中廣為接受的計(jì)算模型是在細(xì)胞反應(yīng)中歸一化 ,「具有各種感受野中心(包括視野)和各種時(shí)空頻率音調(diào);這不僅可以發(fā)生在初級(jí)視覺(jué)皮層,而且可以發(fā)生在「整個(gè)視覺(jué)系統(tǒng)」。受到這些研究的啟發(fā),我們提出了新的泛神經(jīng)網(wǎng)絡(luò)的泛型歸一化。

何愷明團(tuán)隊(duì)最新力作:群組歸一化(Group Normalization)

圖3

GN 可以通過(guò) PyTorch  和 TensorFlow 中的幾行代碼輕松實(shí)現(xiàn),圖 3 顯示了基于 TensorFlow 的代碼。事實(shí)上,只需要指定如何計(jì)算均值和方差(「矩」),用歸一化方法定義的適當(dāng)?shù)淖鴺?biāo)軸。

實(shí)驗(yàn)部分

在三個(gè)不同類型的數(shù)據(jù)集上做了實(shí)驗(yàn)對(duì)比。分別是 ImageNet 中的圖像分類,COCO 中的對(duì)象檢測(cè)和分割,Kinetics 中的視頻分類。具體的實(shí)驗(yàn)方法、實(shí)驗(yàn)步驟,以及實(shí)驗(yàn)結(jié)果,原論文中有詳細(xì)描述。

GN 在檢測(cè),分割和視頻分類方面的改進(jìn)表明,GN 對(duì)于當(dāng)前處于主導(dǎo)地位的 BN 技術(shù)而言是強(qiáng)有力的替代。

總結(jié)

論文中把 GN 作為一個(gè)有效的歸一化層且不用開(kāi)發(fā)批量維度,同時(shí)也評(píng)估了 GN 在各種應(yīng)用中的行為表現(xiàn)。不過(guò),論文作者也注意到,由于 BN 之前擁有很強(qiáng)的影響力,以至于許多先進(jìn)的系統(tǒng)及其超參數(shù)已被設(shè)計(jì)出來(lái)。這對(duì)于基于 GN 的模型可能是不利的,不過(guò)也有可能重新設(shè)計(jì)系統(tǒng)或搜索 GN 的新超參數(shù)將會(huì)產(chǎn)生更好的結(jié)果。

此外,作者表明,GN 與 LN 和 IN 有關(guān),LN 和 IN 兩種歸一化方法在訓(xùn)練循壞(RNN / LSTM)或生成(GAN)模型中特別成功。這表明將來(lái) GN 也會(huì)研究這些領(lǐng)域。另外作者還將探索 GN 在強(qiáng)化學(xué)習(xí)(RL)任務(wù)學(xué)習(xí)表征方面的表現(xiàn),其中 BN 在訓(xùn)練非常深的模型中起著重要作用 。

論文地址:https://arxiv.org/abs/1803.08494

雷鋒網(wǎng)

雷鋒網(wǎng)原創(chuàng)

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

何愷明團(tuán)隊(duì)最新力作:群組歸一化(Group Normalization)

分享:
相關(guān)文章

編輯&記者

AI科技評(píng)論員,微信:yeohandwin
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)