0
本文作者: 楊曉凡 | 2018-08-09 10:03 |
雷鋒網(wǎng) AI 科技評論按:卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛用于圖像分類、人臉識別、物體檢測以及其他許多任務(wù)中。然而,為移動設(shè)備設(shè)計 CNN 模型是一個有挑戰(zhàn)性的問題,因為移動模型需要又小又快,同時還要保持足夠的準確率。雖然研究人員們已經(jīng)花了非常多的時間精力在移動模型的設(shè)計和改進上,做出了 MobileNet 和 MobileNetV2 這樣的成果,但是人工設(shè)計高效的模型始終是很有難度的,其中有許許多多的可能性需要考慮。
受到 AutoML 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索研究的啟發(fā),谷歌大腦團隊開始考慮能否通過 AutoML 的力量讓移動設(shè)備的 CNN 模型設(shè)計也更進一步。在谷歌 AI 博客的新博文中,他們介紹了用 AutoML 的思路為移動設(shè)備找到更好的網(wǎng)絡(luò)架構(gòu)的研究成果。雷鋒網(wǎng) AI 科技評論把博文編譯如下。
在谷歌的論文《MnasNet: Platform-Aware Neural Architecture Search for Mobile》中,他們嘗試了一種基于強化學(xué)習(xí)范式的自動神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法來設(shè)計移動模型。為了應(yīng)對移動設(shè)備的運行速度限制,谷歌大腦的研究人員們專門顯式地把運行速度信息也加入了搜索算法的主反饋函數(shù)中,這樣搜索到的模型就是一個可以在運行速度和識別準確率之間取得良好平衡的模型。通過這樣的方法,MnasNet 找到的模型要比目前頂級的人工設(shè)計的模型 MobileNetV2 快 1.5 倍,比 NASNet 快 2.4 倍,同時還保持了同樣的 ImageNet 首位準確率。
以往的網(wǎng)絡(luò)架構(gòu)搜索方法中,模型的運行速度通常是借助另一種指標進行參考(比如考慮設(shè)備的每秒運算數(shù)目),而谷歌大腦此次的方法是通過在給定的上設(shè)備上運行模型,直接測量模型的運行時間長短;在這項研究中他們使用的就是自家的 Pixel 手機。通過這種方式,他們可以直接測量出模型在真實環(huán)境運行時的具體表現(xiàn),尤其是,不同型號的移動設(shè)備有各自不同的軟硬件屬性,僅憑運算速度這一項指標無法概括全部情況;為了達到準確率和運行速度之間的最佳平衡,所需的模型架構(gòu)也會有所不同。
谷歌大腦方法的總體流程主要由三個部分組成:一個基于 RNN 的控制器用于學(xué)習(xí)模型架構(gòu)并進行采樣,一個訓(xùn)練器用于構(gòu)建模型并訓(xùn)練模型得到準確率,還有一個推理引擎,它會在真實的手機上通過 TensorFlow Lite 運行模型、測量模型的運行速度。他們把這個任務(wù)公式化為一個多目標優(yōu)化問題,優(yōu)化過程中得以兼顧高準確率和高運行速度;其中使用的強化學(xué)習(xí)算法帶有一個自定義的反饋函數(shù),可以在不斷的探索中找到帕累托最優(yōu)的解決方案(比如,不斷提升模型的準確率,同時并不會讓運行速度降低)。
對于網(wǎng)絡(luò)架構(gòu)搜索過程,為了在搜索的靈活性和搜索空間大小之間取得合適的平衡,谷歌大腦的研究人員們提出了一種新的因子分解層級化搜索空間,它的設(shè)計是把一整個卷積網(wǎng)絡(luò)分解為一系列按順序連接的模塊,然后用一個層級化搜索空間來決定每一個模塊中的層的結(jié)構(gòu)。借助這樣的做法,他們設(shè)計的搜索流程可以允許不同的層使用不同的操作和連接方式。同時,他們也強制要求同一個模塊內(nèi)的所有層都共享同一種結(jié)構(gòu),相比于普通的每一層獨立搜索結(jié)構(gòu),這種做法也就把搜索空間顯著減小了數(shù)個數(shù)量級。
谷歌大腦的研究人員們在 ImageNet 圖像分類和 COCO 物體檢測任務(wù)中測試了這種方法的效果。實驗中,這種方法找到的網(wǎng)絡(luò)在典型的移動設(shè)備計算速度限制下達到了準確率的新高。下面圖中就展示了 ImageNet 上的結(jié)果。
在 ImageNet 上,如果要達到同樣的準確率,MnasNet 模型可以比目前頂級的人工設(shè)計的模型 MobileNetV2 快 1.5 倍,比 NASNet 快 2.4 倍,其中 NASNet 也是用網(wǎng)絡(luò)架構(gòu)搜索找到的。在采用了「壓縮-激勵」(squeeze-and-excitation)優(yōu)化之后,谷歌新的 MnasNet + SE 的模型的首位準確率可以達到 76.1%,這已經(jīng)達到了 ResNet-50 的水平,但卻比 ResNet-50 的參數(shù)少了 19 倍,乘-加的計算操作數(shù)目也減少了 10 倍。在 COCO 上,谷歌的模型家族可以同時在準確率和運行速度上領(lǐng)先 MobileNet,它的準確率已經(jīng)與 SSD300 模型相當,但所需計算量要少了 35 倍。
谷歌大腦的研究人員們很高興看到自動搜索得到的模型可以在多個復(fù)雜的移動計算機視覺任務(wù)中取得頂級的成績。未來他們計劃在搜索空間中集成更多的操作和優(yōu)化方法供選擇,也嘗試把它應(yīng)用到語義分割等更多的移動計算機視覺任務(wù)中。
論文地址:https://arxiv.org/abs/1807.11626
via ai.googleblog.com,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。