0
本文作者: 楊曉凡 | 2018-08-09 10:03 |
雷鋒網(wǎng) AI 科技評論按:卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛用于圖像分類、人臉識(shí)別、物體檢測以及其他許多任務(wù)中。然而,為移動(dòng)設(shè)備設(shè)計(jì) CNN 模型是一個(gè)有挑戰(zhàn)性的問題,因?yàn)橐苿?dòng)模型需要又小又快,同時(shí)還要保持足夠的準(zhǔn)確率。雖然研究人員們已經(jīng)花了非常多的時(shí)間精力在移動(dòng)模型的設(shè)計(jì)和改進(jìn)上,做出了 MobileNet 和 MobileNetV2 這樣的成果,但是人工設(shè)計(jì)高效的模型始終是很有難度的,其中有許許多多的可能性需要考慮。
受到 AutoML 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索研究的啟發(fā),谷歌大腦團(tuán)隊(duì)開始考慮能否通過 AutoML 的力量讓移動(dòng)設(shè)備的 CNN 模型設(shè)計(jì)也更進(jìn)一步。在谷歌 AI 博客的新博文中,他們介紹了用 AutoML 的思路為移動(dòng)設(shè)備找到更好的網(wǎng)絡(luò)架構(gòu)的研究成果。雷鋒網(wǎng) AI 科技評論把博文編譯如下。
在谷歌的論文《MnasNet: Platform-Aware Neural Architecture Search for Mobile》中,他們嘗試了一種基于強(qiáng)化學(xué)習(xí)范式的自動(dòng)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法來設(shè)計(jì)移動(dòng)模型。為了應(yīng)對移動(dòng)設(shè)備的運(yùn)行速度限制,谷歌大腦的研究人員們專門顯式地把運(yùn)行速度信息也加入了搜索算法的主反饋函數(shù)中,這樣搜索到的模型就是一個(gè)可以在運(yùn)行速度和識(shí)別準(zhǔn)確率之間取得良好平衡的模型。通過這樣的方法,MnasNet 找到的模型要比目前頂級的人工設(shè)計(jì)的模型 MobileNetV2 快 1.5 倍,比 NASNet 快 2.4 倍,同時(shí)還保持了同樣的 ImageNet 首位準(zhǔn)確率。
以往的網(wǎng)絡(luò)架構(gòu)搜索方法中,模型的運(yùn)行速度通常是借助另一種指標(biāo)進(jìn)行參考(比如考慮設(shè)備的每秒運(yùn)算數(shù)目),而谷歌大腦此次的方法是通過在給定的上設(shè)備上運(yùn)行模型,直接測量模型的運(yùn)行時(shí)間長短;在這項(xiàng)研究中他們使用的就是自家的 Pixel 手機(jī)。通過這種方式,他們可以直接測量出模型在真實(shí)環(huán)境運(yùn)行時(shí)的具體表現(xiàn),尤其是,不同型號(hào)的移動(dòng)設(shè)備有各自不同的軟硬件屬性,僅憑運(yùn)算速度這一項(xiàng)指標(biāo)無法概括全部情況;為了達(dá)到準(zhǔn)確率和運(yùn)行速度之間的最佳平衡,所需的模型架構(gòu)也會(huì)有所不同。
谷歌大腦方法的總體流程主要由三個(gè)部分組成:一個(gè)基于 RNN 的控制器用于學(xué)習(xí)模型架構(gòu)并進(jìn)行采樣,一個(gè)訓(xùn)練器用于構(gòu)建模型并訓(xùn)練模型得到準(zhǔn)確率,還有一個(gè)推理引擎,它會(huì)在真實(shí)的手機(jī)上通過 TensorFlow Lite 運(yùn)行模型、測量模型的運(yùn)行速度。他們把這個(gè)任務(wù)公式化為一個(gè)多目標(biāo)優(yōu)化問題,優(yōu)化過程中得以兼顧高準(zhǔn)確率和高運(yùn)行速度;其中使用的強(qiáng)化學(xué)習(xí)算法帶有一個(gè)自定義的反饋函數(shù),可以在不斷的探索中找到帕累托最優(yōu)的解決方案(比如,不斷提升模型的準(zhǔn)確率,同時(shí)并不會(huì)讓運(yùn)行速度降低)。
對于網(wǎng)絡(luò)架構(gòu)搜索過程,為了在搜索的靈活性和搜索空間大小之間取得合適的平衡,谷歌大腦的研究人員們提出了一種新的因子分解層級化搜索空間,它的設(shè)計(jì)是把一整個(gè)卷積網(wǎng)絡(luò)分解為一系列按順序連接的模塊,然后用一個(gè)層級化搜索空間來決定每一個(gè)模塊中的層的結(jié)構(gòu)。借助這樣的做法,他們設(shè)計(jì)的搜索流程可以允許不同的層使用不同的操作和連接方式。同時(shí),他們也強(qiáng)制要求同一個(gè)模塊內(nèi)的所有層都共享同一種結(jié)構(gòu),相比于普通的每一層獨(dú)立搜索結(jié)構(gòu),這種做法也就把搜索空間顯著減小了數(shù)個(gè)數(shù)量級。
谷歌大腦的研究人員們在 ImageNet 圖像分類和 COCO 物體檢測任務(wù)中測試了這種方法的效果。實(shí)驗(yàn)中,這種方法找到的網(wǎng)絡(luò)在典型的移動(dòng)設(shè)備計(jì)算速度限制下達(dá)到了準(zhǔn)確率的新高。下面圖中就展示了 ImageNet 上的結(jié)果。
在 ImageNet 上,如果要達(dá)到同樣的準(zhǔn)確率,MnasNet 模型可以比目前頂級的人工設(shè)計(jì)的模型 MobileNetV2 快 1.5 倍,比 NASNet 快 2.4 倍,其中 NASNet 也是用網(wǎng)絡(luò)架構(gòu)搜索找到的。在采用了「壓縮-激勵(lì)」(squeeze-and-excitation)優(yōu)化之后,谷歌新的 MnasNet + SE 的模型的首位準(zhǔn)確率可以達(dá)到 76.1%,這已經(jīng)達(dá)到了 ResNet-50 的水平,但卻比 ResNet-50 的參數(shù)少了 19 倍,乘-加的計(jì)算操作數(shù)目也減少了 10 倍。在 COCO 上,谷歌的模型家族可以同時(shí)在準(zhǔn)確率和運(yùn)行速度上領(lǐng)先 MobileNet,它的準(zhǔn)確率已經(jīng)與 SSD300 模型相當(dāng),但所需計(jì)算量要少了 35 倍。
谷歌大腦的研究人員們很高興看到自動(dòng)搜索得到的模型可以在多個(gè)復(fù)雜的移動(dòng)計(jì)算機(jī)視覺任務(wù)中取得頂級的成績。未來他們計(jì)劃在搜索空間中集成更多的操作和優(yōu)化方法供選擇,也嘗試把它應(yīng)用到語義分割等更多的移動(dòng)計(jì)算機(jī)視覺任務(wù)中。
論文地址:https://arxiv.org/abs/1807.11626
via ai.googleblog.com,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。