丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

本文作者: 叢末 2018-10-08 00:27
導(dǎo)語(yǔ):劉晨曦師從 AI 大師 Alan Yuille 教授!

近年來,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為了計(jì)算機(jī)視覺中主要的機(jī)器學(xué)習(xí)解決方案。然而神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)仍然需要極強(qiáng)的專業(yè)知識(shí),在一定程度上妨礙了神經(jīng)網(wǎng)絡(luò)的普及。

近日,在雷鋒網(wǎng) AI 研習(xí)社公開課上,約翰霍普金斯大學(xué)在讀博士劉晨曦就分享了在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的最新研究,并講解了如何通過由簡(jiǎn)至繁的漸進(jìn)式搜索得到在 ImageNet 圖像分類上最高的識(shí)別精度。公開課回放視頻網(wǎng)址:http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

劉晨曦:約翰霍普金斯大學(xué)在讀博士,導(dǎo)師是 Alan Yuille 教授,主要研究方向?yàn)橛?jì)算機(jī)視覺,自然語(yǔ)言處理等。曾就讀于加州大學(xué)洛杉磯分校及清華大學(xué)。其研究工作曾在 CVPR,ICCV,ECCV 等發(fā)表。

分享主題:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索

分享大綱:

  • AutoML 和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的背景介紹

  • 網(wǎng)絡(luò)結(jié)構(gòu)搜索空間

  • 漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索算法

  • 圖像分類的實(shí)驗(yàn)結(jié)果

雷鋒網(wǎng) AI 研習(xí)社將其分享內(nèi)容整理如下:

今天我要跟大家分享是漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(Progressive Neural Architecture Search)。這項(xiàng)工作是我在 Google(美國(guó))實(shí)習(xí)的時(shí)候做的項(xiàng)目,并在不久前的 ECCV 2018 上做口頭報(bào)告。

AutoML 和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的背景介紹

首先介紹一下 AutoML 和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的背景。

這篇文章主要涉及的領(lǐng)域是 AutoML,這是一個(gè)新興領(lǐng)域,也是 Google 非常重視的一個(gè)具體方向。它的目標(biāo)很簡(jiǎn)單但也很重要,就是能夠在 Machine Learning solution 的整個(gè)設(shè)計(jì)過程中,減少人的參與。當(dāng) AutoML 的實(shí)現(xiàn)程度夠高,能實(shí)現(xiàn)的具體場(chǎng)合是:人只需在早上起來的時(shí)候按一個(gè)回車鍵,整個(gè)設(shè)計(jì)過程就能實(shí)現(xiàn)高度的自動(dòng)模式,晚上回來的時(shí)候就能夠完成。

當(dāng)然理想很豐滿,現(xiàn)實(shí)實(shí)現(xiàn)難度卻比較大,為什么?

現(xiàn)在的 Machine Learning solution 既有參數(shù)也有超參數(shù),而現(xiàn)在最受歡迎的機(jī)器學(xué)習(xí)框架是神經(jīng)網(wǎng)絡(luò),這里主要討論它的優(yōu)化是否自動(dòng)化了。目前,參數(shù)的調(diào)整已經(jīng)非常自動(dòng)化了,可以直接用 Backpropagation 函數(shù)實(shí)現(xiàn)最優(yōu)的參數(shù)調(diào)整,而難以實(shí)現(xiàn)較大程度自動(dòng)化的,是超參數(shù)的調(diào)整。

那超參數(shù)都在哪里?

一提到超參數(shù),我們會(huì)更多地想到 learning rate 相關(guān)的數(shù)字,比如說整個(gè) training 有多長(zhǎng)時(shí)間,絕對(duì)數(shù)值應(yīng)該選多少等。但是對(duì)于神經(jīng)網(wǎng)絡(luò)來說,很多超參數(shù)都在它的結(jié)構(gòu)里面。下圖就是一個(gè)網(wǎng)絡(luò)結(jié)構(gòu):

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

很多神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)需要很多的 expert experience 和 knowledge,但這樣得出的結(jié)果并不是最優(yōu)的,這也是我們嘗試漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索最主要的 motivation。

近幾年來,大家逐漸開始關(guān)注一個(gè)問題:能不能不要過于依賴于 expert experience 和 knowledge,而通過自動(dòng)的方式來得到一個(gè)非常好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)?

神經(jīng)網(wǎng)絡(luò)領(lǐng)域發(fā)展得很快,但是現(xiàn)在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索相關(guān)的文章中主要使用的方法是:進(jìn)化的算法(EA)和強(qiáng)化學(xué)習(xí)的算法(RL)。

【關(guān)于這兩種算法的講解,請(qǐng)回看視頻 00:07:00 處,http://http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

在我們之前,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的相關(guān)工作已經(jīng)做得比較好了,但在我們研究這一領(lǐng)域的時(shí)候,發(fā)現(xiàn)的問題是,之前的工作都非常依賴計(jì)算資源。比如在 Google Brain 2017 年的一篇文章里,為了做神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索用了 800 塊 K40 的 GPU,然后訓(xùn)練了 28 天。在今年的一篇文章里,雖然有了很大提升,但還是用了 500 塊 P100,并訓(xùn)練了 5 天。

所以我們這項(xiàng)工作的主要目標(biāo)是嘗試把神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的速度和效率提高,具體的做法是:提出一個(gè)創(chuàng)新的算法。在我們描述這個(gè)算法前,我們需要了解網(wǎng)絡(luò)結(jié)構(gòu)搜索空間(Architecture Search Space)。

網(wǎng)絡(luò)結(jié)構(gòu)搜索空間

網(wǎng)絡(luò)結(jié)構(gòu)搜索空間大概的結(jié)構(gòu)是:定義整個(gè) Network 由一些 Cell 組成,一個(gè) Cell 進(jìn)一步由一些 Block 組成。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

從 Cell 到 Network 的過程,如右圖所示,就是有了一個(gè) Cell  structure 后,組建整個(gè) Network,整個(gè)過程借鑒了 ResNet 的設(shè)計(jì)。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

【關(guān)于從 Cell 到 Network 的過程更具體的講解,請(qǐng)回看視頻 00:12:40 處,http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

從 Block 到 Cell 的過程,是指一個(gè) Cell 由 5 個(gè) Block 組成,整個(gè) Cell 的 output 是 5 個(gè) Block 的 output 的 concatenation(連接)。如右圖,H 代表 Cell 的 output,H1 到 H5 代表了五個(gè) Block 的 output。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

而一個(gè) Block 大概是下圖右邊的這樣一個(gè)結(jié)構(gòu),這是整個(gè)網(wǎng)絡(luò)最小的形成段,Input1 通過 Operator1 transform 一下,Input2 通過 Operator2 transform 一下,二者通過一定方法 Combine 形成一個(gè) Block。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

【更多關(guān)于 Block 的形成過程的講解,請(qǐng)回看視頻 00:14:34 處,http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

總的來說,網(wǎng)絡(luò)結(jié)構(gòu)搜索空間中一個(gè) Cell 結(jié)構(gòu)如右圖所示,每個(gè)「+」的位置都代表 Block 結(jié)束的地方,每個(gè) Block 結(jié)束都有一個(gè)  element-wise addition 的操作,H(c-1)是前一個(gè) Cell 的 output,H(c-2)是前兩個(gè) Cell 的 output。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

左邊是我進(jìn)行的對(duì)應(yīng)的計(jì)算,這樣的結(jié)構(gòu)就已經(jīng)有 10 的 14 次方的 combinations,而神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的目標(biāo)就是從這 10 的 14 次方個(gè)結(jié)果中選出最佳的那個(gè),這顯然是一個(gè)非常具有挑戰(zhàn)性的 Task,這就需要一個(gè)好的算法來進(jìn)行。

漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索算法

我們主要的 Idea 其實(shí)很簡(jiǎn)單:從簡(jiǎn)單到復(fù)雜的 Curriculum Learning。我們注意到之前的方法都直接在 10 的 14 次方大小的搜索空間進(jìn)行取樣或者訓(xùn)練,這樣的搜索空間非常大,很難進(jìn)行有效的信息積累。

而我們的 Idea 是,不直接在 10 的 14 次方大小的搜索空間中工作,而是從簡(jiǎn)到繁慢慢進(jìn)入最大的搜索空間:

首先,訓(xùn)練所有的 1-block cells,當(dāng)然,我們的目標(biāo)是搜索 5-block cells,但我們一開始先假裝不知道我們的目標(biāo)。這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的一個(gè)好處是它的結(jié)構(gòu)比較簡(jiǎn)單,另一個(gè)好處是它的絕對(duì)數(shù)量只有 256 個(gè)不同的可能。

然后,去測(cè)它的算法的話,它們的分值會(huì)比較低,這是因?yàn)樗鼈冇懈俚?Block。但是,對(duì)于它們之間相對(duì)的性能,已經(jīng)有信號(hào)暗示哪些 Cell 是 promising 的,哪些不 promising。

最后,我們直接從 256 個(gè)可能里面挑選 K 個(gè) promising 最高的 Cell,讓它變成 2-block cells,再變到 3-block cells,依次這樣發(fā)展。

【關(guān)于這種 Idea 更詳細(xì)的講解,請(qǐng)回看視頻 00:19:50 處,http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

然而這種 Idea 是難以預(yù)測(cè)的?;诖?,我們的解決方案是引入了一個(gè)「cheap」surrogate model,它讀入一個(gè)結(jié)構(gòu),比如下圖中的 (0, 2, 0, 6),將其直接放入到 predictor 中去預(yù)測(cè) final performance,這樣的一個(gè) predictor 是很輕便的,我們的想法就是用這個(gè) surrogate model 完全代替整個(gè)訓(xùn)練過程。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

【關(guān)于 surrogate model 更詳細(xì)的講解,請(qǐng)回看視頻 00:22:28 處,http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

最終,我們既嘗試了 MLP-ensemble 也嘗試了 RNN-ensemble 的 predictor。RNN-ensemble 的方法比較直觀,每次當(dāng)遇到結(jié)構(gòu)的大小不一樣長(zhǎng)的時(shí)候,只要將 RNN unroll 不同的步數(shù)就可以了。MLP-ensemble 則通過 mean pooling 的方式來處理可變大小。

接下來我們用一個(gè)具體例子來看這種漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法。

【關(guān)于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法的案例講解,請(qǐng)回看視頻 00:26:39 處,http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

最后介紹一下我們的實(shí)驗(yàn)結(jié)果。

圖像分類的實(shí)驗(yàn)結(jié)果

在搜索過程中,我們做了這樣一個(gè)實(shí)驗(yàn),在 CIFAR-10 架構(gòu)上進(jìn)行了漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索,K 取值 256,而每個(gè)模型的 N 和 F 分別取值 2、24,相對(duì)較小,并對(duì)模型進(jìn)行了 20 次迭代訓(xùn)練,以更快、更準(zhǔn)確地判斷 Network 的好壞。這個(gè)過程中的一個(gè)很重要的問題是,我們的搜索是不是更加有效率——這也是我們整篇論文最主要的目標(biāo)。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

答案肯定是,是的。在下圖中,我把我們的漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索跟 Random Rearch 和 NAS 進(jìn)行了比較:

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

【關(guān)于對(duì)三種搜索方法的比較的具體講解,請(qǐng)回看視頻 00:31:45 處,http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

我們搜索的結(jié)構(gòu)有 PNASNet-1、 2、3、4、5,它們的具體的樣子如下圖:

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

其中 PNASNet-5 是我們最終搜索出來的結(jié)果。而我們找到這樣一個(gè)結(jié)構(gòu)之后,僅僅確保它在過程中的表現(xiàn)好還不夠,我們還要在搜索完成后,將 N 和 F 增大,在 CIFAR-10 和 ImageNet 上進(jìn)行訓(xùn)練和測(cè)試。這里的問題是,我們找到的網(wǎng)絡(luò)結(jié)構(gòu)在最好的 benchmark datasets 上的表現(xiàn)是怎么樣的。

在 CIFAR-10 上實(shí)驗(yàn)的結(jié)果如下圖:

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

在 ImageNet (Mobile、Large)上實(shí)驗(yàn)的結(jié)果如下圖:

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

【關(guān)于在 CIFAR-10 和 ImageNet 上的實(shí)驗(yàn)結(jié)果的具體講解,請(qǐng)回看視頻 00:35:30 處,http://www.mooc.ai/open/course/550?=aitechtalkliuchenxi

對(duì)我們的工作做一下總結(jié):

第一,我們提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法,具體采用的是從簡(jiǎn)單到復(fù)雜的方法,同時(shí),為了讓這個(gè)算法變得更具可預(yù)測(cè)性,我們學(xué)習(xí)了一個(gè) surrogate function 來指導(dǎo)搜索。

第二,我們將最后搜索出來的結(jié)果叫做 PNASNet-5 ,它在 CIFAR-10 和 ImageNet 上達(dá)到了非常高的準(zhǔn)確率,且在搜索過程中比當(dāng)下最好的增強(qiáng)學(xué)習(xí)和進(jìn)化算法的方法都更快。

我們?cè)?ImageNet 上訓(xùn)練好的 PNASNet-5 模型已經(jīng) release 了,包括剛剛提到在 ImageNet 上的 Mobile、 Large 模型,Both TensorFlow 、PyTorch 模型,以及(據(jù)我所知)在 ImageNet 所有對(duì)外開放的模型中準(zhǔn)確度和效率最高的 SOTA 模型,大家如果有需要可以到相應(yīng)網(wǎng)址找到。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

我們的 Paper 自在 ECCV 上發(fā)表后,有了很多新的變化和 Extensions。我們的算法被用到類似的 Task 中,比如 PPP-Net 和 DPP-Net 的 Pareto-optimal architectures 或者 Meta-learning 中,都取得了不錯(cuò)的效果。

而在我們的論文中沒有解決的問題是,我們對(duì)每個(gè)單獨(dú) sample 出來的模型進(jìn)行單獨(dú)訓(xùn)練,彼此間沒有很好的 Sharing。最近有一篇論文將我們的方法與其他方法進(jìn)行結(jié)合,使神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的速度變得更快、更有效率。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請(qǐng)到雷鋒網(wǎng) AI 研習(xí)社社區(qū)(https://club.leiphone.com/)觀看。關(guān)注微信公眾號(hào):AI 研習(xí)社(okweiwu),可獲取最新公開課直播時(shí)間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

約翰霍普金斯大學(xué)劉晨曦:漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索 | AI 研習(xí)社第 75 期大講堂

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說