丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給恒亮
發(fā)送

0

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

本文作者: 恒亮 2017-04-10 18:55
導(dǎo)語:OpenAI 的高級(jí)科學(xué)家用 28303 篇論文分析機(jī)器學(xué)習(xí)在過去五年中的改變。

arXiv.org 是一個(gè)專門收集物理學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)與生物學(xué)論文預(yù)印本的網(wǎng)站。數(shù)據(jù)顯示,截至 2014 年底的時(shí)候,arXiv 已經(jīng)達(dá)到了一百萬篇以上的論文藏量,并且還在以每月 8000 篇的速率增長(zhǎng)。算是目前全球最具規(guī)模的論文數(shù)據(jù)庫之一。

近日,來自斯坦福大學(xué)計(jì)算機(jī)學(xué)院的博士畢業(yè)生、OpenAI 的高級(jí)科學(xué)家 Andrej Karpathy 基于一份 arXiv 機(jī)器學(xué)習(xí)論文大數(shù)據(jù),從論文數(shù)量、開源框架、數(shù)學(xué)模型和優(yōu)化算法等多個(gè)方面對(duì)過去五年中的機(jī)器學(xué)習(xí)變化趨勢(shì)進(jìn)行了詳細(xì)分析,并將分析結(jié)果發(fā)布在個(gè)人博客上。以下內(nèi)容整理自該博客,雷鋒網(wǎng)編譯。

想必你一定聽說過谷歌趨勢(shì)(Google Trends)或者百度指數(shù)這種工具,任意輸入一個(gè)關(guān)鍵詞,就能立刻看到關(guān)于該詞在過去幾個(gè)月甚至幾年之內(nèi)的變化趨勢(shì)。受此啟發(fā),碰巧我手邊正好有一份 arXiv 論文數(shù)據(jù)集,它收集了過去五年中機(jī)器學(xué)習(xí)相關(guān)的 28303 篇論文。那么與谷歌趨勢(shì)類似,從這些論文中,我們能否看到一些機(jī)器學(xué)習(xí)領(lǐng)域的科研發(fā)展趨勢(shì)呢?我就此進(jìn)行了詳細(xì)的數(shù)據(jù)分析,發(fā)現(xiàn)這個(gè)結(jié)果相當(dāng)有趣,因此在這里把它分享出來。

論文總量

首先我們看一下論文數(shù)量。在過去五年中,arXiv 收集的機(jī)器學(xué)習(xí)論文數(shù)量變化情況如下圖所示。

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

從上圖可以看到,論文總數(shù)在 2017 年 3 月出現(xiàn)了一次激增,從時(shí)間上看可能是由于 NIPS 和 ICML 等大型會(huì)議的論文提交截止日期正好在 3 月。而且有一點(diǎn)需要說明的是,arXiv 的論文數(shù)據(jù)集雖然全面,但也并不能完全代表整個(gè)機(jī)器學(xué)習(xí)行業(yè)的變化趨勢(shì),因?yàn)楫吘共皇撬腥硕剂?xí)慣于將自己的論文投遞到 arXiv 網(wǎng)站上。不過,從上圖我們?nèi)匀豢梢钥吹揭粋€(gè)明顯的上升趨勢(shì),這說明機(jī)器學(xué)習(xí)的熱度的確在持續(xù)地上升中。

下面我們將以這些論文作為研究材料,看看其中包含著怎樣的變化趨勢(shì)。

深度學(xué)習(xí)框架

首先看看深度學(xué)習(xí)框架的情況。這里我記錄了在 2017 年 3 月上傳的所有論文中(包括參考書目和論文內(nèi)容)提到的機(jī)器學(xué)習(xí)框架情況:

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

可以看到,在 2017 年 3 月份提交的所有論文中大約有 10% 都提到了 TensorFlow。當(dāng)然,并不是每一篇論文都聲明了框架的使用,但是如果我們假設(shè)論文以某一固定的概率分布來聲明框架,并且這個(gè)概率與框架本身無關(guān)的話,那么大概有高達(dá) 40% 的社區(qū)都在使用 TensorFlow(如果也算上用 TensorFlow 作為 Keras 后端的論文,這一比例將會(huì)更大)。下面是這些框架隨時(shí)間變化的趨勢(shì):

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

可以看到,Theano 已經(jīng)高速發(fā)展了一段時(shí)間了,但近期它的增速正在放緩。Caffe 從 2014 年前后開始快速爆發(fā),但在過去幾個(gè)月中已經(jīng)被強(qiáng)大的 TensorFlow 反超。Torch(以及最近的 PyTorch)也處于上升期,雖然增速略顯緩慢,不過增長(zhǎng)穩(wěn)定。我估計(jì)再過幾個(gè)月再來看這個(gè)結(jié)果會(huì)更有趣,因?yàn)楦鶕?jù)我的估計(jì),未來 Caffe 和 Theano 將會(huì)緩慢衰落,而由于 PyTorch 的崛起,TensorFlow 的增速可能會(huì)放緩。

卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)

下面再看一下卷積神經(jīng)網(wǎng)絡(luò)的情況,從下面的圖表中可以清楚地看到,作為 CNN 領(lǐng)域里重要里程碑的 ResNets(深度殘差網(wǎng)絡(luò))在 2016 年底的激增情況,在 2017 年 3 月提交的所有論文中甚至有大約 9% 都提到了 ResNets。

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

另外,這里還能看到在谷歌 InceptionNet 之前,實(shí)際上已經(jīng)有論文提到了 inception 的概念。

優(yōu)化算法

在優(yōu)化算法方面,Adam 算法可以算是應(yīng)用最多的一個(gè),大約有高達(dá) 23% 的論文都提到了它。這里需要說明的是,在實(shí)際使用中 Adam 算法的采用率可能更高,因?yàn)樵S多論文都不會(huì)顯式地聲明優(yōu)化算法,更有一部分論文甚至不會(huì)闡述關(guān)于神經(jīng)網(wǎng)絡(luò)優(yōu)化的內(nèi)容。另外,從圖表中還能看出,在 2014 年 12 月 Adam 優(yōu)化算法被正式提出之前,實(shí)際上也有一些論文提到了 “Adam” 關(guān)鍵詞,它的概率大約維持在 5% 左右,我猜想可能是因?yàn)橛性S多作者的名字也叫 Adam 的緣故。

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

研究者

這里我還很好奇地研究了一下深度學(xué)習(xí)領(lǐng)域各位大牛的名字在論文中的變化情況,結(jié)果如下圖所示。需要說明的是,這里的僅根據(jù)關(guān)鍵詞統(tǒng)計(jì)的方式很粗糙,另外我還做了一些歸一化操作。

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

從圖表中可以看到,在所有提交的論文中,大約有 35% 提到了 bengio,但這里實(shí)際上有兩個(gè)人: Samy 和 Yoshua,圖中是兩人加起來的結(jié)果。另外需要特別指出的是,在所有新論文中有超過 30% 都提到了 Geoff Hinton 大神,這一點(diǎn)很強(qiáng)大。

關(guān)鍵詞

最后一部分是關(guān)鍵詞。這里我首先統(tǒng)計(jì)了所有一元關(guān)鍵詞和二元關(guān)鍵詞在論文中的出現(xiàn)情況 ,并對(duì)當(dāng)下和一年之前這些詞匯的最大采用率做了對(duì)比。這里我作為基準(zhǔn)采用的論文都是一些近兩年被引用次數(shù)最高的優(yōu)秀論文。以下是一些排名靠前的關(guān)鍵詞:

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

以 ResNet 舉例來說,它的相對(duì)熱度之所以是 8.17,是因?yàn)樗?2016 年 3 月所有論文中的采用比是 1.044%,而到了今年 3 月,它的采用比則增長(zhǎng)到了 8.53%,用兩個(gè)百分比相除,就得到了 8.17。

從以上圖表可以看出,在過去一年中最火熱的機(jī)器學(xué)習(xí)創(chuàng)新技術(shù)包括:ResNets、GAN、Adam 和 BatchNorm。在研究方向上熱詞包括:風(fēng)格轉(zhuǎn)換(style transfer)、深度強(qiáng)化學(xué)習(xí)(deep RL)、神經(jīng)網(wǎng)絡(luò)翻譯以及圖像生成等。最后,在模型方面可以看到:全卷積網(wǎng)絡(luò)(FCN)、 LSTMs/GRUs、Siamese Nets 以及 Encoder decoder nets等熱詞。

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

與之相反,哪些關(guān)鍵詞在過去一年中出現(xiàn)了下滑,變成了最冷門的關(guān)鍵詞?我整理了以下排名:

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

可以看到,fractal(分形) 和 bayesian(貝葉斯)相關(guān)的內(nèi)容在近一年的時(shí)間中熱度衰減嚴(yán)重。

總結(jié)

話說,看完了所有的分析結(jié)果,你不趕緊寫一篇基于全卷積神經(jīng)網(wǎng)絡(luò)、BatchNorm、ResNet 和 GAN 技術(shù),通過 Adam 算法優(yōu)化,并應(yīng)用于風(fēng)格轉(zhuǎn)換的論文么 :)

來源:medium,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

用兩萬篇論文告訴你:機(jī)器學(xué)習(xí)在過去五年中發(fā)生了什么

分享:
相關(guān)文章

編輯

歡迎交流,微信:whl123465
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說