0
本文作者: 叢末 | 2019-01-13 00:13 |
雷鋒網(wǎng) AI 科技評(píng)論按:隨著 2018 年的結(jié)束,劍橋大學(xué)高級(jí)研究員 Marek Rei 再度更新了過去一年機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域的論文發(fā)表統(tǒng)計(jì)數(shù)據(jù),本次,他選擇了ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 以及 AAAI 12 個(gè)主要的會(huì)議/期刊進(jìn)行數(shù)據(jù)統(tǒng)計(jì),從會(huì)議、作者、第一作者以及組織機(jī)構(gòu)四個(gè)維度進(jìn)行了論文發(fā)表數(shù)量的排名。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。
今年,又到了更新過去一年機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域的論文發(fā)表統(tǒng)計(jì)數(shù)據(jù)的時(shí)候了。這兩個(gè)領(lǐng)域依舊在快速發(fā)展,無論是發(fā)表論文數(shù)量還是參會(huì)人員數(shù)量都打破了往年的記錄。今年學(xué)術(shù)會(huì)議界最轟動(dòng)的事件莫過于「NeurIPS 大會(huì)正會(huì)門票 11 分鐘售罄」了。在本文中,我將針對(duì)這些數(shù)據(jù)提供詳細(xì)的統(tǒng)計(jì),顯示在特定會(huì)議上作者或者組織機(jī)構(gòu)所發(fā)表論文的數(shù)量。
2018 年,我統(tǒng)計(jì)了以下會(huì)議/期刊的數(shù)據(jù):ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 以及 AAAI。這種選擇是為了覆蓋機(jī)器學(xué)習(xí)和語言技術(shù)領(lǐng)域論文發(fā)表的最知名和高排名的會(huì)議。與去年相比,我去掉了 SemEval,因?yàn)樗饕P(guān)注共享任務(wù)相關(guān)的論文,而我在其它會(huì)議中也沒有統(tǒng)計(jì)該領(lǐng)域的論文發(fā)表數(shù)據(jù)。同時(shí),我添加上了 作為頂級(jí)會(huì)議之一但在過去的排名中被遺漏的 AAAI。NeurIPS(原名為 NIPS)在 2018 年改名了,為了保持名稱的一致性,我在這里將使用最新的名稱。
這個(gè)分析是通過我多年來一直在不斷改進(jìn)的一系列腳本自動(dòng)完成的。該論文列表抓取自在線會(huì)議錄,在那里通常也可以找到作者的姓名。組織機(jī)構(gòu)的名稱則需要直接從 PDF 中提取,這就可能會(huì)帶來相當(dāng)多的噪聲。我開發(fā)了各種方法來檢查各類不同的名稱并對(duì)其進(jìn)行分組,但是如果你在文中發(fā)現(xiàn)了任何剩下的錯(cuò)誤,請(qǐng)告知我。
雖然這篇文章重點(diǎn)介紹了近年來發(fā)表論文數(shù)最多的研究者和組織機(jī)構(gòu),但我想指出的是,我不認(rèn)為論文發(fā)表數(shù)量是一個(gè)領(lǐng)域應(yīng)該追逐或贊揚(yáng)的東西。如下圖所示,該領(lǐng)域正變得越來越熱門,并且論文數(shù)量的快速增長(zhǎng)也伴隨著論文質(zhì)量的參差不齊。寫 1 篇獨(dú)具開創(chuàng)性的論文總比發(fā)布 10 篇通通都容易被遺忘的充量性的論文要好。這篇文章旨在從更清晰、更高的視角來看待發(fā)表論文的研究者、組織機(jī)構(gòu)以及他們?cè)诟鲿?huì)議上發(fā)表論文的現(xiàn)狀,或許能為有好想法的新的研究者帶來一些靈感。
首先,我們來看一下所有會(huì)議在 2012-2018 年間的論文發(fā)表數(shù)量。大多數(shù)機(jī)器學(xué)習(xí)會(huì)議的論文發(fā)表數(shù)量保持繼續(xù)增長(zhǎng),其中 AAAI 和 NeurIPS 超過了 1000 篇論文;EMNLP 和 NAACL 的論文發(fā)表數(shù)量與往年相比也有大幅增長(zhǎng); ACL 和 COLING 的論文發(fā)表數(shù)量則與往年差不多;EACL 在今年沒有舉行;而 TACL 和 CL 的論文發(fā)表數(shù)量多年來一直保持相對(duì)平穩(wěn)的狀態(tài)。
(注:圖中論文發(fā)表數(shù)量為零的點(diǎn),都表示會(huì)議在該年份沒有舉行。)
接下來,我們來看看 2018 年在這些會(huì)議上發(fā)表論文數(shù)量最多的個(gè)人作者。其中,有三位作者的論文發(fā)表數(shù)量驚人,為 22 篇,他們分別是周明(微軟)、Graham Neubig(卡耐基梅隆大學(xué))和 Sergey Levine(UC 伯克利)。緊隨其后的是張潼(騰訊 AI,近期離職)、孫茂松(清華大學(xué))和 Iryna Gurevych(達(dá)姆施塔特工業(yè)大學(xué)),其中,張潼的論文發(fā)表數(shù)為為 21 篇,孫茂松和 Iryna Gurevych 則各自發(fā)表了 20 篇論文。
從 2012-2018 年的論文發(fā)表總數(shù)來看,Chris Dyer(DeepMind)仍以 97 篇論文位居榜首。緊隨其后的是周明(微軟)、Yoshua Bengio(蒙特利爾大學(xué))、張岳(西湖大學(xué))和 Noah A. Smith(華盛頓大學(xué)),發(fā)表的論文總數(shù)分別為 90 篇、84 篇、80 篇、79 篇。大部分作者都明確地偏愛某個(gè)領(lǐng)域的會(huì)議——要么偏愛 NLP 領(lǐng)域的會(huì)議,要么偏愛核心 ML 領(lǐng)域,大概只有 Percy Liang 算是個(gè)例外,他對(duì)這兩個(gè)領(lǐng)域都不偏不倚。
我們還可以查看每位作者在不同年份發(fā)表的論文數(shù)量。與其他作者相比,Chris Dyer 在 2015、2016 這兩年發(fā)表的論文數(shù)量引人注目,雖然張?jiān)溃ㄎ骱髮W(xué))和周明(微軟)之后也迎頭趕上了。
然后,來看一下關(guān)于第一作者的統(tǒng)計(jì)數(shù)據(jù)。前面所提到的作者大部分都是團(tuán)隊(duì)領(lǐng)導(dǎo)者,而通常第一作者才是那個(gè)實(shí)際執(zhí)行、進(jìn)行實(shí)驗(yàn)和撰寫論文大部分內(nèi)容的人。這類作者當(dāng)中的佼佼者當(dāng)屬 Yi Tay(南洋理工大學(xué)),他就讀博士三年級(jí),2018 年以第一作者在幾個(gè)重要大會(huì)上共發(fā)表 10 篇優(yōu)秀的論文。之后是微軟研究院的朱澤園,以第一作者共發(fā)表 6 篇論文。緊隨其后的是 Mikel Artetxe、Jiatao Gu(香港大學(xué)),Dinghan Shen(杜克大學(xué))和 Nathan Kallus(康奈爾大學(xué)),他們以第一作者各發(fā)表 5 篇論文。
再看看 2012-2018 年的論文發(fā)表總量,李紀(jì)為(香儂科技)發(fā)表了 22 篇一作論文。其后是朱澤園(微軟)、Young-Bum Kim(亞馬遜)、Ryan Cotterell(劍橋大學(xué))和 Ivan Vuli?(劍橋大學(xué)),其中朱澤園以第一作者發(fā)表的論文數(shù)量為 18 篇,Young-Bum Kim、Ryan Cotterell 、Ivan Vuli? 均為 17 篇。
接著,看一下關(guān)于組織機(jī)構(gòu)的統(tǒng)計(jì)數(shù)據(jù)。和前兩年一樣,2018 年 CMU 再度位居榜首,其在 NLP 和核心 ML 兩個(gè)領(lǐng)域發(fā)表的論文數(shù)量旗鼓相當(dāng)。谷歌和微軟依舊是業(yè)界領(lǐng)導(dǎo)企業(yè),緊隨其后的是清華大學(xué)、斯坦福大學(xué)、北京大學(xué)、MIT 和伯克利大學(xué)。
此排名中,中國(guó)上榜的組織機(jī)構(gòu)有清華大學(xué)、北京大學(xué)、中國(guó)科學(xué)院大學(xué)、中國(guó)科學(xué)院、上海交通大學(xué)以及香港中文大學(xué),其中清華大學(xué)位列第四,北京大學(xué)位列第六,中國(guó)科學(xué)院大學(xué)位列第九,中國(guó)科學(xué)院位列第十一,上海交通大學(xué)以及香港中文大學(xué)則分別排在第十六、第二十四。
我們?cè)賮砜匆幌?2012-2018 年的組織機(jī)構(gòu)排名,情況類似。CMU 仍然占據(jù)榜首,微軟和谷歌分列占據(jù)第二、第三的寶座。普林斯頓大學(xué)、法國(guó)國(guó)家信息與自動(dòng)化研究所(INRIA)、杜克大學(xué)的關(guān)注度似乎主要聚焦在核心 ML 領(lǐng)域,它們?cè)?NLP 領(lǐng)域發(fā)表的論文幾乎沒有。與他們相反,清華、中科院和愛丁堡大學(xué)則主要聚焦于語言應(yīng)用領(lǐng)域,在 NeurIPS/ICML 會(huì)議上發(fā)表了大量論文。
從下圖的時(shí)間線來看,我們可以看到 CMU 多年來都保持了大量的論文輸出,且論文輸出數(shù)量仍在繼續(xù)增長(zhǎng)。谷歌和微軟競(jìng)爭(zhēng)激烈,不過目前看來谷歌似乎稍占上風(fēng)。清華、北大等中國(guó)的大學(xué)目前的論文輸出數(shù)量也正在劇烈增長(zhǎng)。
最后,我對(duì)作者和組織機(jī)構(gòu)進(jìn)行了主題分類。我收集了與特定作者/組織機(jī)構(gòu)相關(guān)的所有論文,將它們轉(zhuǎn)換為小寫并進(jìn)行令牌化(tokenized),然后用 LDA 處理,并用 t-SNE 對(duì)這些論文進(jìn)行可視化。排名靠前的論文字符實(shí)體可視化效果非常好,顯示了他們的論文內(nèi)容與圖中其他論文內(nèi)容的相似度。
以上就是今年機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域的論文發(fā)表統(tǒng)計(jì)數(shù)據(jù)及排名。如果你在文中發(fā)現(xiàn)了任何錯(cuò)誤,或者你對(duì)明年的文章有什么建議,通過留言或者發(fā)送郵件讓我知道。
via: http://www.marekrei.com/blog/ml-and-nlp-publications-in-2018/ 雷鋒網(wǎng)AI 科技評(píng)論編譯 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。