2018 年度 ML、NLP 會(huì)議論文大盤(pán)點(diǎn)：周明、張潼、孫茂松數(shù)據(jù)亮眼

本文作者：叢末

2019-01-13 00:13

導(dǎo)語(yǔ)：統(tǒng)計(jì)數(shù)據(jù)覆蓋 ACL、EMNLP、COLING、TACL、NeurIPS、ICML、ICLR、 AAAI 等 12 個(gè)會(huì)議/期刊。

雷鋒網(wǎng) AI 科技評(píng)論按：隨著 2018 年的結(jié)束，劍橋大學(xué)高級(jí)研究員 Marek Rei 再度更新了過(guò)去一年機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域的論文發(fā)表統(tǒng)計(jì)數(shù)據(jù)，本次，他選擇了ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 以及 AAAI 12 個(gè)主要的會(huì)議/期刊進(jìn)行數(shù)據(jù)統(tǒng)計(jì)，從會(huì)議、作者、第一作者以及組織機(jī)構(gòu)四個(gè)維度進(jìn)行了論文發(fā)表數(shù)量的排名。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

今年，又到了更新過(guò)去一年機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域的論文發(fā)表統(tǒng)計(jì)數(shù)據(jù)的時(shí)候了。這兩個(gè)領(lǐng)域依舊在快速發(fā)展，無(wú)論是發(fā)表論文數(shù)量還是參會(huì)人員數(shù)量都打破了往年的記錄。今年學(xué)術(shù)會(huì)議界最轟動(dòng)的事件莫過(guò)于「NeurIPS 大會(huì)正會(huì)門(mén)票 11 分鐘售罄」了。在本文中，我將針對(duì)這些數(shù)據(jù)提供詳細(xì)的統(tǒng)計(jì)，顯示在特定會(huì)議上作者或者組織機(jī)構(gòu)所發(fā)表論文的數(shù)量。

2018 年，我統(tǒng)計(jì)了以下會(huì)議/期刊的數(shù)據(jù)：ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 以及 AAAI。這種選擇是為了覆蓋機(jī)器學(xué)習(xí)和語(yǔ)言技術(shù)領(lǐng)域論文發(fā)表的最知名和高排名的會(huì)議。與去年相比，我去掉了 SemEval，因?yàn)樗饕P(guān)注共享任務(wù)相關(guān)的論文，而我在其它會(huì)議中也沒(méi)有統(tǒng)計(jì)該領(lǐng)域的論文發(fā)表數(shù)據(jù)。同時(shí)，我添加上了作為頂級(jí)會(huì)議之一但在過(guò)去的排名中被遺漏的 AAAI。NeurIPS（原名為 NIPS）在 2018 年改名了，為了保持名稱(chēng)的一致性，我在這里將使用最新的名稱(chēng)。

這個(gè)分析是通過(guò)我多年來(lái)一直在不斷改進(jìn)的一系列腳本自動(dòng)完成的。該論文列表抓取自在線(xiàn)會(huì)議錄，在那里通常也可以找到作者的姓名。組織機(jī)構(gòu)的名稱(chēng)則需要直接從 PDF 中提取，這就可能會(huì)帶來(lái)相當(dāng)多的噪聲。我開(kāi)發(fā)了各種方法來(lái)檢查各類(lèi)不同的名稱(chēng)并對(duì)其進(jìn)行分組，但是如果你在文中發(fā)現(xiàn)了任何剩下的錯(cuò)誤，請(qǐng)告知我。

雖然這篇文章重點(diǎn)介紹了近年來(lái)發(fā)表論文數(shù)最多的研究者和組織機(jī)構(gòu)，但我想指出的是，我不認(rèn)為論文發(fā)表數(shù)量是一個(gè)領(lǐng)域應(yīng)該追逐或贊揚(yáng)的東西。如下圖所示，該領(lǐng)域正變得越來(lái)越熱門(mén)，并且論文數(shù)量的快速增長(zhǎng)也伴隨著論文質(zhì)量的參差不齊。寫(xiě) 1 篇獨(dú)具開(kāi)創(chuàng)性的論文總比發(fā)布 10 篇通通都容易被遺忘的充量性的論文要好。這篇文章旨在從更清晰、更高的視角來(lái)看待發(fā)表論文的研究者、組織機(jī)構(gòu)以及他們?cè)诟鲿?huì)議上發(fā)表論文的現(xiàn)狀，或許能為有好想法的新的研究者帶來(lái)一些靈感。

會(huì)議論文發(fā)表數(shù)量排名

首先，我們來(lái)看一下所有會(huì)議在 2012-2018 年間的論文發(fā)表數(shù)量。大多數(shù)機(jī)器學(xué)習(xí)會(huì)議的論文發(fā)表數(shù)量保持繼續(xù)增長(zhǎng)，其中 AAAI 和 NeurIPS 超過(guò)了 1000 篇論文；EMNLP 和 NAACL 的論文發(fā)表數(shù)量與往年相比也有大幅增長(zhǎng)； ACL 和 COLING 的論文發(fā)表數(shù)量則與往年差不多；EACL 在今年沒(méi)有舉行；而 TACL 和 CL 的論文發(fā)表數(shù)量多年來(lái)一直保持相對(duì)平穩(wěn)的狀態(tài)。