0
雷鋒網(wǎng) AI 科技評論按:在自然語言處理(NLP)領(lǐng)域工作的學(xué)者(學(xué)生)可能無人不知 ACL、EMNLP 這樣的 NLP 頂會,但國內(nèi)發(fā)起的這個 NLP 國際會議盡管已經(jīng)舉辦六屆,可能還沒有引起所有人的注意。
近期中國計算機(jī)學(xué)會(CCF)舉辦的第六屆國際自然語言處理及中文計算會議(NLPCC 2017)在大連成功舉辦。作為國內(nèi) NLP 領(lǐng)域首個面向國際的學(xué)術(shù)大會,NLPCC 無論從會議的形式、參會的人數(shù)(500+)、還是報告的質(zhì)量(錄取率21%),都展現(xiàn)出了一副朝氣蓬勃的氣象,欲有引領(lǐng)中國 NLP 走向國際之勢。
NLPCC 2017會議之后雷鋒網(wǎng)采訪了CCF 中文信息技術(shù)專委會主任、微軟亞洲研究院副院長周明(同時他也是中國中文信息學(xué)會(CIPS)的常務(wù)理事和國際計算語言學(xué)會 ACL 的候任主席)和CCF 中文信息技術(shù)專委會秘書長、北京大學(xué)趙東巖研究員。周明博士主要介紹了中國 NLP 的研究現(xiàn)狀,及中國在未來需要如何做才能躋身世界頂尖水平甚至引領(lǐng)世界潮流。詳細(xì)內(nèi)容見《專訪MSRA副院長周明:中國NLP如何躋身世界頂尖水平?》。
本文內(nèi)容為雷鋒網(wǎng)對趙東巖研究員的專訪。趙東巖研究員向我們詳細(xì)講述了 NLPCC 作為一個新興會議為何有如此朝氣。他認(rèn)為隨著中國綜合國力的增加,中文的世界化,將會有越來越多的人學(xué)習(xí)中文、研究中文,中國人在中文的自然語言處理的會議應(yīng)當(dāng)成為這個領(lǐng)域世界上最頂級的,我們有必要也有能力辦這樣頂級的會議。
以下為趙東巖研究員的深入講解,雷鋒網(wǎng)根據(jù)采訪內(nèi)容作了不改變原意的精簡和編輯。
北京大學(xué) 趙東巖研究員
NLPCC 全稱為CCF國際自然語言處理與中文計算會議,英文為 Natural Language Processing and Chinese Computing。會議由中國計算機(jī)學(xué)會(CCF)主辦,CCF 中文信息技術(shù)專業(yè)委員會(CCF TCCI)及高校(每年通過投票選舉)承辦。會議內(nèi)容主要圍繞自然語言處理(NLP)和中文計算(CC)兩方面來進(jìn)行。
該會議秉承國際化和一流化的嚴(yán)格標(biāo)準(zhǔn),每年一度在全國各城市舉行,盡管只有六年的時間,但儼然已經(jīng)成為國內(nèi)自然語言處理領(lǐng)域的年度盛會(NLPCC 2017 總參會人數(shù)有 500 人之多),同時也在逐漸走向國際化道路。
NLPCC 會議包括多個技術(shù)評測、學(xué)科前沿講習(xí)班(ADL)、主會(含特邀報告 Keynote、論文報告 Oral墻報 Poster、研討會 Workshop)等活動。其特點在于以下三個方面:
1、它是國內(nèi)首個 NLP 領(lǐng)域的國際會議;
2、它是國際上中文計算領(lǐng)域的首選;
3、它的所有流程嚴(yán)格按照國際頂級會議的要求執(zhí)行,同時又具有自己的特色。
AI科技評論:為什么要舉辦這樣一個面向國際的 NLP 會議呢?
趙東巖:主要基于三點考慮——
1)我們有條件辦一個NLP領(lǐng)域的高水平國際會議。近幾年我們國內(nèi)的學(xué)者在 NLP 領(lǐng)域的研究水平已經(jīng)達(dá)到世界先進(jìn)水平,穩(wěn)居世界第二的位置。因此國內(nèi)研究的質(zhì)量和水平有條件讓我們辦好這樣一個有水準(zhǔn)的國際會議。
2)通過會議進(jìn)一步促進(jìn)和提高國內(nèi)學(xué)者(包括學(xué)生)的研究水平。NLPCC 會議在會議組織、審稿以及舉辦的整個流程上完全按照國際頂級會議的模式來進(jìn)行,讓每一個參與的人都能夠得到很多收獲。例如,會議全程使用英語交流和討論,任何參加過會議的人再參加 ACL、EMNLP 這樣的會議時就不會怵。
3)我們希望能夠做一個由中國舉辦的有世界影響力的學(xué)術(shù)會議。近年來,我們在《Science》或《Nature》等國外頂級期刊上發(fā)表文章越來越多,然而由中國學(xué)術(shù)機(jī)構(gòu)主辦的高水平會議和期刊還很鮮見,這樣的現(xiàn)象應(yīng)該扭轉(zhuǎn)。我們希望通過舉辦這個會議,通過規(guī)范化的組織、高水平的管理和對論文質(zhì)量的嚴(yán)格把關(guān),使它能夠成為展示中國學(xué)術(shù)界研究水平和中國學(xué)術(shù)組織在學(xué)術(shù)管理、學(xué)術(shù)創(chuàng)新方面實力的窗口或者標(biāo)志。
AI科技評論:NLPCC 有沒有進(jìn)入 CCF 推薦排名?
趙東巖:現(xiàn)在還沒有,這正是我們努力的目標(biāo)。
AI科技評論:NLPCC 相比國內(nèi)其他 NLP 領(lǐng)域的會議有什么區(qū)別?
趙東巖:以舉辦高水平國際學(xué)術(shù)會議為目標(biāo),中文信息技術(shù)專委會希望NLPCC能夠在論文質(zhì)量、學(xué)術(shù)水平和國際化方面做出特色。所以專委會有這樣幾個舉措:
第一,錄用論文確保高質(zhì)量。學(xué)術(shù)會議的核心機(jī)構(gòu)是負(fù)責(zé)評審和錄用稿件的程序委員會,這個委員會是保證會議論文質(zhì)量和學(xué)術(shù)水平的關(guān)鍵。NLPCC的程序委員會一開始就是按照國際化方式來組織:由國內(nèi)和國外的一線知名學(xué)者和專家共同組成。審稿方面主要借鑒了 ACL 的模式:每篇稿件至少有三個審稿人基于回避制進(jìn)行審稿;審稿人使用國際審稿系統(tǒng)獨立評審、打分,將評審意見提交給領(lǐng)域出席;領(lǐng)域主席由國內(nèi)和海外兩名專家共同擔(dān)當(dāng),領(lǐng)域主席按照打分和評審意見決定錄用論文的基本排名;隨后由程序委員會主席、領(lǐng)域主席以及大會主席等舉行審稿會(decision meeting),按照錄用論文的指導(dǎo)比例(25%)決定錄用哪些稿件。雖然錄取稿件的比例線控制在 25% ,但為了確保質(zhì)量,幾位主席會對錄用線附近的論文(borderline papers)進(jìn)行嚴(yán)格篩選,所以一般大會的錄用率都會低于25%。
第二,辦會規(guī)范看齊國際一流會議。這體現(xiàn)在兩點,一個是NLPCC會議的組織委員會和程序委員會都是由一流的國際和國內(nèi)一線專家共同組成;另一個是會議流程上我們完全參照國際一流會議的形式來舉辦。
第三,會議組織服務(wù)做到精細(xì)化。我們在組織和服務(wù)方面做了精細(xì)化安排。例如,每次會議均制作了內(nèi)容嚴(yán)謹(jǐn)豐富、排版規(guī)范美觀的會議手冊,同時會議為所有參會人員都給予貼心的服務(wù)以及旅行資助和注冊參會資助;此外會議還非常注重對贊助機(jī)構(gòu)的服務(wù)。
作為中文信息技術(shù)專委會的年度學(xué)術(shù)會議,我們希望NLPCC不斷提高會議質(zhì)量和學(xué)術(shù)影響力質(zhì)量。因此,從第三年開始,NLPCC就轉(zhuǎn)為國際會議,會議全程使用英文交流。
趙東巖:在嚴(yán)格把關(guān)論文錄取率、辦好學(xué)術(shù)大會(Conference)的基礎(chǔ)上,NLPCC 會議還希望成為一個平臺。
AI科技評論:做成什么平臺?
趙東巖:除了會議的論文報告、特邀報告之外,NLPCC會議還包括 ADL 講習(xí)班、系列技術(shù)評測、系列研討會以及工業(yè)論壇,形成了學(xué)術(shù)交流、技術(shù)研討和產(chǎn)學(xué)研交流的互動平臺。
ADL 講習(xí)班
目前 NLPCC 的學(xué)術(shù)大會是兩天,之前還有三天的講習(xí)班,邀請六位業(yè)界知名的專家就大家關(guān)心的熱點領(lǐng)域每人做三個小時的學(xué)術(shù)報告。我們強(qiáng)調(diào) ADL 是「提高班」,不只講前沿概念,還要介紹相對基礎(chǔ)和系統(tǒng)的學(xué)術(shù)研究進(jìn)展,同時也包括基于相關(guān)理論的研究和應(yīng)用實踐。參加這樣的 ADL 講習(xí)班不僅能學(xué)習(xí) NLP 領(lǐng)域的最新理論,還可以了解技術(shù)應(yīng)用方法與效果??傊?,除了開闊眼界,還能夠?qū)W到系統(tǒng)性的研究實踐方法,所以我們這個活動非常受歡迎。
根據(jù) CCF 的統(tǒng)計,除了學(xué)生,NLPCC 舉辦的 ADL 有 30-40% 的在職研究人員(包括工業(yè)界人士)參加,這其中還包括 10% 具有 10 年以上工作經(jīng)驗的資深專家。這意味著 NLPCC 的講習(xí)班有一定的深度和系統(tǒng)性。
研討班也會請一到兩個企業(yè)界的專家結(jié)合企業(yè)的實際情況,講解企業(yè)應(yīng)用 NLP 方法的工作。這樣的內(nèi)容也非常吸引學(xué)術(shù)界的老師和學(xué)生;他們有機(jī)會了解工業(yè)界的需求、挑戰(zhàn)和解決方案。組織這樣的講習(xí)班也能夠促進(jìn)產(chǎn)學(xué)研互動。
技術(shù)評測
結(jié)合 NLPCC 會議,專委會還設(shè)立了一系列的評測任務(wù),例如中英文問答、文本摘要與生成、詞義計算等等。這些評測都是當(dāng)前大家比較關(guān)注的任務(wù)。這些評測任務(wù)的組織不僅由學(xué)術(shù)界組織,也吸引許多公司參與,比如 CCF 與企業(yè)合作舉辦的關(guān)于實體識別和抽取的評測任務(wù)就把工業(yè)界的需求引入到評測任務(wù)中。
技術(shù)評測的好處是能夠激發(fā)學(xué)生實際動手能力。此外,NLPCC 每年都邀請參與評測任務(wù)的隊伍提交研究性論文,論述評測技術(shù),經(jīng)過嚴(yán)格評審后在 NLPCC 會議上發(fā)表;同時,組織技術(shù)評測研討會邀請評測成績優(yōu)秀的隊伍參加會議,做技術(shù)交流。這是 NLPCC 會議搭建的第二個平臺,引導(dǎo)參會者解決實際問題。
研討會
NLPCC 現(xiàn)在有兩個非常有特色的研討會:
1)學(xué)生研討會
為了幫助更多學(xué)生提高研究水平,NLPCC 舉辦了一個學(xué)生研討會(Student Workshop),吸引碩士生或高年級的本科生投稿單獨錄用并出版。研討會上,資深老師會評析 NLP 研究該怎么做,論文該怎么寫。此外,研討會還邀請在 NLP 領(lǐng)域取得突出成果的學(xué)生及剛剛畢業(yè)的老師介紹他們的經(jīng)驗。有資深老師的指導(dǎo),也有同年齡段的學(xué)長現(xiàn)身說法,即使稿件沒有被錄取,學(xué)生們依然愿意參加這樣的活動,以便進(jìn)一步提升 NLP 領(lǐng)域研究技能
2)企業(yè)研討會
另一方面,國內(nèi)很多有實力的公司在做 NLP 研究,并且研究投入比較大。作為會議的贊助商,公司愿意舉辦這樣的研討會(Workshop),例如今年的 Alibaba Workshop。企業(yè)的研究人員介紹自身需求和當(dāng)前面臨的問題,學(xué)術(shù)專家介紹相關(guān)研究的最新方法,雙方共同研討企業(yè)技術(shù)創(chuàng)新的解決之道。
這兩個研討會都取得了意想不到的結(jié)果,吸引了很多人。這是 NLPCC 會議提供的第三個平臺,它能夠有效地溝通學(xué)生與老師、企業(yè)與專家之間的聯(lián)系。
工業(yè)論壇
NLPCC 還嘗試組織了工業(yè)論壇,參與單位分別在論壇上就企業(yè)研發(fā)的 NLP 技術(shù)及應(yīng)用創(chuàng)新實踐做報告。例如,今年 NLPCC 2017 有五家主贊助商,分別為中譯語通、微信、阿里、思必馳和中國移動,通過工業(yè)論壇、大會報告和研討會等形式做了技術(shù)交流和分享,增進(jìn)了工業(yè)界與學(xué)術(shù)界的互動、為產(chǎn)學(xué)研合作與創(chuàng)新增添了一份動力。
AI科技評論:NLPCC 至今已經(jīng)舉辦了六屆,發(fā)展情況怎樣?
趙東巖:主要有這么幾個方面——
1、從數(shù)量上來看,論文投稿數(shù)量在穩(wěn)步提升,會議質(zhì)量把關(guān)也在變嚴(yán);參會人數(shù)也在穩(wěn)步增長;贊助商越來越多;
2、第三屆 NLPCC 會議轉(zhuǎn)為國際會議;
3、由于論文集的下載量較高,在第四屆 會議時 Springer 主動提出將 NLPCC 論文集由 CCIS 系列提升到 LNAI 系列出版;
4、AFNLP(亞洲自然語言處理聯(lián)合會)和 Springer(斯普林格出版社)分別提供了贊助,設(shè)立最佳學(xué)生論文獎和高引用論文獎(五年歷史最佳論文);Springer 是基于 NLPCC 論文集的質(zhì)量評估而主動提供贊助的,開創(chuàng)了 CCF 的先例。
論文投稿逐年上升(受2016年18.2%低錄取率的影響,2017年投稿數(shù)有所下降)
NLPCC會議對錄取論文的質(zhì)量有較高的把關(guān),錄取率相較國內(nèi)其他會議偏低
NLPCC主會注冊人數(shù)逐年增加,今年已增加到 400 多人
AI科技評論:現(xiàn)在已有 ACL 之類的頂會,國內(nèi)學(xué)生為什么要投稿 NLPCC 呢?
趙東巖:第一,NLPCC 會議跟國際頂會接軌,目前為止主要在國內(nèi)辦會。因此,學(xué)生可以花較少的費用,獲得世界一流的信息。這是吸引學(xué)生來開會的目的之一。例如,特邀報告、展示、論文、交流,還有各種求職的機(jī)會,都以很低的代價就獲得了。
第二,這個會議由 CCF 中文信息技術(shù)專委會組織的,專委會的老師們代表著我國 NLP 領(lǐng)域的研究水平,大家會鼓勵自己的學(xué)生投稿。
第三,NLPCC 會議建立了公正嚴(yán)格的審稿體系和獨立的獎勵委員會,錄用率與自然語言處理領(lǐng)域國際三大會議相當(dāng),錄用難度較高,參加這個會議的作者都具有很好的研究能力。參會者除了學(xué)習(xí)分享、開拓眼界,還能夠結(jié)交水平相當(dāng)?shù)呐笥?,一舉多得。
第四,NLPCC 會議得到了許多從事自然語言處理的優(yōu)秀企業(yè)的大力支持。參會企業(yè)都會精心準(zhǔn)備技術(shù)展覽、展示,分享技術(shù)創(chuàng)新需求和成果,組織學(xué)生們參與線上線下活動,并提供實習(xí)和工作機(jī)會。
所以對學(xué)生來講,參加 NLPCC 既有展示的機(jī)會、鍛煉的機(jī)會、交流的機(jī)會和提升的機(jī)會,也有找工作的機(jī)會。這就是我們這個會議能夠吸引他們的地方。
AI科技評論:目前有沒有國外學(xué)生投稿?
趙東巖:有,不算特別多。但是我們高興地看到幾年來每年都穩(wěn)定增長。我們相信未來隨著會議在中文計算的影響力不斷擴(kuò)大,國外投稿數(shù)目和參會人數(shù)都會成倍增長。
AI科技評論:大概占到什么比例?
趙東巖:通常都在 5% 左右。所以說在國際化方面我們還需要加強(qiáng)一些。
AI科技評論:怎么看這么低的國外投稿?
趙東巖:因為我們現(xiàn)在還是中國的會,再一個有中文計算的內(nèi)容,所以從國際化的角度講,他們覺得可能還稍微遠(yuǎn)了一點。但是我們在走向國際這條路上做了很好的嘗試,吸引了國外的學(xué)者或?qū)W生來參加我們的會。
第二,國際的學(xué)者和學(xué)生投稿雖然數(shù)量不多,但是確實每年都在增加,所以國際化程度也在提高。將來的話,我們希望能夠進(jìn)入到 CCF 推薦列表。進(jìn)入到列表后,我相信無論是中國的投稿量還是國外的投稿量都會大幅度增加。
AI科技評論:今年 NLPCC 有哪些亮點?
趙東巖:首先是特邀報告,今年我們邀請的兩位特邀講者后來也被 ACL 2017 請去做特邀報告。這也說明了 NLPCC 請人的眼光和專家對 NLPCC 會議的認(rèn)可。這是一個標(biāo)志。
愛丁堡大學(xué)信息學(xué)院教授Mirella Lapata,也是今年ACL的特邀講者(點擊圖片查看詳細(xì)信息)
第二,企業(yè)參與學(xué)術(shù)會議的互動質(zhì)量有了明顯的提升。無論在大會還是宴會上做報告,企業(yè)專注于介紹 NLP 需求和技術(shù),而不是廣告,并全部用英語報告,語言流暢。因此,我覺得中國的企業(yè)在研究創(chuàng)新能力上明顯增長,也更加重視與學(xué)術(shù)界的交流。
第三,參會者的積極性穩(wěn)步提高。今年參加主會和研討班(ADL/Tutorials)的總?cè)藬?shù)超過了 500 人。
第四,NLPCC 在學(xué)術(shù)質(zhì)量評價方面持續(xù)提升,英文稿件的投稿比例也越來越高(今年 NLPCC 2017 超過 了 5/6)。
第五,就是剛剛介紹的 Student Workshop 和企業(yè) Workshop。
第六,我們特別重視少數(shù)民族語言處理,鼓勵相關(guān)研究者多投稿,甚至由專委會拿錢資助從新疆、西藏、甘肅等西部地區(qū)的老師和學(xué)生來參會,來了解目前國際國內(nèi)自然語言處理的進(jìn)展情況,建立他們自己的朋友圈,幫助他們進(jìn)一步發(fā)展。這方面我們做了很多。
第七,也是非常重要的,今年我們首次頒發(fā)了杰出貢獻(xiàn)獎(清華大學(xué)黃昌寧)、青年新銳獎(北京大學(xué)萬小軍,蘇州大學(xué)李壽山)和 高引用論文獎。NLPCC 杰出貢獻(xiàn)獎每年 0 – 1 名,寧缺毋濫;青年新銳獎,每年兩名,目的是鼓勵年輕人多做努力,取得世界領(lǐng)先水平。高引用論文獎是頒發(fā)給過去五年內(nèi) NLPCC 會議出版論文中引用和質(zhì)量綜合評價最高的論文。
黃昌寧教授(中)獲杰出貢獻(xiàn)獎
AI科技評論:下次會議將在哪里舉辦?
趙東巖:在選擇承辦單位方面,由專委會全體會議提前兩年投票決定。因此,承辦單位有兩年時間籌備會議。明年 NLPCC 在呼和浩特舉辦(內(nèi)蒙古大學(xué),預(yù)期 8 月 26 日-30 日),后年在蘭州(西北民族大學(xué))。
AI科技評論:從這屆 NLPCC 會議考慮,下屆辦會有哪些新的特色?
趙東巖:首先,我們要繼續(xù)保持和提升會議的學(xué)術(shù)水平,為所有投稿作者和參會者提供高質(zhì)量的學(xué)術(shù)內(nèi)容和會議服務(wù),為與會者提供超值回報;同時,需要在此基礎(chǔ)上繼續(xù)擴(kuò)大國際化參與。這些肯定是我們需要堅持的。
第二,我們希望能給參會的工業(yè)界(包括贊助商),提供更好的服務(wù),讓他們能以更多的形式參與進(jìn)來。讓他們覺得參加這個會議物有所值,或者物超所值,能夠達(dá)到和超過他們的期望。
第三,我們希望進(jìn)一步提升 Student Workshop 的質(zhì)量,讓大家能夠更有興趣。
第四,因為首次在少數(shù)民族地區(qū)開會,為進(jìn)一步推廣少數(shù)民族語言處理工作些,專委會正在考慮設(shè)立一個少數(shù)民族語言處理獎。
AI科技評論:以后 NLPCC 會怎么發(fā)展?
趙東巖:我們想將 NLPCC 辦成一個有特色的會。世界上自然語言會議其實也有很多了,像 ACL、EMNLP、COLING。那么中國土生土長的自然語言國際會議應(yīng)該是什么樣的呢?是另外一個 ACL 嗎?不應(yīng)該是這樣,應(yīng)該有自己的特色。自己的特色其實就是要體現(xiàn)中文和中國。
人家說到中文的自然語言處理,首選就應(yīng)當(dāng)是中國自己辦的會,這個是理所應(yīng)當(dāng)。因為中國人就是搞中文的,你的會議就應(yīng)該是這個領(lǐng)域世界上最頂級的。這就是我們的目標(biāo),現(xiàn)在隨著中國國力增加,中文的世界化,越來越多人研究中文,學(xué)習(xí)中文,我相信中國自然語言的會,會越來越成為世界關(guān)注的焦點。
AI 科技評論總結(jié):隨著近幾年中國在人工智能(特別是 NLP 領(lǐng)域)研究上的崛起,在各種國際會議中出現(xiàn)越來越多中國人的面孔。但無論如何這樣的會議不是由中國發(fā)起,盡管在會議中會考慮到中國因素(例如 ACL 曾專門設(shè)立一個「中文計算語言學(xué)」的環(huán)節(jié)),但并不能很好地體現(xiàn)中國的發(fā)展。現(xiàn)在隨著中國綜合國力的提升,以及研究人員數(shù)量和水平的提升,中國已經(jīng)逐漸有能力辦起一個能夠展示自己水平的國際會議。伴隨著 NLPCC 這樣的會議的出現(xiàn),在未來不久想必會有更多由中國自己發(fā)起的國際性會議,并以此來引領(lǐng)學(xué)術(shù)的發(fā)展方向。
AI慕課學(xué)院近期推出了《NLP工程師入門實踐班:基于深度學(xué)習(xí)的自然語言處理》課程!
三大模塊,五大應(yīng)用,海外博士講師手把手教你入門NLP,更有豐富項目經(jīng)驗相授;算法+實踐,搭配典型行業(yè)應(yīng)用;隨到隨學(xué),專業(yè)社群,講師在線答疑!
課程地址:http://www.mooc.ai/course/427
加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。