0
雷鋒網 AI 科技評論按:在自然語言處理(NLP)領域工作的學者(學生)可能無人不知 ACL、EMNLP 這樣的 NLP 頂會,但國內發(fā)起的這個 NLP 國際會議盡管已經舉辦六屆,可能還沒有引起所有人的注意。
近期中國計算機學會(CCF)舉辦的第六屆國際自然語言處理及中文計算會議(NLPCC 2017)在大連成功舉辦。作為國內 NLP 領域首個面向國際的學術大會,NLPCC 無論從會議的形式、參會的人數(500+)、還是報告的質量(錄取率21%),都展現出了一副朝氣蓬勃的氣象,欲有引領中國 NLP 走向國際之勢。
NLPCC 2017會議之后雷鋒網采訪了CCF 中文信息技術專委會主任、微軟亞洲研究院副院長周明(同時他也是中國中文信息學會(CIPS)的常務理事和國際計算語言學會 ACL 的候任主席)和CCF 中文信息技術專委會秘書長、北京大學趙東巖研究員。周明博士主要介紹了中國 NLP 的研究現狀,及中國在未來需要如何做才能躋身世界頂尖水平甚至引領世界潮流。詳細內容見《專訪MSRA副院長周明:中國NLP如何躋身世界頂尖水平?》。
本文內容為雷鋒網對趙東巖研究員的專訪。趙東巖研究員向我們詳細講述了 NLPCC 作為一個新興會議為何有如此朝氣。他認為隨著中國綜合國力的增加,中文的世界化,將會有越來越多的人學習中文、研究中文,中國人在中文的自然語言處理的會議應當成為這個領域世界上最頂級的,我們有必要也有能力辦這樣頂級的會議。
以下為趙東巖研究員的深入講解,雷鋒網根據采訪內容作了不改變原意的精簡和編輯。
北京大學 趙東巖研究員
NLPCC 全稱為CCF國際自然語言處理與中文計算會議,英文為 Natural Language Processing and Chinese Computing。會議由中國計算機學會(CCF)主辦,CCF 中文信息技術專業(yè)委員會(CCF TCCI)及高校(每年通過投票選舉)承辦。會議內容主要圍繞自然語言處理(NLP)和中文計算(CC)兩方面來進行。
該會議秉承國際化和一流化的嚴格標準,每年一度在全國各城市舉行,盡管只有六年的時間,但儼然已經成為國內自然語言處理領域的年度盛會(NLPCC 2017 總參會人數有 500 人之多),同時也在逐漸走向國際化道路。
NLPCC 會議包括多個技術評測、學科前沿講習班(ADL)、主會(含特邀報告 Keynote、論文報告 Oral墻報 Poster、研討會 Workshop)等活動。其特點在于以下三個方面:
1、它是國內首個 NLP 領域的國際會議;
2、它是國際上中文計算領域的首選;
3、它的所有流程嚴格按照國際頂級會議的要求執(zhí)行,同時又具有自己的特色。
AI科技評論:為什么要舉辦這樣一個面向國際的 NLP 會議呢?
趙東巖:主要基于三點考慮——
1)我們有條件辦一個NLP領域的高水平國際會議。近幾年我們國內的學者在 NLP 領域的研究水平已經達到世界先進水平,穩(wěn)居世界第二的位置。因此國內研究的質量和水平有條件讓我們辦好這樣一個有水準的國際會議。
2)通過會議進一步促進和提高國內學者(包括學生)的研究水平。NLPCC 會議在會議組織、審稿以及舉辦的整個流程上完全按照國際頂級會議的模式來進行,讓每一個參與的人都能夠得到很多收獲。例如,會議全程使用英語交流和討論,任何參加過會議的人再參加 ACL、EMNLP 這樣的會議時就不會怵。
3)我們希望能夠做一個由中國舉辦的有世界影響力的學術會議。近年來,我們在《Science》或《Nature》等國外頂級期刊上發(fā)表文章越來越多,然而由中國學術機構主辦的高水平會議和期刊還很鮮見,這樣的現象應該扭轉。我們希望通過舉辦這個會議,通過規(guī)范化的組織、高水平的管理和對論文質量的嚴格把關,使它能夠成為展示中國學術界研究水平和中國學術組織在學術管理、學術創(chuàng)新方面實力的窗口或者標志。
AI科技評論:NLPCC 有沒有進入 CCF 推薦排名?
趙東巖:現在還沒有,這正是我們努力的目標。
AI科技評論:NLPCC 相比國內其他 NLP 領域的會議有什么區(qū)別?
趙東巖:以舉辦高水平國際學術會議為目標,中文信息技術專委會希望NLPCC能夠在論文質量、學術水平和國際化方面做出特色。所以專委會有這樣幾個舉措:
第一,錄用論文確保高質量。學術會議的核心機構是負責評審和錄用稿件的程序委員會,這個委員會是保證會議論文質量和學術水平的關鍵。NLPCC的程序委員會一開始就是按照國際化方式來組織:由國內和國外的一線知名學者和專家共同組成。審稿方面主要借鑒了 ACL 的模式:每篇稿件至少有三個審稿人基于回避制進行審稿;審稿人使用國際審稿系統(tǒng)獨立評審、打分,將評審意見提交給領域出席;領域主席由國內和海外兩名專家共同擔當,領域主席按照打分和評審意見決定錄用論文的基本排名;隨后由程序委員會主席、領域主席以及大會主席等舉行審稿會(decision meeting),按照錄用論文的指導比例(25%)決定錄用哪些稿件。雖然錄取稿件的比例線控制在 25% ,但為了確保質量,幾位主席會對錄用線附近的論文(borderline papers)進行嚴格篩選,所以一般大會的錄用率都會低于25%。
第二,辦會規(guī)范看齊國際一流會議。這體現在兩點,一個是NLPCC會議的組織委員會和程序委員會都是由一流的國際和國內一線專家共同組成;另一個是會議流程上我們完全參照國際一流會議的形式來舉辦。
第三,會議組織服務做到精細化。我們在組織和服務方面做了精細化安排。例如,每次會議均制作了內容嚴謹豐富、排版規(guī)范美觀的會議手冊,同時會議為所有參會人員都給予貼心的服務以及旅行資助和注冊參會資助;此外會議還非常注重對贊助機構的服務。
作為中文信息技術專委會的年度學術會議,我們希望NLPCC不斷提高會議質量和學術影響力質量。因此,從第三年開始,NLPCC就轉為國際會議,會議全程使用英文交流。
趙東巖:在嚴格把關論文錄取率、辦好學術大會(Conference)的基礎上,NLPCC 會議還希望成為一個平臺。
AI科技評論:做成什么平臺?
趙東巖:除了會議的論文報告、特邀報告之外,NLPCC會議還包括 ADL 講習班、系列技術評測、系列研討會以及工業(yè)論壇,形成了學術交流、技術研討和產學研交流的互動平臺。
ADL 講習班
目前 NLPCC 的學術大會是兩天,之前還有三天的講習班,邀請六位業(yè)界知名的專家就大家關心的熱點領域每人做三個小時的學術報告。我們強調 ADL 是「提高班」,不只講前沿概念,還要介紹相對基礎和系統(tǒng)的學術研究進展,同時也包括基于相關理論的研究和應用實踐。參加這樣的 ADL 講習班不僅能學習 NLP 領域的最新理論,還可以了解技術應用方法與效果。總之,除了開闊眼界,還能夠學到系統(tǒng)性的研究實踐方法,所以我們這個活動非常受歡迎。
根據 CCF 的統(tǒng)計,除了學生,NLPCC 舉辦的 ADL 有 30-40% 的在職研究人員(包括工業(yè)界人士)參加,這其中還包括 10% 具有 10 年以上工作經驗的資深專家。這意味著 NLPCC 的講習班有一定的深度和系統(tǒng)性。
研討班也會請一到兩個企業(yè)界的專家結合企業(yè)的實際情況,講解企業(yè)應用 NLP 方法的工作。這樣的內容也非常吸引學術界的老師和學生;他們有機會了解工業(yè)界的需求、挑戰(zhàn)和解決方案。組織這樣的講習班也能夠促進產學研互動。
技術評測
結合 NLPCC 會議,專委會還設立了一系列的評測任務,例如中英文問答、文本摘要與生成、詞義計算等等。這些評測都是當前大家比較關注的任務。這些評測任務的組織不僅由學術界組織,也吸引許多公司參與,比如 CCF 與企業(yè)合作舉辦的關于實體識別和抽取的評測任務就把工業(yè)界的需求引入到評測任務中。
技術評測的好處是能夠激發(fā)學生實際動手能力。此外,NLPCC 每年都邀請參與評測任務的隊伍提交研究性論文,論述評測技術,經過嚴格評審后在 NLPCC 會議上發(fā)表;同時,組織技術評測研討會邀請評測成績優(yōu)秀的隊伍參加會議,做技術交流。這是 NLPCC 會議搭建的第二個平臺,引導參會者解決實際問題。
研討會
NLPCC 現在有兩個非常有特色的研討會:
1)學生研討會
為了幫助更多學生提高研究水平,NLPCC 舉辦了一個學生研討會(Student Workshop),吸引碩士生或高年級的本科生投稿單獨錄用并出版。研討會上,資深老師會評析 NLP 研究該怎么做,論文該怎么寫。此外,研討會還邀請在 NLP 領域取得突出成果的學生及剛剛畢業(yè)的老師介紹他們的經驗。有資深老師的指導,也有同年齡段的學長現身說法,即使稿件沒有被錄取,學生們依然愿意參加這樣的活動,以便進一步提升 NLP 領域研究技能
2)企業(yè)研討會
另一方面,國內很多有實力的公司在做 NLP 研究,并且研究投入比較大。作為會議的贊助商,公司愿意舉辦這樣的研討會(Workshop),例如今年的 Alibaba Workshop。企業(yè)的研究人員介紹自身需求和當前面臨的問題,學術專家介紹相關研究的最新方法,雙方共同研討企業(yè)技術創(chuàng)新的解決之道。
這兩個研討會都取得了意想不到的結果,吸引了很多人。這是 NLPCC 會議提供的第三個平臺,它能夠有效地溝通學生與老師、企業(yè)與專家之間的聯系。
工業(yè)論壇
NLPCC 還嘗試組織了工業(yè)論壇,參與單位分別在論壇上就企業(yè)研發(fā)的 NLP 技術及應用創(chuàng)新實踐做報告。例如,今年 NLPCC 2017 有五家主贊助商,分別為中譯語通、微信、阿里、思必馳和中國移動,通過工業(yè)論壇、大會報告和研討會等形式做了技術交流和分享,增進了工業(yè)界與學術界的互動、為產學研合作與創(chuàng)新增添了一份動力。
AI科技評論:NLPCC 至今已經舉辦了六屆,發(fā)展情況怎樣?
趙東巖:主要有這么幾個方面——
1、從數量上來看,論文投稿數量在穩(wěn)步提升,會議質量把關也在變嚴;參會人數也在穩(wěn)步增長;贊助商越來越多;
2、第三屆 NLPCC 會議轉為國際會議;
3、由于論文集的下載量較高,在第四屆 會議時 Springer 主動提出將 NLPCC 論文集由 CCIS 系列提升到 LNAI 系列出版;
4、AFNLP(亞洲自然語言處理聯合會)和 Springer(斯普林格出版社)分別提供了贊助,設立最佳學生論文獎和高引用論文獎(五年歷史最佳論文);Springer 是基于 NLPCC 論文集的質量評估而主動提供贊助的,開創(chuàng)了 CCF 的先例。
論文投稿逐年上升(受2016年18.2%低錄取率的影響,2017年投稿數有所下降)
NLPCC會議對錄取論文的質量有較高的把關,錄取率相較國內其他會議偏低
NLPCC主會注冊人數逐年增加,今年已增加到 400 多人
AI科技評論:現在已有 ACL 之類的頂會,國內學生為什么要投稿 NLPCC 呢?
趙東巖:第一,NLPCC 會議跟國際頂會接軌,目前為止主要在國內辦會。因此,學生可以花較少的費用,獲得世界一流的信息。這是吸引學生來開會的目的之一。例如,特邀報告、展示、論文、交流,還有各種求職的機會,都以很低的代價就獲得了。
第二,這個會議由 CCF 中文信息技術專委會組織的,專委會的老師們代表著我國 NLP 領域的研究水平,大家會鼓勵自己的學生投稿。
第三,NLPCC 會議建立了公正嚴格的審稿體系和獨立的獎勵委員會,錄用率與自然語言處理領域國際三大會議相當,錄用難度較高,參加這個會議的作者都具有很好的研究能力。參會者除了學習分享、開拓眼界,還能夠結交水平相當的朋友,一舉多得。
第四,NLPCC 會議得到了許多從事自然語言處理的優(yōu)秀企業(yè)的大力支持。參會企業(yè)都會精心準備技術展覽、展示,分享技術創(chuàng)新需求和成果,組織學生們參與線上線下活動,并提供實習和工作機會。
所以對學生來講,參加 NLPCC 既有展示的機會、鍛煉的機會、交流的機會和提升的機會,也有找工作的機會。這就是我們這個會議能夠吸引他們的地方。
AI科技評論:目前有沒有國外學生投稿?
趙東巖:有,不算特別多。但是我們高興地看到幾年來每年都穩(wěn)定增長。我們相信未來隨著會議在中文計算的影響力不斷擴大,國外投稿數目和參會人數都會成倍增長。
AI科技評論:大概占到什么比例?
趙東巖:通常都在 5% 左右。所以說在國際化方面我們還需要加強一些。
AI科技評論:怎么看這么低的國外投稿?
趙東巖:因為我們現在還是中國的會,再一個有中文計算的內容,所以從國際化的角度講,他們覺得可能還稍微遠了一點。但是我們在走向國際這條路上做了很好的嘗試,吸引了國外的學者或學生來參加我們的會。
第二,國際的學者和學生投稿雖然數量不多,但是確實每年都在增加,所以國際化程度也在提高。將來的話,我們希望能夠進入到 CCF 推薦列表。進入到列表后,我相信無論是中國的投稿量還是國外的投稿量都會大幅度增加。
AI科技評論:今年 NLPCC 有哪些亮點?
趙東巖:首先是特邀報告,今年我們邀請的兩位特邀講者后來也被 ACL 2017 請去做特邀報告。這也說明了 NLPCC 請人的眼光和專家對 NLPCC 會議的認可。這是一個標志。
愛丁堡大學信息學院教授Mirella Lapata,也是今年ACL的特邀講者(點擊圖片查看詳細信息)
第二,企業(yè)參與學術會議的互動質量有了明顯的提升。無論在大會還是宴會上做報告,企業(yè)專注于介紹 NLP 需求和技術,而不是廣告,并全部用英語報告,語言流暢。因此,我覺得中國的企業(yè)在研究創(chuàng)新能力上明顯增長,也更加重視與學術界的交流。
第三,參會者的積極性穩(wěn)步提高。今年參加主會和研討班(ADL/Tutorials)的總人數超過了 500 人。
第四,NLPCC 在學術質量評價方面持續(xù)提升,英文稿件的投稿比例也越來越高(今年 NLPCC 2017 超過 了 5/6)。
第五,就是剛剛介紹的 Student Workshop 和企業(yè) Workshop。
第六,我們特別重視少數民族語言處理,鼓勵相關研究者多投稿,甚至由專委會拿錢資助從新疆、西藏、甘肅等西部地區(qū)的老師和學生來參會,來了解目前國際國內自然語言處理的進展情況,建立他們自己的朋友圈,幫助他們進一步發(fā)展。這方面我們做了很多。
第七,也是非常重要的,今年我們首次頒發(fā)了杰出貢獻獎(清華大學黃昌寧)、青年新銳獎(北京大學萬小軍,蘇州大學李壽山)和 高引用論文獎。NLPCC 杰出貢獻獎每年 0 – 1 名,寧缺毋濫;青年新銳獎,每年兩名,目的是鼓勵年輕人多做努力,取得世界領先水平。高引用論文獎是頒發(fā)給過去五年內 NLPCC 會議出版論文中引用和質量綜合評價最高的論文。
黃昌寧教授(中)獲杰出貢獻獎
AI科技評論:下次會議將在哪里舉辦?
趙東巖:在選擇承辦單位方面,由專委會全體會議提前兩年投票決定。因此,承辦單位有兩年時間籌備會議。明年 NLPCC 在呼和浩特舉辦(內蒙古大學,預期 8 月 26 日-30 日),后年在蘭州(西北民族大學)。
AI科技評論:從這屆 NLPCC 會議考慮,下屆辦會有哪些新的特色?
趙東巖:首先,我們要繼續(xù)保持和提升會議的學術水平,為所有投稿作者和參會者提供高質量的學術內容和會議服務,為與會者提供超值回報;同時,需要在此基礎上繼續(xù)擴大國際化參與。這些肯定是我們需要堅持的。
第二,我們希望能給參會的工業(yè)界(包括贊助商),提供更好的服務,讓他們能以更多的形式參與進來。讓他們覺得參加這個會議物有所值,或者物超所值,能夠達到和超過他們的期望。
第三,我們希望進一步提升 Student Workshop 的質量,讓大家能夠更有興趣。
第四,因為首次在少數民族地區(qū)開會,為進一步推廣少數民族語言處理工作些,專委會正在考慮設立一個少數民族語言處理獎。
AI科技評論:以后 NLPCC 會怎么發(fā)展?
趙東巖:我們想將 NLPCC 辦成一個有特色的會。世界上自然語言會議其實也有很多了,像 ACL、EMNLP、COLING。那么中國土生土長的自然語言國際會議應該是什么樣的呢?是另外一個 ACL 嗎?不應該是這樣,應該有自己的特色。自己的特色其實就是要體現中文和中國。
人家說到中文的自然語言處理,首選就應當是中國自己辦的會,這個是理所應當。因為中國人就是搞中文的,你的會議就應該是這個領域世界上最頂級的。這就是我們的目標,現在隨著中國國力增加,中文的世界化,越來越多人研究中文,學習中文,我相信中國自然語言的會,會越來越成為世界關注的焦點。
AI 科技評論總結:隨著近幾年中國在人工智能(特別是 NLP 領域)研究上的崛起,在各種國際會議中出現越來越多中國人的面孔。但無論如何這樣的會議不是由中國發(fā)起,盡管在會議中會考慮到中國因素(例如 ACL 曾專門設立一個「中文計算語言學」的環(huán)節(jié)),但并不能很好地體現中國的發(fā)展?,F在隨著中國綜合國力的提升,以及研究人員數量和水平的提升,中國已經逐漸有能力辦起一個能夠展示自己水平的國際會議。伴隨著 NLPCC 這樣的會議的出現,在未來不久想必會有更多由中國自己發(fā)起的國際性會議,并以此來引領學術的發(fā)展方向。
AI慕課學院近期推出了《NLP工程師入門實踐班:基于深度學習的自然語言處理》課程!
三大模塊,五大應用,海外博士講師手把手教你入門NLP,更有豐富項目經驗相授;算法+實踐,搭配典型行業(yè)應用;隨到隨學,專業(yè)社群,講師在線答疑!
課程地址:http://www.mooc.ai/course/427
加入AI慕課學院人工智能學習交流QQ群:624413030,與AI同行一起交流成長
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。