0
雷鋒網 AI 科技評論按:近期中國計算機學會(CCF)舉辦的第六屆自然語言處理及中文計算大會(NLPCC 2017)在大連成功舉辦。作為國內 NLP 領域首個面向國際的大會,NLPCC 無論從會議的形式、參會的人數、還是報告的質量,都展現(xiàn)出了一副朝氣蓬勃的氣象,欲有引領中國 NLP 走向國際之勢。
為深入了解中國當前 NLP 的發(fā)展狀況及前景、CCF 在 NLP 方向的努力,以及 NLPCC 會議的發(fā)展情況,雷鋒網對 CCF 中文信息技術專委會主任、微軟亞洲研究院副院長周明(同時他也是中國中文信息學會(CIPS)的常務理事和國際計算語言學會 ACL 的候任主席)和 CCF 中文信息技術專委會秘書長、北京大學趙東巖教授(雷鋒網將隨后報道)進行了專訪。
本文主要內容為周明博士站在 CCF 中文信息技術專委會角度對 NLP 研究進展及中國 NLP 發(fā)展現(xiàn)狀及前景的深入介紹。他的開場白是這樣的:
目前各國政府(包括美國、德國、日本、中國等)都在制定一些人工智能的規(guī)劃,但中國對人工智能的規(guī)劃最為清楚。結合國務院的《中國人工智能發(fā)展規(guī)劃》(2017 年 7 月)和總書記《十九大報告》(2017 年 10 月)相關的內容,可以看出,中國把人工智能的發(fā)展規(guī)劃為兩個階段,第一個階段是 2020 年進入世界先進水平,第二個階段是 2030 年達到頂尖水平。
我們國內的自然語言處理,跟國家對人工智能的規(guī)劃基本上是同步的。也就是說,我們到2020年進入到世界先進水平,期待著在2030年達到世界頂尖水平。
先進水平跟頂級水平有什么大的差別呢?先進水平是你追隨世界最發(fā)達的國家,你也掌握所有的關鍵技術,但是你不是關鍵技術的提出者,也就是你不是領跑者;頂級水平實際上是你在領跑,你告訴全世界往哪個方向走,你提出了關鍵的理論模型,而別人在follow你。差就差在這一點。
在NLP領域,我們中國現(xiàn)在是很好的追隨者,國際上(主要是美國)一旦出現(xiàn)任何技術,我們馬上就學習掌握,而且快速應用起來,應用的比美國都不差?,F(xiàn)在差就差在我們不是最先提出這個技術和方法的。所以我們CCF 中文信息技術專委會認為現(xiàn)在我們也可以說基本上在世界先進水平了, 三年后即2020年將全面達到世界先進水平。在此基礎上,我們期待2030年達到世界頂級水平。這是我們的愿景。
以下為周明博士的深入講解,雷鋒網根據采訪內容作了不改變原意的精簡和編輯,以饗讀者。
雷鋒網:NLP在整個AI領域中處于什么樣的位置?
周明:近年來,人工智能由于大計算、大數據、算法模型(以深度學習為代表)以及落地場景四大要素的齊備,進入了一個高速發(fā)展的時期。其主要發(fā)展方向:感知智能和認知智能。
所謂感知智能,即視覺(圖像)、聽覺(語音)等的感知能力。大家都知道感知智能突飛猛進,像圖像識別的 ImageNet 的評測,語音識別的 Switchboard 評測等,它們都已經達到了甚至超過了人類在該測試集的水平。這方面的研究進展也推動了很多應用的發(fā)展,例如安防、人臉識別、物體檢測,以及語音識別在手機、智能家居等設備上的應用。
認知智能,通俗講就是「能理解會思考」。認知智能有很多東西,其內核包括語言智能、知識圖譜、用戶畫像等。在此基礎上,支持幾個方面的應用,例如智能寫作、聊天對話、詩歌創(chuàng)作、文本生成、游戲博弈等。有的做的很好,比如 AlphaGo 為代表的博弈系統(tǒng);但有的還差強人意。目前認知智能相對于感知智能總體上來講在引入深度學習方面落了半拍,但目前處于奮起直追的狀態(tài)。比如,神經機器翻譯的質量越來越好,聊天系統(tǒng)、人機對話也越來越好。
自然語言理解是處在認知智能最核心的地位。它的進步會引導知識圖譜的進步,會引導對用戶理解能力的增強,也會進一步推動整個推理能力。在此基礎上,聊天、解題、翻譯、對話等也都會得到進步。認知智能一旦進步,加上感知智能的進步,整體的人工智能就會進一步發(fā)展。
比爾·蓋茨曾經說「語言理解是人工智能皇冠上的明珠」,沈向洋博士也說過「懂語言者得天下」,都是在強調 NLP 的重要性。自然語言處理的技術會推動人工智能整體的進展,從而使得人工智能技術可以落地實用化。
雷鋒網:NLP在未來五到十年將會如何發(fā)展?
周明:大致有這么幾個方向:1)問答和閱讀理解的進步會使得搜索引擎更加精準;2)語音識別和神經機器翻譯會使得口語機器翻譯會完全實用;3)由于用戶畫像的精準和實時性的提高,推動信息服務和廣告更加自然、友好和個性化;4)聊天、問答和對話技術提高,推動自然語言會話達到實用;5)由于對話技術和知識圖譜的進步,使得智能客服與人工客服更加完美結合,從而大大提高客服效率;6)由于自然語言生成技術的進步,使得自動寫詩、作曲、自動生成新聞甚至小說會流行起來;7)人機對話的進步推動語音助手、物聯(lián)網、智能硬件、智能家居的普及;8)最后是 NLP+,就是 NLP 在金融、法律、教育、醫(yī)療等垂直領域得到廣泛應用。
以搜索引擎智能化為例。以前的搜索引擎,輸入關鍵詞返回來一堆東西,你需要自己去看。隨著自動問答、閱讀理解等能力的提高,現(xiàn)在的搜索引擎,你可以問個問題,句子長一點也不怕,它能夠分析這個問句,把答案從浩如煙海的文檔中找出來;甚至不只是給你一個文檔鏈接,它還能夠把答案直接給你,搜索引擎的結果也越來越精準。
雷鋒網:未來NLP研究需要關注哪些方向?
周明:我個人比較關心以下幾點:1)通過用戶畫像實現(xiàn)個性化服務;2)通過可解釋的學習洞察人工智能機理;3)通過知識與深度學習的結合提升學習效率;4)通過遷移學習實現(xiàn)領域自適應;5)通過強化學習實現(xiàn)不斷進化;6)通過無監(jiān)督學習充分利用未標注數據;7)多媒體和多模態(tài)之間的理解、問答、轉換。
雷鋒網:中國目前在NLP領域的發(fā)展處于什么樣的狀態(tài)?
周明:中國 NLP 的發(fā)展有兩個方面,一個是科研水平、一個是產業(yè)化。在 NLP 產業(yè)化方面,中國做的不錯,比如搜索引擎、電子商務、新聞網站、機器翻譯、智能音箱的技術體系中,NLP 居核心地位。我下面重點介紹一下中國 NLP 的科研水平。
以 ACL 為例,ACL 是世界上自然語言處理領域最高級別的學術會議。大概 20 年以前,中國沒有一篇 ACL 文章。在 1998 年,清華大學黃昌寧教授課題組發(fā)表了第一篇 ACL 文章。那時候中國在 NLP 方向的研究基礎薄弱,日本、韓國,甚至中國的臺灣、香港地區(qū)都比中國大陸在 ACL 上發(fā)表的文章多很多。
微軟中國研究院(注:后改名為微軟亞洲研究院)在 1998 年 11 月成立之后,大大地帶動了 NLP 在中國的發(fā)展。歷屆院長都號召大家要走向國際,鼓勵研究院的研究員們跟高校和有關學會合作,大家一起努力推動中國的研究水平。微軟研究院通過聯(lián)合實驗室、暑期學校、實習生計劃幫助中國培養(yǎng)了大批 NLP 人才。
同時 CIPS、CCF 等學會組織各類講習班、學術會議,引進國際先進的理論和技術,大大地促進了本土 NLP 的提高。在文章發(fā)表方面,中國 NLP 人士也不斷努力提高在 ACL 的影響力。中國政府在 NLP 領域通過自然科學基金、863 和 973 等計劃加強了投資和引導。通過各界的努力,經過過去 20 年左右的快速發(fā)展,中國已經成為 ACL 里排名第二的國家。
近五年來中國在 ACL 上的文章數量(包括長文和短文),穩(wěn)居第二位,僅次于美國。長文方面,跟美國的距離大概在 20 到 30 篇;同時遠超其他所有國家,包括日本、韓國、德國、英國等,原來中國是不能望這些國家的項背的。如果未來中國 ACL 長文數目持續(xù)增長,就有可能在三年內趕上美國。由于中國 NLP 發(fā)展勢頭良好,這是一個可以期待的目標。
若以華人的文章來算,2014 年華人第一作者的文章占 ACL 總文章數的 36%,之后逐年提高,今年是 40% 這里面除了中國本土的人士,很多是中國留學生。
從以上的數字看,中國的 ACL 文章確實已經躍居世界前列了。這是非常驚人的一個結果。20 年以前中國只有一篇 ACL 文章,而如今已經穩(wěn)居世界第二。
除了文章數量外,中國 ACL 文章的質量也有很大提高。比如 2017 年 ACL 的 22 篇杰出論文中,來自中國的五篇文章入列。
在國際活動的參與中,中國也越來越活躍。例如 ACL 執(zhí)委會有 13 位執(zhí)委,其中 3 位是來自中國,中國大陸有我和百度的趙世奇;我是 ACL 侯選主席(注:將于 2019 年上任),趙世奇是秘書長,來自臺灣的張景新是首席 IT 官。
另外,來自中國的贊助總數和贊助商的數目也接近美國;從參會人數上看,我們也是位居第二。
NLP 領域其他重要的會議,比如 COLING 或者 EMNLP,情況也大致類似。
所以中國是當之無愧的 NLP 第二強國。
CCF 在這里面做了很多貢獻。CCF 中文信息技術專委會組織了 NLPCC 這樣的學術大會,組織了 ADL 講座,組織了多次走進高校活動。在 NLPCC 大會上還專門組織了學生 workshop,講授如何做研究和寫論文。CCF 還跟 CIPS 緊密合作輪流主辦語言與智能峰會。這個峰會有效地促進 NLP 領域發(fā)展,提升它在社會上的影響力。
當然我們目前也有一些問題仍待改進。這表現(xiàn)在:1)在中國舉行的 NLP 領域的國際會議或活動較少;2)來自中國的 ACL 的會員比較少;3)在國際 NLP 大會中,來自中國的特邀報告、最佳論文、SIG 主席、workshop 主席、tutorial 講者等較少;4)來自中國的論文,雖然數量居第二,但是很多文章多多少少有追隨別人的味道,期待將來來自中國的文章可以更多地體現(xiàn)引領的趨勢。
雷鋒網:是哪些因素導致我國NLP迅速進展?
周明: 第一,整個國家在上升的趨勢發(fā)展,無論是工農業(yè),還是國民經濟或者綜合國力等。第二,我們跟國際接軌越來越好,比如我們的 NLPCC 大會的工作語言是英文,大會主席、程序委員會主席和各個領域主席,都設兩位共同主席,一位來自國內,一位來自國外。第三,中國的高校和公司通過培養(yǎng)和引進,吸納了大批優(yōu)秀的 NLP 人才。
尤其要提一下外企和國內互聯(lián)網企業(yè)對 ACL 的貢獻。比如,微軟亞洲研究院跟國內和亞洲地區(qū)很多高校全方位的合作包括暑期學校聯(lián)合實驗室聯(lián)合培養(yǎng)博士生、實習生計劃等等,培養(yǎng)了大批 NLP 人才。比如 18 年來微軟研究院培養(yǎng)的 NLP 領域的實習生已經有 450 人之多。這些人來自全國各地,經過在微軟實習鍛煉后,又回到各個高校,然后加入公司或者學校任職,成為領軍任務,又帶動下一波人才的成長,不斷推動這個領域的發(fā)展。
應該指出的是,百度、阿里、騰訊、京東、今日頭條等大型互聯(lián)網公司,以及很多新銳公司(比如出門問問、國雙、奇點機智、小牛翻譯、思必馳、新華智云等許多公司)也在各方面對國內 NLP 發(fā)展做出了非常大的貢獻。我代表 CCF,非常的感謝這些國內外企業(yè)對 NLP 領域的發(fā)展和取得的進步做出的貢獻。
雷鋒網:NLP領域日、韓等國比中國發(fā)展的更早一些,為什么現(xiàn)在相對中國它們會落后很多呢?
周明:我認為有幾個因素。第一個因素就是互聯(lián)網時代中國抓住了中國互聯(lián)網的發(fā)展和機遇,很多其他國家在互聯(lián)網方面(尤其是移動互聯(lián)網、電子商務、搜索等方面)相對落后。舉個例子,很多國家沒有自己的搜索引擎,而中國有很多,像百度、搜狗以及微軟本地化的必應。搜索引擎對自然語言的推動作用非常之大,因為它對問題理解、文章理解、問答、翻譯的需求,促進了相關 NLP 技術的發(fā)展。同時它的巨大經濟價值,也吸引了很多人在這個領域投資做研究,做產業(yè)化。一個國家沒有搜索引擎,NLP 方面自然就會落后。
另一個因素是數據。中國擁有世界上最大的數據,有 8 億多移動互聯(lián)網用戶,有大量的電子商務數據,這些數據會幫助研究和技術的發(fā)展。
第三是政府在這方面的作用。國家在世界經濟鏈條中的地位,會導致在互聯(lián)網和移動互聯(lián)網的時代,尤其是現(xiàn)在的人工智能時代所擁有的地位。中國現(xiàn)在由于是 GDP 第二大國,在互聯(lián)網時代趕上了這個潮流,尤其在移動互聯(lián)網時代中國甚至引領了潮流。中國政府制定相關的規(guī)劃,支持并引領技術和產業(yè)的發(fā)展。所以期待在人工智能時代中國能夠超越其他國家,成為頂級的人工智能發(fā)達國家。跟人工智能有關的研究也會得到相應的帶動,包括 NLP。
雷鋒網:除中、美外,NLP領域哪些國家做的比較好?
周明:如果按 ACL 算,美國、中國、英國、德國、日本、韓國、加拿大都有自己的特色。英國的愛丁堡大學、牛津大學他們在自然語言研究方面有很好的特色。
NLP 在加拿大也有很好的發(fā)展。雖然它從事自然語言的人相對較少,中國僅北京地區(qū)搞 NLP 的人就遠比整個加拿大從事 NLP 的多很多,但是它提出了很多引領世界的方法,比如用于神經機器翻譯、機器閱讀理解的新方法。在理論創(chuàng)新方面值得中國學習。
雷鋒網:中國下一步該如何提升自己在NLP方向的研究或者應用?
周明:這要從幾個方面來說。
首先,我覺得要抓住中國發(fā)展的良機。1)數字化轉型?,F(xiàn)在中國講究數字化轉型,各企業(yè)、各行業(yè)要數字化,有了數字化你才能有人工智能。但很多企業(yè)連數字化都沒有做好,所以這里孕育著很多機會。2)AI 熱潮。AI 熱潮帶動市場投資需求,人才、數據進一步發(fā)展,這是一個非常好的良機,所有搞 NLP 的人應該乘勢而上。
其次,要抓好普及。雖然我們國內有很多搞 NLP 的高校,但是有很多學校還屬于相對落后,對最新的技術理解不夠,很多高校(尤其西部高校)基礎相對薄弱,所以我們要搞好普及。CCF 專委會專門有一個工作小組,叫「走進高校小組」。響應 CCF 的號召,我們自然語言學者也走進高校。我們已經去了很多高校(例如西藏大學),去講授人工智能、自然語言的發(fā)展、最新的的技術等,呼吁更多的學生學習人工智能和自然語言。
雷鋒網注:AI 科技評論公眾號(ID:aitechtalk)某篇代表性的AI 文章的閱讀分布,西部地區(qū)常常呈兩位數(甚至個位數)的狀態(tài)。這某種程度上也反映了國內 AI 工作者的分布情況。
第三,拔尖人才的吸引和培養(yǎng)。首先,吸引國際拔尖人才到中國來,通過回國參加會議或者合作,了解中國的發(fā)展現(xiàn)狀,加強和國內高校和企業(yè)的交流,最終希望能有一部分人才被國內的發(fā)展機會吸引從而留下來。另外更加重要的是,通過學校的學位培養(yǎng)模式,同時利用公司的實習渠道,來培養(yǎng)更多具備扎實的理論基礎和實戰(zhàn)經驗的優(yōu)秀人才,甚至高水平的領軍人才。
第四,促進我們中國的研究走向國際化。包括 CCF 辦的 NLPCC。過去幾年都是在中國舉辦,未來我們也會考慮到新加坡、日本、韓國,甚至美國去開會,把我們中國原生的研究帶到全世界去,尤其是要引領在國際中文計算領域的潮流。
第五,加強創(chuàng)新。包括 1)理論創(chuàng)新。例如發(fā)展無監(jiān)督的機器學習算法,利用上下文和用戶畫像來增強 NLP 任務建模,綜合知識和數據來提升 NLP 系統(tǒng)的能力等等;2)開辟學科交叉的新領域,比如 NLP 和圖像和視頻的交叉。還有深入研究 NLP 在重要的垂直領域的廣泛應用;3)產品創(chuàng)新,通過軟硬件結合,結合具體場景,提升用戶體驗。
第六,要注重數據和工具共享,注重評測。CCF 以及我們的中文計算專委會目前已經專門成立了數據工作組,把數據分享給大家來使用,做訓練、做評測等。比如 NLPCC2017 所組織的詞匯語音關系識別、短文本分類、單文檔文摘、問答和用戶畫像吸引了很多學校和公司參加。
第七,促進產學研大協(xié)作。通過 CCF 以及其他一些平臺,吸引工業(yè)界的人士加入到我們的研究過程中,通過各種合作來促進公司的產業(yè)發(fā)展,也同時促進高校的學術發(fā)展。
最后,就是中國要考慮在國際會議和組織中發(fā)揮更大的影響力。包括多組織和承辦國際一流會議,多爭取擔任國際一流學會的執(zhí)委會委員、大會主席,程序委員會主席和領域主席,把中國的影響力更多地發(fā)揮出來。
需要指出的是,雖然中國 NLP 發(fā)展勢頭良好,但是我們還面臨很多困難。需要政府、學校、科研機構、公司、有關學會還有社會各界人士繼續(xù)努力。尤其是加強理論創(chuàng)新、探索學科交叉和垂直領域的新機會,才能逐步從跟隨者到引領著過渡。我相信,如果所有這些措施都能夠很好地落實,下一步中國的 NLP 一定會穩(wěn)步地向更高的目標發(fā)展,最終一定會躋身于世界 NLP 的頂尖水平。
AI慕課學院近期推出了《NLP工程師入門實踐班:基于深度學習的自然語言處理》課程!
三大模塊,五大應用,海外博士講師手把手教你入門NLP,更有豐富項目經驗相授;算法+實踐,搭配典型行業(yè)應用;隨到隨學,專業(yè)社群,講師在線答疑!
課程地址:http://www.mooc.ai/course/427
加入AI慕課學院人工智能學習交流QQ群:624413030,與AI同行一起交流成長
相關文章:
微軟副院長周明:NLP目前存在的問題、以及未來的發(fā)展方向
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。