0
本文作者: camel | 2018-06-02 17:03 | 專題:2018 CCF-GAIR 全球人工智能與機器人峰會 |
雷鋒網(wǎng) AI 科技評論按:近期由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦的全球人工智能與機器人峰會(CCF-GAIR)將于 6 月底在深圳舉辦,其中 哈爾濱工業(yè)大學(xué)劉挺教授 將擔(dān)任自然語言處理專場主席。
雷鋒網(wǎng)了解到,劉挺教授作為國內(nèi) NLP 方向的領(lǐng)軍人物,其 Google Scholar 總引用率高達 8412 次,頂會論文總量世界排名第八。其所帶領(lǐng)的哈工大社會計算與信息檢索研究中心(HIT-SCIR)已然成為國內(nèi)頂尖 NLP 研究機構(gòu)之一,在 NLP 領(lǐng)域具有極高的影響力,推出了語言技術(shù)平臺、大詞林等一大批核心技術(shù)。此外,該中心先后培養(yǎng)出 200 多名學(xué)生,廣泛分布于百度、騰訊、阿里、微軟、訊飛等企業(yè),為國內(nèi) NLP 的研究和落地貢獻了有生力量。
近期,哈工大 SCIR 也動作頻繁。進入 2018 年后,哈工大 SCIR 先后有近 20 篇論文被各大頂會錄用;今年 2 月初,劉挺教授出任云孚科技首席科學(xué)家;5 月初,哈工大成立人工智能研究院,劉挺教授擔(dān)任研究院副院長。
由此自然的問題是,作為全國頂尖的NLP研究重鎮(zhèn),SCIR 在做什么?他們有什么樣的研究思路和規(guī)劃?作為該中心的帶頭人,劉挺教授對 NLP 的研究前景有什么思考?對實驗室的未來有何布局?在他看來,NLP 又該如何做研究?
雷鋒網(wǎng)藉此 CCF-GAIR 大會的機會有幸針對這些疑問對劉挺教授進行了專訪,深入探究了哈工大 SCIR 發(fā)展的基本理念以及劉挺教授對相關(guān)問題的思考。其大的思想格局無論是對 NLP 研究的資深學(xué)者還是對初步入這一領(lǐng)域的學(xué)生都有極大的參考價值。
下面為雷鋒網(wǎng)根據(jù)采訪內(nèi)容整理而成,在不改變原意的情況下略有改動,以饗讀者。
劉挺,哈爾濱工業(yè)大學(xué)教授,哈爾濱工業(yè)大學(xué)人工智能研究院副院長,計算機學(xué)院社會計算與信息檢索研究中心主任,云孚科技首席科學(xué)家。哈工大人工智能與中文信息處理方向帶頭人,主要研究方向為自然語言處理和社會計算;國家“萬人計劃”科技創(chuàng)新領(lǐng)軍人才;中國計算機學(xué)會理事、中國中文信息學(xué)會常務(wù)理事,多次擔(dān)任國家863重點項目總體組專家、基金委會評專家;主持研制“語言技術(shù)平臺LTP”、“大詞林”等,被業(yè)界廣泛使用;曾獲國家科技進步二等獎、省科技進步一等獎、錢偉長中文信息處理科學(xué)技術(shù)一等獎等;2012-2017年NLP頂級會議論文數(shù),世界排名第8(據(jù)劍橋大學(xué)統(tǒng)計)。
劉挺:作為大學(xué)里的實驗室,我們始終把人才培養(yǎng)和學(xué)術(shù)研究放在最重要的位置上,過去如此,未來也將如此。2018 年,到目前為止,我實驗室已經(jīng)有 12 篇論文被頂級國際會議(CCF A 類)錄取,包括 5 篇 IJCAI,4 篇 AAAI 和 3 篇 ACL,另有 8 篇論文被重要國際會議錄取,包括 6 篇 Coling 和 2 篇 NAACL。
哈工大被譽為培養(yǎng)「工程師的搖籃」,我們實驗室一貫重視學(xué)術(shù)界與工業(yè)界的無縫對接,致力于做出「頂天立地」的科研成果。為了更好地推進成果轉(zhuǎn)化,實現(xiàn)「以中文技術(shù),助民族復(fù)興」的理想,2018 年 2 月,我們正式與云孚科技(北京)有限公司開啟全面深入的合作,我本人兼任了該公司的首席科學(xué)家,不過,我的工作重心仍然在學(xué)校,在學(xué)術(shù)界。
劉挺:最近一年多,在原有工作基礎(chǔ)上,我們在科研和系統(tǒng)開發(fā)方面又有了很多進展。我介紹兩個最有代表性的工作吧,一個是事理圖譜,一個是對話技術(shù)平臺(DTP)。
我們原創(chuàng)性地提出了事理圖譜的概念。事理圖譜是一個事理邏輯知識庫,描述事件之間的演化規(guī)律和模式。舉例說明:一個人買房子,買完房子下一步就是裝修,裝修完了就會買家具,這是順承關(guān)系鏈。再舉一例:汽油價格上漲會導(dǎo)致航空公司成本提高,利潤下降,以至于股票價格下跌,這是因果關(guān)系鏈。知識圖譜的研究對象為名詞性實體及其關(guān)系,而事理圖譜的研究對象是謂詞性事件及其關(guān)系。知識圖譜主要知識形式是實體屬性和關(guān)系,事理圖譜則是事理邏輯關(guān)系以及概率轉(zhuǎn)移信息。實體之間的關(guān)系基本是穩(wěn)定的,而事件間的演化關(guān)系多數(shù)是不確定的。事理圖譜概念是對知識圖譜概念自然地補充和拓展,是知識描述的一個更高級的階段,符合產(chǎn)業(yè)界的客觀需求。所以,事理圖譜的概念一經(jīng)提出,就得到了業(yè)界的認可。我們在事理圖譜方面的研究工作發(fā)表在頂級國際會議 WSDM2017 和 IJCAI2018 上面,同時,我們還在開發(fā)出金融領(lǐng)域事理圖譜,該事理圖譜包含了 1,542,516 個事件節(jié)點以及 1,873,140 條因果邊。未來我們一方面還會在事理圖譜的研究方向上深耕細作,同時,也會不斷擴展事理圖譜的應(yīng)用場景,例如在醫(yī)療、司法等領(lǐng)域構(gòu)建事理圖譜。
DTP(Dialog Technology Platform,對話技術(shù)平臺)是搭載了我中心多年積累的自然語言處理(NLP)和人工智能(AI)技術(shù),專為開發(fā)者打造的中文對話機器人搭建平臺。開發(fā)者可以通過 DTP 輕松賦予自身產(chǎn)品智能對話交互的能力,這大大降低了開發(fā)對話機器人的技術(shù)門檻,并提高了開發(fā)效率。DTP 給開發(fā)者提供了語義理解模塊和對話管理模塊的算法黑箱,開發(fā)者不需要了解構(gòu)建對話系統(tǒng)的復(fù)雜模型,只要上傳一定量的語料和定義系統(tǒng)所需要的各種特定參數(shù)和規(guī)則,就可以創(chuàng)建出一個用來完成特定意圖功能的任務(wù)型對話系統(tǒng)。通過借助 DTP 提供的云服務(wù),開發(fā)者無需親自掌握 NLP、AI 等技術(shù),只要基于 DTP 的會話 API 即可在多種終端(網(wǎng)站、移動 APP、智能硬件)中構(gòu)建自己的智能會話機器人界面。DTP 測試版地址是:http://dtp-cloud.cn,歡迎學(xué)界和工業(yè)界的同仁試用。
劉挺:哈工大是一個典型的工科大學(xué),哈工大 SCIR 的研究工作既不是純理論的,也不是工程性的,而是應(yīng)用基礎(chǔ)研究,這是我們對自己研究工作的一個基本定位。我們一方面密切關(guān)注機器學(xué)習(xí)、腦認知等更基礎(chǔ)的研究領(lǐng)域的前沿進展,另一方面通過與企業(yè)界的合作深入了解企業(yè)的真實需求,尤其是具有前瞻性的技術(shù)需求,然后綜合這兩方面的因素,確定我們的科研選題。按照這個定位,我們是不去碰與語言無關(guān)的純機器學(xué)習(xí)問題的,同時也避免承擔(dān)企業(yè)馬上就要求解決而且的確通過工程手段有可能解決的問題。
我們在研究中有幾個自己的特點:
1. 化繁為簡
我們比較注重問題描述和解決方案的簡單性。2000 年我們實驗室剛成立不久,就開展了句法分析的研究工作,當(dāng)時國內(nèi)外多數(shù)人都在做短語結(jié)構(gòu)文法,少數(shù)人做依存文法,依存文法直接反映出句子中詞間關(guān)系,不需要一套再另外搞一套非終結(jié)符號,因此從簡單性原則出發(fā)我們選擇了依存文法。多年過后,依存文法成為學(xué)術(shù)界的主流。在語言知識庫方面,我們選擇了《同義詞詞林》體系,并擴展為《大詞林》,詞林與其他一些中文語言知識庫相比,具有簡單性的特點,便于理解、擴展和應(yīng)用推廣。
2. 尊重實際
我們只尊重實際,不迷信外國的東西,尤其是我們搞的是中文處理,尤其需要尊重中文的實際情況。我們認為英文重形合,中文重意合,因此中文分析不要在句法層面一直糾纏,而是可以跳過句法層面直接做語義,為此我們一直在推動中文語義依存技術(shù)的發(fā)展,并深信在語義分析階段,中文的技術(shù)指標(biāo)將趕上英文。
3. 強調(diào)動手
我們實驗室每個研究生畢業(yè)時,都不只是有論文,而且要有演示系統(tǒng)。我們非常鼓勵學(xué)生們自己動手把想法實現(xiàn)出來,既便于激發(fā)自己的探索興趣,又可以發(fā)現(xiàn)真實問題,還能夠方便地對外展示,獲得外界的反饋意見,一舉多得。最典型的是我們研制的語言技術(shù)平臺 LTP,從學(xué)生們自己做的演示系統(tǒng),發(fā)展為中文處理領(lǐng)域一個重要的開源開放基礎(chǔ)平臺。
4. 拓展式創(chuàng)新
從句法依存分析到語義依存分析,是從句法形式場面深入到語義內(nèi)容層面;從知識圖譜到事理圖譜,是從以名詞概念為核心進入到以抽象事件為核心;從《同義詞詞林(擴展版)》到《大詞林》,是從人工構(gòu)建語言知識庫到自動構(gòu)建語言知識庫。我們遵循技術(shù)發(fā)展內(nèi)在的邏輯脈絡(luò)進行創(chuàng)新,這樣的創(chuàng)新更有根基,更易持續(xù)。
劉挺:我中心研究方向總體規(guī)劃為句子級 NLP、人機對話、篇章級 NLP 以及社會計算四大研究方向。這四大研究方向又可以細分成七個研究小組。分別是
語言分析組,主要研究句法分析、語義分析、任務(wù)型對話、文本順滑。
問答系統(tǒng)組,主要研究深度問答和客服機器人。
對話機器人組,主要研究對話機器人和營銷機器人。
閱讀理解組,主要研究閱讀理解、篇章語義、信息抽取、大詞林。
文本生成組,主要研究作文生成、新聞寫作、公文寫作。
情感分析組,主要研究傾向性分析、觀點分析、情緒分析、情感對話。
社會預(yù)測組,主要研究消費意圖挖掘、事理圖譜和股市預(yù)測。
這幾大研究方向的選擇也對應(yīng)著我中心對 NLP 未來發(fā)展趨勢的布局。從 NLP 的底層基礎(chǔ)研究到上層應(yīng)用,我們都有對應(yīng)的老師及學(xué)生從事相關(guān)科研工作。目前,我實驗室在校師生已近超過百人,而且仍然是一個緊密合作的整體,而不是松散的組合,所以,我們能夠有效地把師生組織到不同的方向上去,并讓做不同方向的研究組可以相互配合。
劉挺:首先我們來回顧一下,去年我提出的十個 NLP 發(fā)展趨勢分別是:
趨勢 1:語義表示——從符號表示到分布表示;
趨勢 2:學(xué)習(xí)模式——從淺層學(xué)習(xí)到深度學(xué)習(xí);
趨勢 3:NLP 平臺化——從封閉走向開放;
趨勢 4:語言知識——從人工構(gòu)建到自動構(gòu)建;
趨勢 5:對話機器人——從通用到場景化;
趨勢 6:文本理解與推理——從淺層分析向深度理解邁進;
趨勢 7:文本情感分析——從事實性文本到情感文本;
趨勢 8:社會媒體處理——從傳統(tǒng)媒體到社交媒體;
趨勢 9:文本生成——從規(guī)范文本到自由文本;
趨勢 10:NLP+行業(yè)——與領(lǐng)域深度結(jié)合,為行業(yè)創(chuàng)造價值。
從今年的發(fā)展來看,NLP 的十個發(fā)展趨勢都一一印證,并且還將在一段時間內(nèi)持續(xù)。
劉挺:我中心在這十個方向上都有所布局。首先 語義的分布式表示 以及 深度學(xué)習(xí)方法 已經(jīng)成為 NLP 領(lǐng)域的主流研究方法。今年我們又推出了 對話技術(shù)平臺(DTP) 來幫助開發(fā)者快速地構(gòu)建自己的智能會話機器人。在大詞林的基礎(chǔ)上,我們提出了事理圖譜的概念并自動化構(gòu)建了金融和出行兩個領(lǐng)域的事理圖譜。我們的對話機器人「笨笨」也在多個不同的場景下得到了應(yīng)用,例如在用戶購物前的導(dǎo)購環(huán)節(jié),通過對用戶消費意圖的準確判斷,進而推薦更合乎用戶需求的產(chǎn)品。我們與訊飛的聯(lián)合實驗室在機器閱讀理解領(lǐng)域權(quán)威評測大賽 SQuAD 連續(xù)三次奪得第一名。
情感分析一直是我中心的重點研究方向之一,去年我們又獲得了一項國家自然科學(xué)基金重點項目「社交媒體中的文本情感語義計算理論與方法」。文本生成目前我們重點在作文生成以及根據(jù)結(jié)構(gòu)化的數(shù)據(jù)生成描述性的文本。最后,我們在 NLP+司法、NLP+教育兩個領(lǐng)域都在與科大訊飛公司緊密合作,在 NLP+金融方向也積累了多年的經(jīng)驗,已經(jīng)研制出智能投顧演示系統(tǒng),最近我們啟動了 NLP+醫(yī)療的相關(guān)研究工作。
劉挺:我認同這種觀點。微軟全球執(zhí)行副總裁沈向洋也在公開演講時說:「懂語言者得天下……下一個十年,人工智能的突破在自然語言的理解……人工智能對人類影響最為深刻的就是自然語言方面」。深度網(wǎng)絡(luò)之父 Geoffrey Hinton 說:「深度學(xué)習(xí)的下一個大的進展應(yīng)該是讓神經(jīng)網(wǎng)絡(luò)真正理解文檔的內(nèi)容」。
但是,我們也要清醒的看到,自然語言處理技術(shù)產(chǎn)業(yè)化還有很長的路要走。自然語言處理的技術(shù)難度大,應(yīng)用場景復(fù)雜。計算機視覺的物體識別準確度可以達到 90% 以上,甚至接近百分之百,這對于安防及身份認證等領(lǐng)域來講足以將其落地成實際應(yīng)用的產(chǎn)品。然而要真正理解一篇文本的內(nèi)容非常難,科幻影片中那種通用的人機對話機器人短期內(nèi)還無法研制出來,機器翻譯對于結(jié)構(gòu)或背景復(fù)雜的句子仍然翻譯不準,這也是目前自然語言處理產(chǎn)業(yè)化的最大阻礙。前段時間就有文章討論過為什么自然語言處理領(lǐng)域很難出現(xiàn)「獨角獸」,主要原因可以歸納為兩點:一是自然語言處理技術(shù)沒有達到計算機視覺技術(shù)那么高的準確率,二是沒有找到合適的商業(yè)模式將自然語言處理技術(shù)落地,人們習(xí)慣了免費的自然語言處理技術(shù),對付付費模式就很難接受,例如付費的機器翻譯軟件就很少會有人用,但是付費的安防系統(tǒng),我們幾乎每天都在使用。
不過,我們也要看到自然語言處理技術(shù)與很多行業(yè)的結(jié)合可能會是自然語言處理產(chǎn)業(yè)化的一條新途徑。2018 年 4 月 12 日,李克強總理主持召開國務(wù)院常務(wù)會議,確定發(fā)展「互聯(lián)網(wǎng)+醫(yī)療健康」措施,提高醫(yī)療服務(wù)效率,讓患者少跑腿、更便利,是更多群眾能分享優(yōu)質(zhì)醫(yī)療資源。醫(yī)療領(lǐng)域有大量的病歷、醫(yī)學(xué)文獻等文本數(shù)據(jù),自然語言處理技術(shù)可以在此基礎(chǔ)上構(gòu)建大規(guī)模醫(yī)學(xué)知識圖譜,并用于健康咨詢和初步診斷。
劉挺:人機對話主要分成任務(wù)型對話和聊天。任務(wù)型對話方面:傳統(tǒng)的任務(wù)型對話系統(tǒng)一般包含三個模塊,語言理解、對話管理和語言生成。每個模塊往往獨立實現(xiàn),并需要針對不同的領(lǐng)域進行設(shè)計和標(biāo)注大量的數(shù)據(jù),不利于系統(tǒng)的遷移。為解決此問題,最近出現(xiàn)的一些端到端的任務(wù)型對話系統(tǒng)是一個有益的嘗試,端到端的系統(tǒng)一般使用一個 seq2seq 模型,根據(jù)用戶的輸入,直接生成相應(yīng)的回復(fù),具有結(jié)構(gòu)簡單,便于移植的優(yōu)點。當(dāng)然,由于任務(wù)型對話的特殊性,使用簡單的 seq2seq 模型無法生成時效性、地點相關(guān)等回復(fù),所以還需要輔以相應(yīng)的知識庫。因此,一些最新的研究集中于如何基于知識庫,進行 seq2seq 的回復(fù)生成。這也是符號計算與神經(jīng)計算相結(jié)合的一個典型案例。
機器人聊天或閑聊的功能,通常的作用是為了增加人機對話系統(tǒng)的用戶粘性,增進人和機器之間的情感溝通,在一定的場景中,聊天機器人可以扮演傾訴對象和情感撫慰者的角色,聊天功能的完善,能夠極大增加機器人的擬人屬性的強度,因而聊天功能盡管「無用」,但卻是人機對話系統(tǒng)的核心功能。
在過去的幾年,聊天技術(shù)取得了較大的進展,從檢索式到生成式再到兩者的結(jié)合,從單輪到多輪的建模發(fā)展,從內(nèi)容高度依賴模型主導(dǎo)的生成到內(nèi)容可控的生成,從自由文本的學(xué)習(xí)到從結(jié)構(gòu)化文本的學(xué)習(xí),從深度學(xué)習(xí)到強化學(xué)習(xí)的對話建模,這些技術(shù)都在不斷的發(fā)展。
2017 到 2018 這兩年聊天技術(shù)的發(fā)展,還是有一些代表性的工作值得我們關(guān)注的,比如在聊天建模中考慮人的主觀情緒,立場等反饋信號;以特定領(lǐng)域和話題為背景的受限主題的聊天;面向情感撫慰的包含特定情感的聊天等等。
我們一直認為評測是推動技術(shù)進步的重要途徑,我們也一直堅持中文技術(shù)評測應(yīng)該由中國人來推動,我們與科大訊飛、華為公司聯(lián)手在 2017 年的全國社會媒體處理大會(SMP)上組織了首屆中文人機對話技術(shù)評測,吸引了來自高校,大型互聯(lián)網(wǎng)企業(yè)和創(chuàng)業(yè)公司的眾多隊伍報名參賽,評測非常成功,有力地促進了中文人機對話技術(shù)的交流,今年我們也將繼續(xù)組織第二屆SMP中文人機對話評測,同時,國際上對于人機對話的評測也開展的如火如荼,如 2017 年 NIPS 上的人機對話評測,亞馬遜的 Alexa Prize 以及舉辦了很多屆 DSTC 等,相信在技術(shù)評測的推動下,人機對話技術(shù)會持續(xù)的進步。
劉挺:在設(shè)計論壇議程上,首先我們要選擇 NLP 最近的熱點研究方向及話題來和大家分享,例如知識圖譜、人機對話、情感分析等研究方向以及 NLP 如何產(chǎn)業(yè)化等熱點話題。其次,由于 CCF-GAIR 是一次大同行的聚會,因此,我們不會在論壇中涉及到過多的 NLP 技術(shù)細節(jié),這與頂級國際會議學(xué)術(shù)報告不同,本次論壇主要還是對 NLP 的發(fā)展歷史做一個梳理同時探討 NLP 的未來發(fā)展方向。最后,我們期望能夠在論壇上探討一些 NLP 與其他學(xué)科交叉的問題,例如,NLP 與醫(yī)學(xué)、金融等領(lǐng)域的學(xué)科交叉是很有意義的研究方向。
劉挺:近年來 NLP 成為人工智能領(lǐng)域的一大熱點,很多畢業(yè)生的工資也都隨著水漲船高,但是我們也應(yīng)該冷靜的看到 NLP 技術(shù)還有很多瓶頸有待突破。我主要就如何選題談幾點我的見解。
1、 要有實際需求
一個課題必須有實際需求,可能是現(xiàn)實的需求,也可能是潛在的需求;可能是直接的需求,也可能是間接的需求,總之是的的確確被人們所需要的。舉個反例,比如自動文摘,自動文摘是我的博士論文課題,但是實際應(yīng)用需求始終不清楚,自動文摘的結(jié)果用于編輯出版,質(zhì)量肯定無法保證,用于幫助人們快速瀏覽資料吧,搜索引擎提供的包含查詢詞的網(wǎng)頁中的片段(Snippet)就起到了這個作用。因此,時至今日,站在作者角度給出的能夠概括全文主旨的自動文摘技術(shù)到底用到哪里,仍然不清楚。
2、 有較大的未知空間
有些技術(shù)已經(jīng)成熟,相關(guān)產(chǎn)品在市場上已經(jīng)大面積應(yīng)用了,在研究上就不宜再展開。
3、 與自己以往的工作有關(guān)聯(lián)
如果你覺得自己的研究領(lǐng)域太窄,或者競爭對手太多,或者自己缺乏興趣,則可以適當(dāng)擴展研究方向,但最好是相關(guān)性地擴展,比如從自然語言處理(NLP)擴展到社會媒體計算,這種擴展是從底層技術(shù)到應(yīng)用系統(tǒng)的擴展,很自然。如果跳躍性太大,和文本處理完全脫節(jié),這種做法一方面無法發(fā)揮既有的技術(shù)積累,另一方面也讓同行感覺你不夠?qū)W?,不容易得到認可。
4、 有可能得到國家的支持
對于資深學(xué)者,他選定一個課題后,可以寫出立項建議,去說服政府或軍方支持他的工作,從而填補國家空白,成為國內(nèi)這個方向的先驅(qū)。對于剛出道的年輕人,無力直接影響政府,那只有自己預(yù)先判定一個幾年后可能成為熱點的方向,先走一步,做出一些成績來,等到大氣候適宜的時候,由于他已經(jīng)取得了一定的成果,也有可能被認可為這個領(lǐng)域的先行者,得到國家的支持。
相關(guān)文章:
哈工大人工智能研究院成立,四層次七方向引領(lǐng)AI發(fā)展
IJCAI-ECAI 2018公布結(jié)果,哈工大SCIR 六篇長文被錄用
哈工大 AAAI 2018 錄用論文解讀:基于轉(zhuǎn)移的語義依存圖分析 | 分享總結(jié)
劉挺教授擔(dān)任首席科學(xué)家,哈工大SCIR十八年技術(shù)轉(zhuǎn)入,這是又一只獨角獸嗎?
訊飛與哈工大聯(lián)合實驗室刷新SQuAD成績,兩項指標(biāo)均大幅提升
AAAI 2018預(yù)講會在哈工大成功舉辦,25篇頂會文章講了什么(下)
AAAI 2018預(yù)講會在哈工大成功舉辦,25篇頂會文章講了什么(上)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章