0
本文作者: 小芹菜 | 2016-10-15 23:02 |
今天,第十五屆全國計算語言學(xué)學(xué)術(shù)會議(CCL2016)與第四屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會(NLP-NABD2016)同時在魯東大學(xué)召開。來自語智云帆的美女工程師任曉娜參與了會議,并為雷鋒網(wǎng)的讀者們帶來會議現(xiàn)場的報道,雷鋒網(wǎng)對內(nèi)容做了不修改原意的編輯。
先簡單介紹下兩個會議的背景——
CCL(全國計算語言學(xué)學(xué)術(shù)會議)從1991年開始每兩年舉辦一次,從2013年開始每年舉辦一次,著重于中國境內(nèi)各類語言的計算處理,為研討和傳播計算語言學(xué)最新的學(xué)術(shù)和技術(shù)成果提供了高水平的交流平臺。
NLP-NAB(基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會)涵蓋了所有自然語言處理的研究內(nèi)容,尤其關(guān)注在大數(shù)據(jù)時代自然語言處理的前沿方法和技術(shù)。
從清華大學(xué)孫茂松教授的發(fā)言大致就能知道本次會議的相關(guān)情況:會議收到投稿300多篇,錄用率32.9%。會議前一天加入講習(xí)班環(huán)節(jié),都是一線青年研究學(xué)者的報告;并且加入了自然語言處理國際前沿動態(tài)綜述的,是簡而精的報告;加入系統(tǒng)展示環(huán)節(jié)的,都是業(yè)界比較前沿的技術(shù),特邀報告人也是業(yè)界專家。以上被錄用的英文論文,都將由論文出版社Springer發(fā)表在LNAI(Lecture Notes in Artificial Intelligence)系列中。
| 中科院張鈸院士:后深度學(xué)習(xí)時代的計算語言學(xué)
(清華大學(xué)教授、中國科學(xué)院張鈸院士)
清華大學(xué)教授、中國科學(xué)院張鈸院士介紹了從符號主義到連接主義再到深度學(xué)習(xí),在語言處理上遇到的困難、原因以及來源等。
符號主義的認(rèn)知計算模型
張鈸院士提到,符號主義掀起了一場計算機(算法)應(yīng)用的革命,它也是最合適的語言模型。另外,知識驅(qū)動法,提及了waston系統(tǒng)(以知識為基礎(chǔ)的問答系統(tǒng)),指出了知識驅(qū)動法存在的局限。
連接主義的崛起
20世紀(jì)以來計算語言學(xué)的兩大變化,一是大數(shù)據(jù),二是概率統(tǒng)計方法??邕^統(tǒng)計學(xué)的四個里程碑、機器學(xué)習(xí)模型的發(fā)展及文本的機器學(xué)習(xí)模型等,再到文本語義鴻溝問題,一般情況語義和底層特征之間的映射不存在,于是引出了從淺層學(xué)習(xí)到深度學(xué)習(xí),深度學(xué)習(xí)在語言處理中的應(yīng)用以及深度學(xué)習(xí)解決問題的范圍。
后深度學(xué)習(xí)時代的計算語言學(xué)
在后深度學(xué)習(xí)時代,計算語言遇到了困難,比如在概率統(tǒng)計方法和生數(shù)據(jù)所帶來的——
概率統(tǒng)計方法帶來的困難:神經(jīng)網(wǎng)絡(luò)(手寫數(shù)字)識別系統(tǒng)只是分類問題并非“識別”。張鈸院士舉了個深度神經(jīng)網(wǎng)絡(luò)錯誤識別案例:全是噪音的圖片,被識別為0-9個手寫數(shù)字,置信度為99.99%。又另外分別從輸入量、信息量、關(guān)系、底層特征四方面,分析了文本與圖像信息之間存在的差異。
生數(shù)據(jù)(Raw Data)帶來的困難:Stanford圖片識別均采用正例樣本,識別率比較高,而正負(fù)樣本均隨機選擇的話,Stanford識別率只有19.2%(包括pretraining,采用9M images,10k categories)。
如何解決以上困難?張鈸院士提出以下三點:
(1)知識驅(qū)動與數(shù)據(jù)驅(qū)動的結(jié)合:例蒙特卡洛樹搜索+深度學(xué)習(xí)
(2)學(xué)科交叉,特別是與腦科學(xué)與認(rèn)知科學(xué)的結(jié)合
(3)計算語言學(xué)與人工智能共同前進(jìn)
張鈸院士說,計算語言學(xué)依然任重道遠(yuǎn),后深度學(xué)習(xí)時代,自然語言處理的發(fā)展要更依賴于學(xué)科交叉:腦科學(xué)、語言學(xué)、數(shù)學(xué)、計算機科學(xué)和認(rèn)知科學(xué)等。
| 微軟亞洲研究院 常務(wù)副院長馬維英:有關(guān)Self-Teaching機器人的一些研究成果
微軟亞洲研究院常務(wù)副院長馬維英博士在《Can We Build a Self-Teaching Machine? A Quest for Machine Comprehension of Text》 的現(xiàn)場報告中,主要介紹了微軟亞洲研究院有關(guān)Self-Teaching機器人的最新進(jìn)展。
比如在談及機器人從搜索引擎道聊天工具對文本的理解時,Self-Teaching機器人能夠做到:
閑聊和深聊的結(jié)合,使用戶更有興趣進(jìn)行交流,并具有親切感;
圖片或者視頻的識別和評論;
建立用戶模型,會給出令人驚喜的回答;
能夠幫助訂機票
......
除此之外,還有機器人小冰。比如圖書館進(jìn)行圖書搜索的關(guān)鍵是排序,機器人小冰通過大量數(shù)據(jù)來顛覆搜索過程,采用了深度學(xué)習(xí)、知識挖掘等關(guān)鍵技術(shù),數(shù)據(jù)結(jié)果顯示,小冰的每個會話的互動要高于其他相似產(chǎn)品。
報告現(xiàn)場,馬維英還提到了人工智能的四大趨勢:
a. 萬物電子化;b. 萬物互聯(lián);c. 云計算;d. 軟件工程智能化
人工智能技術(shù)還可以擴展到其他方向,其中一個重要的應(yīng)用就是機器翻譯。機器翻譯的雙向?qū)W習(xí),用5%雙語訓(xùn)練數(shù)據(jù)的BLEU值與100%訓(xùn)練數(shù)據(jù)的BLEU值相當(dāng),并且可應(yīng)用于多個相關(guān)任務(wù)協(xié)同學(xué)習(xí)中(NIPS2016)。
今天會議干貨很多,這里做個小小預(yù)告:明天將有4個特邀報告,自然語言處理國際前沿動態(tài)綜述及錄取論文poster的展示,另外還新加入了系統(tǒng)展示環(huán)節(jié)。我們也將展示公司(北京語智云帆科技有限公司)的最新產(chǎn)品,歡迎大家留言交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。