0
本文作者: 小芹菜 | 2016-10-15 23:02 |
今天,第十五屆全國計算語言學學術會議(CCL2016)與第四屆基于自然標注大數(shù)據(jù)的自然語言處理國際學術研討會(NLP-NABD2016)同時在魯東大學召開。來自語智云帆的美女工程師任曉娜參與了會議,并為雷鋒網(wǎng)的讀者們帶來會議現(xiàn)場的報道,雷鋒網(wǎng)對內(nèi)容做了不修改原意的編輯。
先簡單介紹下兩個會議的背景——
CCL(全國計算語言學學術會議)從1991年開始每兩年舉辦一次,從2013年開始每年舉辦一次,著重于中國境內(nèi)各類語言的計算處理,為研討和傳播計算語言學最新的學術和技術成果提供了高水平的交流平臺。
NLP-NAB(基于自然標注大數(shù)據(jù)的自然語言處理國際學術研討會)涵蓋了所有自然語言處理的研究內(nèi)容,尤其關注在大數(shù)據(jù)時代自然語言處理的前沿方法和技術。
從清華大學孫茂松教授的發(fā)言大致就能知道本次會議的相關情況:會議收到投稿300多篇,錄用率32.9%。會議前一天加入講習班環(huán)節(jié),都是一線青年研究學者的報告;并且加入了自然語言處理國際前沿動態(tài)綜述的,是簡而精的報告;加入系統(tǒng)展示環(huán)節(jié)的,都是業(yè)界比較前沿的技術,特邀報告人也是業(yè)界專家。以上被錄用的英文論文,都將由論文出版社Springer發(fā)表在LNAI(Lecture Notes in Artificial Intelligence)系列中。
| 中科院張鈸院士:后深度學習時代的計算語言學
(清華大學教授、中國科學院張鈸院士)
清華大學教授、中國科學院張鈸院士介紹了從符號主義到連接主義再到深度學習,在語言處理上遇到的困難、原因以及來源等。
符號主義的認知計算模型
張鈸院士提到,符號主義掀起了一場計算機(算法)應用的革命,它也是最合適的語言模型。另外,知識驅(qū)動法,提及了waston系統(tǒng)(以知識為基礎的問答系統(tǒng)),指出了知識驅(qū)動法存在的局限。
連接主義的崛起
20世紀以來計算語言學的兩大變化,一是大數(shù)據(jù),二是概率統(tǒng)計方法。跨過統(tǒng)計學的四個里程碑、機器學習模型的發(fā)展及文本的機器學習模型等,再到文本語義鴻溝問題,一般情況語義和底層特征之間的映射不存在,于是引出了從淺層學習到深度學習,深度學習在語言處理中的應用以及深度學習解決問題的范圍。
后深度學習時代的計算語言學
在后深度學習時代,計算語言遇到了困難,比如在概率統(tǒng)計方法和生數(shù)據(jù)所帶來的——
概率統(tǒng)計方法帶來的困難:神經(jīng)網(wǎng)絡(手寫數(shù)字)識別系統(tǒng)只是分類問題并非“識別”。張鈸院士舉了個深度神經(jīng)網(wǎng)絡錯誤識別案例:全是噪音的圖片,被識別為0-9個手寫數(shù)字,置信度為99.99%。又另外分別從輸入量、信息量、關系、底層特征四方面,分析了文本與圖像信息之間存在的差異。
生數(shù)據(jù)(Raw Data)帶來的困難:Stanford圖片識別均采用正例樣本,識別率比較高,而正負樣本均隨機選擇的話,Stanford識別率只有19.2%(包括pretraining,采用9M images,10k categories)。
如何解決以上困難?張鈸院士提出以下三點:
(1)知識驅(qū)動與數(shù)據(jù)驅(qū)動的結(jié)合:例蒙特卡洛樹搜索+深度學習
(2)學科交叉,特別是與腦科學與認知科學的結(jié)合
(3)計算語言學與人工智能共同前進
張鈸院士說,計算語言學依然任重道遠,后深度學習時代,自然語言處理的發(fā)展要更依賴于學科交叉:腦科學、語言學、數(shù)學、計算機科學和認知科學等。
| 微軟亞洲研究院 常務副院長馬維英:有關Self-Teaching機器人的一些研究成果
微軟亞洲研究院常務副院長馬維英博士在《Can We Build a Self-Teaching Machine? A Quest for Machine Comprehension of Text》 的現(xiàn)場報告中,主要介紹了微軟亞洲研究院有關Self-Teaching機器人的最新進展。
比如在談及機器人從搜索引擎道聊天工具對文本的理解時,Self-Teaching機器人能夠做到:
閑聊和深聊的結(jié)合,使用戶更有興趣進行交流,并具有親切感;
圖片或者視頻的識別和評論;
建立用戶模型,會給出令人驚喜的回答;
能夠幫助訂機票
......
除此之外,還有機器人小冰。比如圖書館進行圖書搜索的關鍵是排序,機器人小冰通過大量數(shù)據(jù)來顛覆搜索過程,采用了深度學習、知識挖掘等關鍵技術,數(shù)據(jù)結(jié)果顯示,小冰的每個會話的互動要高于其他相似產(chǎn)品。
報告現(xiàn)場,馬維英還提到了人工智能的四大趨勢:
a. 萬物電子化;b. 萬物互聯(lián);c. 云計算;d. 軟件工程智能化
人工智能技術還可以擴展到其他方向,其中一個重要的應用就是機器翻譯。機器翻譯的雙向?qū)W習,用5%雙語訓練數(shù)據(jù)的BLEU值與100%訓練數(shù)據(jù)的BLEU值相當,并且可應用于多個相關任務協(xié)同學習中(NIPS2016)。
今天會議干貨很多,這里做個小小預告:明天將有4個特邀報告,自然語言處理國際前沿動態(tài)綜述及錄取論文poster的展示,另外還新加入了系統(tǒng)展示環(huán)節(jié)。我們也將展示公司(北京語智云帆科技有限公司)的最新產(chǎn)品,歡迎大家留言交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。