0
本文作者: 奕欣 | 2018-08-09 16:55 |
2018 中國人工智能大會(CCAI 2018)于 7 月 28 日-29 日于深圳召開?!高^去未去,未來已來」,李德毅院士在 CCAI 2018 開幕式上對人工智能的發(fā)展寄予極高的期待,認(rèn)為未來人工智能必將給人類帶來全新的啟迪。
CAAI 副理事長、中國科學(xué)院院士譚鐵牛在開幕式致辭中同時強(qiáng)調(diào),「理性、務(wù)實」是未來人工智能的重要路線。他也希望中國人工智能大會能給與會觀眾以充實的視聽盛宴與豐富的心得體會。
在 2018 中國人工智能大會(CCAI 2018)首日下午的專題論壇上,蘇州大學(xué)特聘教授、國家杰出青年科學(xué)基金獲得者張民做了題為《自然語言處理方法與應(yīng)用》的大會講座。在這場長達(dá)兩個小時的講座上,張民教授圍繞 AI、自然語言及 NLP,還有相應(yīng)的方法、應(yīng)用及展望,向與會觀眾分享了自然語言處理的相應(yīng)研究。雷鋒網(wǎng) AI 科技評論整理了張民教授的講座概要及部分精華內(nèi)容,以饗讀者。
從農(nóng)業(yè)社會、工業(yè)社會到信息社會,從數(shù)據(jù)到信息、到知識到智能的演變,代表了人類社會的巨大進(jìn)步,展現(xiàn)了人類對于不同概念的詮釋與理解的演變:
數(shù)據(jù)可以理解為人類對主觀/客觀世界事物的數(shù)量、屬性、位置及其相互關(guān)系的抽象表示;信息是具有時效性的、有一定含義的、有邏輯的、經(jīng)過加工處理的、對決策有價值的數(shù)據(jù)流,也就是加工后有邏輯的數(shù)據(jù)。而信息的豐富性決定了我們需要將它抽取、凝練為知識;但擁有用知識去解決問題的能力,才真正叫做智能。從歷史的長河來看,人工智能的產(chǎn)業(yè)成熟曲線及人類的認(rèn)識體系,是在經(jīng)歷「人類要?dú)纭沟目只牛òl(fā)現(xiàn)人工智能的能力超出想象)與大呼「騙子」的頓悟(發(fā)現(xiàn)人工智能的局限性)的反復(fù)中循環(huán)提升的。在張民教授來看,這兩種極端的觀點都只能部分代表人工智能的觀點和看法,不應(yīng)以偏概全。
人工智能的內(nèi)涵和外延:
能夠講清楚什么是人工智能很重要。在張民教授的理解中,按照李德毅院士的觀點,人工智能的外延包括機(jī)器人與智能系統(tǒng)。而內(nèi)涵包括如下四個層面:
? 底層是腦認(rèn)知基礎(chǔ),上層是以知識工程為核心的知識建模、獲取和推理;
? 中間有兩個同樣重要的內(nèi)容,一個是感知智能,即機(jī)器感知和模式識別;另一個是認(rèn)知智能,也就是自然語言處理和理解。
人的進(jìn)化與語言的關(guān)系
從感知、認(rèn)知到進(jìn)化,人為何能步入食物鏈的頂端?因為人類有語言,語言使人類區(qū)別于動物。語言的本質(zhì)就是一套符號系統(tǒng)。從語言的種類來看,一個是動物語言,一個是人工語言,再者是自然語言。自然語言是人類最重要的工具,是人類進(jìn)行溝通交流的各種表達(dá)符號。
那么自然語言處理的定義是什么?就是用計算機(jī)來處理人類的自然語言。
自然語言處理有三件重要的事:
1. 分析和理解;2. 生成和應(yīng)用(互動過程);3. 動作(執(zhí)行語言相對應(yīng)的內(nèi)容)。
為了更好地進(jìn)行表示、推理和學(xué)習(xí),自然語言處理涉及到了哪些方法?張民教授總結(jié)了如下內(nèi)容:自然語言處理學(xué)科自身的算法和理論,規(guī)則方法,統(tǒng)計方法、機(jī)器學(xué)習(xí)方法及深度學(xué)習(xí)等多種方法。
機(jī)器能理解人類的自然語言嗎?
從廣義角度來說,真正的自然語言處理從 1950 年代的機(jī)器翻譯研究開始。但語言存在高度歧義、高度結(jié)構(gòu)化的特性。為何自然語言處理的難度如此大?張民教授認(rèn)為包括如下因素:
? 功能:語言是對世界的認(rèn)識和理解;
? 知識:涉及到語言學(xué)知識、外部知識、領(lǐng)域知識甚至是常識等多種綜合知識。
? 特性:語言具備組合性、開放的、動態(tài)的、長期特性等多種特性。
? 語用性:張民教授著重強(qiáng)調(diào)了環(huán)境、上下文、信息、意圖等各種因素對于理解語言的重要性和復(fù)雜性。
與人工智能一樣,張民教授也將自然語言處理劃分為外延和內(nèi)涵兩個部分。外延指的是自然語言處理的應(yīng)用(下一部分會重點說明);內(nèi)涵則涵蓋三大內(nèi)容,包括以自然語言分析(分析語言表達(dá)的結(jié)構(gòu)和含義)、自然語言生成(從內(nèi)部表示生成語言表達(dá))和多語言處理等。
分詞
分詞的任務(wù)定義為:輸入一個句子,輸出一個詞語序列的過程。如將「嚴(yán)守一把手機(jī)關(guān)了?!馆敵鰹椤竾?yán)守一/把/手機(jī)/關(guān)/了?!?/p>
目前的兩種主流方法包括基于離散特征的 CRF 和 BILSTM-CRF。
挑戰(zhàn)包括交叉歧義、新詞識別、領(lǐng)域移植、多源異構(gòu)數(shù)據(jù)融合及多粒度分詞等。
命名實體
現(xiàn)在的主流方法包括:
1. 規(guī)則系統(tǒng)
2. 基于機(jī)器學(xué)習(xí)的學(xué)習(xí)系統(tǒng)
目前的挑戰(zhàn)包括新領(lǐng)域舊實體類別識別、新實體類別識別等,解決辦法包括利用構(gòu)詞知識、領(lǐng)域知識,使用強(qiáng)化學(xué)習(xí)、跨領(lǐng)域?qū)W習(xí)、半監(jiān)督學(xué)習(xí)、眾包、遠(yuǎn)程監(jiān)督等機(jī)器學(xué)習(xí)方法。
句法分析
句法分析的任務(wù)定義為:輸入一個句子的詞語序列,輸出為句子結(jié)構(gòu)表示的過程。依存句法分析輸出的是依存句法樹,下面以依存句法分析為例。
目前采用的方法包括:
? 基于圖的方法,即從圖中搜索得到句法樹,主要的任務(wù)在于確定每個依存弧的分值;
? 基于轉(zhuǎn)移的方法:即通過一系列移進(jìn)規(guī)約的動作得到句法樹,主要任務(wù)在于基于當(dāng)前狀態(tài),確定每個動作的分值。
現(xiàn)在的主流做法是在上述兩者的基礎(chǔ)上加入深度學(xué)習(xí)的方法。
語義分析
定義是將文本轉(zhuǎn)換為可計算的知識表示。目前學(xué)術(shù)界語義表達(dá)方法包括:1)淺層語義分析;2)邏輯語義分析;3)抽象語義表示分析。
篇章分析
篇章的定義指的是一系列連續(xù)的語段或句子構(gòu)成的語言整體單位,核心問題是篇章結(jié)構(gòu)和篇章特征,其所基于的語言學(xué)基本理論包括中心理論、脈絡(luò)理論、RST 等多種語言學(xué)基本理論。
? 基本結(jié)構(gòu)分析
篇章結(jié)構(gòu)指的是篇章內(nèi)部關(guān)系的不同結(jié)構(gòu)化表達(dá)形式,主要包括邏輯語言結(jié)構(gòu)、指代結(jié)構(gòu)、話題結(jié)構(gòu)、功能結(jié)構(gòu)、事件結(jié)構(gòu)等范疇。
? 基本特征的研究
包括連接性、連貫性、意圖、可接受性、信息性、情景性和跨篇章等七個基本特征。
自然語言生成
張民教授總結(jié)了在基于規(guī)則、基于知識的檢索及基于深度學(xué)習(xí)等三種自然語言生成方法的優(yōu)缺點對比及適用場景。
? 基于規(guī)則
它的一大優(yōu)勢在于具體領(lǐng)域的能做到精準(zhǔn)回答;但相應(yīng)地,在可移植性及可擴(kuò)展性上則存在不足;適用的場景以個人助理為主,和任務(wù)驅(qū)動型的對話。
? 基于知識的檢索
它的優(yōu)點在于知識庫易于擴(kuò)充,答案沒有語法錯誤;但對話連續(xù)性差,容易出現(xiàn)答非所問的情況;適用場景以問答系統(tǒng)、娛樂聊天為主。
? 基于深度學(xué)習(xí)
基于數(shù)據(jù)驅(qū)動的方法能夠省去顯示語言理解等過程,但需要大量語料支持;適用場景以虛擬影像、智能聊天機(jī)器人為主的有豐富領(lǐng)域語料的場景。
自然語言處理應(yīng)用包括自然語言處理本身的直接應(yīng)用和自然語言處理加行業(yè)的應(yīng)用。直接應(yīng)用包括,問答、對話、機(jī)器翻譯、自動文摘、機(jī)器寫作、閱讀理解、信息抽取、情感分析等;同時,自然語言處理在各個行業(yè)中都有越來越廣泛的應(yīng)用,包括教育、醫(yī)療、司法、金融、旅游、國防、公共安全、科技、廣告、文化、出版各行各業(yè)。
1. 情感和情緒分析
在業(yè)界研究和應(yīng)用,情感一般包括正面、負(fù)面和中性,而情緒一般表現(xiàn)為喜、怒、哀、樂、驚、恐、思等。情緒和情感都是人對客觀事物所持的態(tài)度體驗,只是情緒更傾向于個體基本需求欲望上的態(tài)度體驗,而情感則更傾向于社會需求欲望上的態(tài)度體驗。情感和情緒分析包括問題驅(qū)動和模型驅(qū)動兩個方面,在工業(yè)界和學(xué)術(shù)界都已經(jīng)有著廣泛的應(yīng)用和研究。
2. 問答
智能問答主要有三方面的要求:一是理解人類語言的內(nèi)涵;二是推敲知識獲取的意圖;三是挖掘精確貼切的知識。
相應(yīng)地,問答系統(tǒng)需要解決三個問題:
1. 問題分類、分析和理解(一階邏輯、二階邏輯)
2. 答案的匹配、檢索
3. 答案生成
問答的四個難點及解決方法
1)多源異構(gòu)大數(shù)據(jù)背景下開放域問答的瓶頸。在效率與覆蓋率的權(quán)衡下,數(shù)據(jù)大小與知識占比的關(guān)系是每個研究者需要考慮的問題;而結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的混雜,導(dǎo)致知識挖掘與存儲存在相應(yīng)的難點;此外,數(shù)據(jù)時效性的變化也給新舊知識的應(yīng)用帶來了挑戰(zhàn)。
以往是用 IR 或 RC 的方法,但目前流行采用對檢索所得的多個段落排序,也就是在 IR 和 RC 中加入了排序的操作,進(jìn)而進(jìn)行面向多段落的提取/生成答案。
2)深度語義理解的問答技術(shù)。以 Watson 為代表的系統(tǒng)采用的是抽取與置信度計算的方法;目前則是閱讀理解抽取/生成式方法推動了技術(shù)發(fā)展。
3)知識庫與知識圖譜。以往的知識庫存在可靠性、包容性低,存在通用性不高的問題,目前研究者們更多考慮用當(dāng)下熱門問題自動生成來實現(xiàn)知識圖譜的自動更新和擴(kuò)展。
4)多模態(tài)場景下的問答。問題的對象往往潛藏于多媒體,且答案的判斷需要參考其它媒體的數(shù)據(jù)資源。目前出現(xiàn)了以語言處理 RNN 與圖像處理的 CNN 的有機(jī)結(jié)合方法,實現(xiàn)跨媒體的特征共享、獨(dú)立和抗依賴。
對話
根據(jù)應(yīng)用場景的不同,可分為開放域及封閉域?qū)υ捪到y(tǒng)。高準(zhǔn)確率的上下文篇章建模、對話狀態(tài)轉(zhuǎn)移模型和領(lǐng)域知識建模是目前對話亟待解決的問題。
知識圖譜
包括知識建模、知識圖譜構(gòu)建、知識融合、知識推理計算以及知識賦能等主要任務(wù)。知識圖譜構(gòu)建是目前學(xué)術(shù)界和產(chǎn)業(yè)界研究熱點,包括實體及其屬性識別、事件抽取、實體事件關(guān)系抽取、概念實例化和規(guī)則學(xué)習(xí)等。
機(jī)器翻譯
機(jī)器翻譯目前已經(jīng)取得較大進(jìn)展,張民教授展望了未來機(jī)器翻譯可以從如下領(lǐng)域做發(fā)展:
知識建模和翻譯引擎,從詞序列到語義到知識,利用知識圖譜和各類知識(語言學(xué)知識、領(lǐng)域知識、常識知識等)進(jìn)一步延伸機(jī)器翻譯的邊界;
研究新的翻譯模型,從廣度(篇章)和深度(深度理解)進(jìn)一步推進(jìn)機(jī)器翻譯的理解能力。此外,還需要適應(yīng)產(chǎn)業(yè)化的需求和國家戰(zhàn)略需求。
張民教授告訴雷鋒網(wǎng) (公眾號:雷鋒網(wǎng)) AI 科技評論,目前的自然語言處理發(fā)展處于歷史上最好的時機(jī)。早在 90 年代,他們團(tuán)隊就嘗試做過自然語言處理的商業(yè)化應(yīng)用,但因為技術(shù)的局限性,最終并沒能將商業(yè)模型成功落地。「早起的鳥兒有蟲吃,但起得太早,天沒有亮就餓死了?!箯埫窠淌诘那猩眢w會讓他意識到,技術(shù)的進(jìn)步,加上產(chǎn)業(yè)的需求和落地,讓自然語言處理到了今天才迎來了新的春天。
同樣地,張民教授在講座中也提到了自然語言處理于 AI 時代的三個基本問題,一個是表示;一個是搜索、推理,還有一個是學(xué)習(xí)。
? 從底層來看,包括 NLP 詞法、句法、語義到篇章的 NLP 基礎(chǔ)研究和核心技術(shù);
? 從應(yīng)用研究來看,包括情感分析、信息抽取、對話系統(tǒng)、閱讀理解、信息檢索、問答系統(tǒng)、知識圖譜、機(jī)器翻譯等;
? 從上層來看,則是相應(yīng)的平臺、系統(tǒng)和應(yīng)用。
以上這些也是張民教授團(tuán)隊研究工作的重點。
張民教授對雷鋒網(wǎng) AI 科技評論表示,從數(shù)據(jù)、信息到知識和智能,未來的學(xué)科邊界與知識智能結(jié)合會進(jìn)一步融合,并在可解釋性、小數(shù)據(jù)、知識賦能等亟待解決和探討的問題上進(jìn)一步延伸;與此同時,注重科學(xué)問題的凝練,定義學(xué)科研究規(guī)范和研究框架,重視產(chǎn)學(xué)研的結(jié)合與交融,這也是他寄予自然語言處理在 AI 時代這個「歷史上發(fā)展的最好時期」的期待。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。