0
本文作者: 青暮 | 編輯:劉曉坤 | 2020-08-10 18:00 | 專題:CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì) |
作者 | 青暮
編輯 | 叢末
2020 年8 月7日-8月9日,在中國(guó)深圳,由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,香港中文大學(xué)(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦的第五屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì),在深圳前海華僑城 JW 萬(wàn)豪酒店正式拉開帷幕。
深圳市人工智能與機(jī)器人研究院執(zhí)行院長(zhǎng)、國(guó)際歐亞科學(xué)院院士、IEEE Fellow李世鵬擔(dān)任專場(chǎng)主持人。第一位演講的嘉賓是北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院院長(zhǎng)荀恩東教授。荀恩東教授的研究領(lǐng)域涉及漢語(yǔ)語(yǔ)義計(jì)算和語(yǔ)言資料建設(shè),主持開發(fā)過(guò)國(guó)內(nèi)外最大的在線語(yǔ)料庫(kù)——BCC 語(yǔ)料庫(kù),并在多個(gè)領(lǐng)域開展過(guò)漢語(yǔ)語(yǔ)義理解落地應(yīng)用工作。荀恩東教授的演講主題是《語(yǔ)言智能核心問(wèn)題——語(yǔ)義理解》。
在演講中,荀恩東教授表示,隨著大數(shù)據(jù)紅利褪去,語(yǔ)義理解已經(jīng)成為自然語(yǔ)言處理中越來(lái)越重要的層面,并且不可避免。他首先討論了自然語(yǔ)言的兩個(gè)特點(diǎn),即歧義和多樣性,并指出這兩個(gè)特點(diǎn)是語(yǔ)言理解的難點(diǎn)所在。然后他提到,語(yǔ)言理解的一般目標(biāo),是對(duì)自然語(yǔ)言進(jìn)行結(jié)構(gòu)化。最后,荀恩東教授介紹了一種新型的語(yǔ)義表示方案,即意合圖,力求促進(jìn)自然語(yǔ)言的語(yǔ)義理解。
以下是演講全文,AI科技評(píng)論進(jìn)行了不改變?cè)獾恼恚?/p>
今天我分享的話題跟語(yǔ)言智能、語(yǔ)義理解相關(guān),演講主要內(nèi)容是:語(yǔ)言智能及其應(yīng)用類型;語(yǔ)言理解的目標(biāo)、途徑和方法;語(yǔ)義理解中的語(yǔ)義表示和構(gòu)建。
人工智能發(fā)展經(jīng)歷了幾個(gè)階段,計(jì)算智能、感知智能、認(rèn)知智能和創(chuàng)造智能。我們?cè)诟兄悄苋〉昧朔浅4蟮倪M(jìn)步,感知智能處理的對(duì)象是視覺(jué)和語(yǔ)音。認(rèn)知智能處理的主要對(duì)象是自然語(yǔ)言,因?yàn)檎Z(yǔ)言是認(rèn)知的工具。
相比視覺(jué)和語(yǔ)音,認(rèn)知智能或語(yǔ)言智能是更有挑戰(zhàn)性。因?yàn)檎J(rèn)知智能處理的對(duì)象是自然語(yǔ)言,自然語(yǔ)言非常靈活。在視覺(jué)和語(yǔ)音階段解決的是識(shí)別問(wèn)題,到語(yǔ)言階段就涉及到理解問(wèn)題。
語(yǔ)言智能這么難是由自然語(yǔ)言的特點(diǎn)決定的。我們知道自然語(yǔ)言的歧義無(wú)處不在,歧義包括語(yǔ)義、詞法、語(yǔ)法、語(yǔ)意、語(yǔ)用、語(yǔ)境等方面。
舉幾個(gè)例子,比如說(shuō)“魯迅著作”在不同語(yǔ)境里有歧義:是指魯迅寫的文學(xué)作品,還是關(guān)于魯迅的某種論述呢?“我們研究所有東西”屬于分詞歧義,也即語(yǔ)法歧義?!拔以谄嚿袭嫯嫛保谡Z(yǔ)法上沒(méi)有歧義,但是在語(yǔ)義上有歧義。需要用一般常識(shí)告訴我們,人肯定不是在汽車頂上畫畫,應(yīng)該是坐在汽車?yán)锂嫯??!坝型潞⒆涌忌厦:軆?yōu)秀”,“同事孩子考上名校很開心”,對(duì)于誰(shuí)開心、誰(shuí)優(yōu)秀,也屬于語(yǔ)義上的歧義?!霸诙炷艽┒嗌俅┒嗌?,夏天能穿多少穿多少”。這兩句的字面意思一樣,結(jié)合語(yǔ)境就完全不一樣了。這就是語(yǔ)言的歧義性。
語(yǔ)言的多樣性也是造成語(yǔ)言處理困難的主要方面,包括主題不同、表達(dá)不規(guī)范等等。我們理解語(yǔ)言往往要調(diào)用外部的知識(shí),比如世界知識(shí)。讓計(jì)算機(jī)處理語(yǔ)言,面臨著知識(shí)獲取的瓶頸,以及文化習(xí)俗的密切影響,文化習(xí)俗是動(dòng)態(tài)、約定俗成的,有時(shí)候甚至是不講道理的。
目前語(yǔ)言智能在多個(gè)領(lǐng)域有應(yīng)用,主要是四種類型:分類、生成、抽取和校對(duì)。
分類問(wèn)題:也就是給語(yǔ)言對(duì)象打標(biāo)簽,語(yǔ)言對(duì)象可以是句子、篇章、文檔集,標(biāo)簽可以是二值、多值標(biāo)簽,在不同領(lǐng)域有不同的含義。
生成問(wèn)題:給定原文本生成另一種文本表達(dá),典型的應(yīng)用是機(jī)器翻譯,給定原語(yǔ)言生成目標(biāo)語(yǔ)言,以及人機(jī)對(duì)話、自動(dòng)寫作等等。
抽取問(wèn)題:從研究對(duì)象提取想要的答案,有兩種情況。1、從原文里直接摘取答案,比如信息檢索和機(jī)器問(wèn)答。2、從原文摘取內(nèi)容并經(jīng)過(guò)加工和處理,以滿足某種需求,屬于挖掘類問(wèn)題。比如說(shuō)給定文檔數(shù)據(jù)集,以生成知識(shí)圖譜,知識(shí)圖譜來(lái)源于大數(shù)據(jù),但是,知識(shí)圖譜是經(jīng)過(guò)了再加工和再處理,用來(lái)滿足某種需求。還有文本摘要問(wèn)題,也是一樣。
校對(duì)問(wèn)題:讓計(jì)算機(jī)對(duì)給定的處理對(duì)象,回答對(duì)應(yīng)信息是否齊全、是否一致、是否準(zhǔn)確的問(wèn)題。這個(gè)問(wèn)題有多個(gè)場(chǎng)景應(yīng)用,比如合同審查、公文審查、稿件校對(duì)、知識(shí)圖譜補(bǔ)全等等。在合同審查時(shí),起草合同一定有必添的事項(xiàng),比如甲方、乙方、金額、引用的法律條款等等。這些信息是否存在不一致,是否存在缺失,是否存在引用不準(zhǔn)確,都是審查的對(duì)象。
知識(shí)圖譜里有一個(gè)很重要任務(wù)就是知識(shí)圖譜補(bǔ)全。從文檔集生成知識(shí)圖譜,難免存在數(shù)據(jù)稀疏的問(wèn)題,使得構(gòu)造的圖譜信息不夠完備,必須通過(guò)其他的信息源補(bǔ)全缺失信息。
語(yǔ)言理解是語(yǔ)言智能的主要任務(wù),涉及到語(yǔ)言理解的目標(biāo)、途徑和主要模型。計(jì)算機(jī)對(duì)語(yǔ)言的理解是指什么?實(shí)際上,在處理語(yǔ)言時(shí),所謂的理解就是確定了概念與語(yǔ)言單元的映射,以及知道承載概念單元的語(yǔ)言屬性,和知曉不同語(yǔ)言單元之間的關(guān)系。
語(yǔ)言單元在不同的場(chǎng)景里有不同的表現(xiàn),有的可能是詞和詞之間的關(guān)系,有的可能是句子和句子之間的關(guān)系,或者是段落和段落之間的關(guān)系等等。那么我們?nèi)绾未_定表達(dá)概念的語(yǔ)言單元、單元屬性和單元之間的關(guān)系呢?
舉兩個(gè)例子,第一個(gè)例子給一個(gè)句子,然后給出語(yǔ)義,生成意合圖。比如“警方嚴(yán)厲打擊經(jīng)濟(jì)犯罪”,這句話涉及兩個(gè)類別的概念:一是事件類概念,二是實(shí)體類概念。
如下圖所示,圓角矩形是事件,方角矩形就是實(shí)體?!按驌簟焙汀皣?yán)厲”是事件,警方和犯罪是實(shí)體,這就把實(shí)體之間的關(guān)系構(gòu)造出來(lái)了。在“打擊”和“嚴(yán)厲”下面還有屬性,有命題信息和情態(tài)信息。
第二個(gè)例子是一個(gè)知識(shí)圖譜,如上圖所示,其中有四個(gè)對(duì)象,我們要構(gòu)建四個(gè)對(duì)象之間的關(guān)系。張三和李四是同學(xué)關(guān)系,張三畢業(yè)于北語(yǔ),李四畢業(yè)于礦大,北語(yǔ)和礦大是鄰居關(guān)系。
此外還有屬性,屬性可以作用在單元上,也可以作用在關(guān)系上。在單元上,張三的屬性是男、年齡28歲。屬性也可以作用在邊上,比如張三和李四之間的同學(xué)關(guān)系的屬性,是高中,所以他們是高中同學(xué)關(guān)系。關(guān)系的屬性,以及控制關(guān)系的條件,是知識(shí)圖譜中非常重要的內(nèi)容。
語(yǔ)言理解的一般目標(biāo),是對(duì)自然語(yǔ)言進(jìn)行結(jié)構(gòu)化。自然語(yǔ)言處理涉及一系列的任務(wù),對(duì)象層面涉及句子、篇章和文本集,任務(wù)層面涉及分詞任務(wù)、NER、摘要、信息挖掘、信息抽取等等。
不管針對(duì)哪類對(duì)象和執(zhí)行哪種任務(wù),核心的計(jì)算過(guò)程都是將語(yǔ)言轉(zhuǎn)換成單元和關(guān)系上的屬性,屬性有兩類,一是無(wú)序標(biāo)簽;二是無(wú)序的關(guān)鍵值對(duì)。
語(yǔ)言關(guān)系在數(shù)學(xué)上表現(xiàn)為序列關(guān)系、集合關(guān)系、樹的形態(tài)和圖的形態(tài),復(fù)雜的問(wèn)題是這些形態(tài)的組合。所以做語(yǔ)言理解實(shí)際上就是把自然語(yǔ)言結(jié)構(gòu)化,這種結(jié)構(gòu)化是計(jì)算機(jī)可操作的方案,很容易對(duì)接落地的需求。
目前語(yǔ)言理解、語(yǔ)言信息處理主要依靠端到端模型。我們利用數(shù)據(jù)執(zhí)行任務(wù),從數(shù)據(jù)構(gòu)建模型,并從輸入直接得到輸出,中間過(guò)程交給機(jī)器學(xué)習(xí)完成。此外還有組合模型,用到了機(jī)器學(xué)習(xí)和符號(hào)運(yùn)算組合的策略。
端對(duì)端的運(yùn)算有四種模型,做自然語(yǔ)言處理都逃不過(guò)這四種模型:1、分類模型。給個(gè)對(duì)象,打標(biāo)簽;2、序列標(biāo)注模型。對(duì)序列的對(duì)象,給予每一個(gè)對(duì)象安排一個(gè)標(biāo)簽,即序列標(biāo)注;3、信道模型。即編碼器解碼器模型,把原信息做成某種編碼表示,之后做解碼和輸出;4、相似度計(jì)算。這種計(jì)算可以是針對(duì)詞的相似度,也可以是針對(duì)有上下文的詞的相似度,可以針對(duì)短語(yǔ)、句子或篇章。針對(duì)端對(duì)端的運(yùn)算,都涉及這四類模型,其他模型都是這四類模型的組合。
組合類的模型解決的問(wèn)題一定是端到端方案解決不了的,或者是端到端方案解決不好的問(wèn)題。這類問(wèn)題要么是復(fù)雜問(wèn)題,要么是想要規(guī)避端對(duì)端不可解釋、不可控缺陷的問(wèn)題。組合類模型有兩類,一類是以符號(hào)運(yùn)算統(tǒng)領(lǐng)全局,可以把復(fù)雜的輸入、復(fù)雜的問(wèn)題做子問(wèn)題分解,對(duì)每個(gè)子問(wèn)題找到合適方案,再做輸出。各個(gè)子問(wèn)題輸出之后,通過(guò)符號(hào)運(yùn)算做推導(dǎo),再得到問(wèn)題的答案。一類以機(jī)器學(xué)習(xí)做統(tǒng)領(lǐng),把復(fù)雜問(wèn)題化為子問(wèn)題,不同子問(wèn)題找到合適方案,再做輸出,把輸出統(tǒng)一在機(jī)器學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)下得到問(wèn)題的答案。
其中后者是學(xué)界正在探索的,就是把人類的結(jié)構(gòu)化知識(shí)和可控的信息融入到機(jī)器學(xué)習(xí)的框架里。前者是工程化的解決方案。
語(yǔ)義理解是語(yǔ)言理解的核心。語(yǔ)言理解可以在多個(gè)層面進(jìn)行,有語(yǔ)法層面、語(yǔ)義層面和語(yǔ)用層面(跨過(guò)語(yǔ)法和語(yǔ)義層面)。
當(dāng)然,隨著大數(shù)據(jù)的紅利褪去,我們?cè)絹?lái)越不能回避語(yǔ)義理解的問(wèn)題,越往深走這個(gè)問(wèn)題越發(fā)凸顯。不管是語(yǔ)言問(wèn)題還是其他問(wèn)題,比如語(yǔ)音、圖像等等,都面臨語(yǔ)義理解的問(wèn)題。
以前行業(yè)里都認(rèn)為,做自然語(yǔ)言處理的語(yǔ)義理解是個(gè)大坑。因?yàn)槊撾x了實(shí)際場(chǎng)景做語(yǔ)義是不切實(shí)際的。
但現(xiàn)在有一種可能,就是在具體場(chǎng)景還不明確的時(shí)候做語(yǔ)義分析。一旦分析結(jié)果和跟場(chǎng)景需求相結(jié)合,就能快速地得到解決方案,這是我們的目標(biāo)。我們?cè)谡Z(yǔ)義層面進(jìn)行探索,需要得到一種表示,這種表示可以非常容易地轉(zhuǎn)化成落地的應(yīng)用。
語(yǔ)義表示是自然語(yǔ)言學(xué)界一直在探討的問(wèn)題。通常我們用依存圖來(lái)理解自然語(yǔ)言,但是在實(shí)際場(chǎng)景中遠(yuǎn)遠(yuǎn)不是這樣。目前關(guān)于語(yǔ)義理解,AMR比較受學(xué)者的追捧。有一些大廠開源了語(yǔ)義分析的引擎,是為了提供得到中間表示的工具,而不是終端解決方案。
不管哪種表示形態(tài),一般的套路就是確定一個(gè)概念體系,然后開始標(biāo)注,之后學(xué)模型。但是在實(shí)際場(chǎng)景解決問(wèn)題的時(shí)候會(huì)面臨很大的問(wèn)題,就是確定的概念體系和標(biāo)記語(yǔ)料,跟實(shí)際場(chǎng)景相差很遠(yuǎn),應(yīng)用成本高。
為了得到更貼近應(yīng)用的語(yǔ)義表示方案,我們提出了意合圖。意合圖是什么呢?舉個(gè)例子,“它圓圓地畫了一個(gè)圈”,我們?cè)趺蠢斫膺@句話?
我們從一般語(yǔ)言的角度來(lái)提取這句話里最根本的東西,即事件和實(shí)體。意合圖是針對(duì)漢語(yǔ)意合語(yǔ)言的特點(diǎn)來(lái)做的。意合圖包括事件復(fù)合體和實(shí)體復(fù)合體,如下圖所示,圓角矩形是事件復(fù)合體,直角矩形是實(shí)體復(fù)合體。
我們把事件主體找出來(lái),就是“畫”這個(gè)動(dòng)詞。誰(shuí)畫了什么?然后我們需要找到主體和客體兩個(gè)實(shí)體復(fù)合體,找到了“他”和“圈”,這樣就把實(shí)體和事件之間進(jìn)行了關(guān)聯(lián)。
如果對(duì)所有自然語(yǔ)言做出這樣的表達(dá),對(duì)于理解語(yǔ)言是有幫助的。但問(wèn)題是,這種表示的完備性和泛化性如何?另外,這種表示是不是可計(jì)算的。
再舉幾個(gè)例子?!半m然你不出門,卻知天下事。”事件類有“出門”和“知”,這兩個(gè)事件具有轉(zhuǎn)折關(guān)系。與“出門”和“知”相關(guān)的實(shí)體是“你”和“天下事”。
“出門”和“知”在詞條級(jí)做加工和處理,因?yàn)檫@種詞條是穩(wěn)定的。我們可以在大數(shù)據(jù)將經(jīng)常搭配的詞條和類型找出來(lái),進(jìn)行匹配。
還有一種意合圖是,句子中沒(méi)有完備的事件實(shí)體結(jié)構(gòu),但是存在自定義的或者是隱性的關(guān)系。比如說(shuō)眼睛,一說(shuō)到眼睛,我們就知道這是指某個(gè)生物的眼睛。眼睛一定有一個(gè)主人,從“他哭腫了眼睛”,我們知道眼睛是“他”的。
這個(gè)例子也一樣,“我吃飯比他快”,“快”是比較的詞語(yǔ),是比較兩個(gè)吃的動(dòng)作,不能說(shuō)“我吃飯”跟“他”比。這里面的“他”和“我”產(chǎn)生了共享,共享就是指“吃飯”和“他”進(jìn)行了組合。
那么,怎么構(gòu)建意合圖?下圖展示了我們的技術(shù)路線。給一個(gè)句子,不采用端到端的解決方案做意合圖,否則需要標(biāo)記很多數(shù)據(jù)。我們的理念是,意合圖是不可標(biāo)的,因?yàn)閿?shù)量太龐大。我們借助塊依存結(jié)構(gòu)來(lái)做意合圖,先做結(jié)構(gòu),再?gòu)慕Y(jié)構(gòu)做語(yǔ)義。
在結(jié)構(gòu)階段,我們采用了語(yǔ)塊依存的做法,針對(duì)漢語(yǔ)的特點(diǎn)和實(shí)際應(yīng)用的要求,,構(gòu)造了超大規(guī)模的北語(yǔ)樹庫(kù)。
在語(yǔ)塊依存的結(jié)構(gòu)分析基礎(chǔ)上,我們利用各類的搭配,比如命題搭配、情態(tài)搭配和事理搭配數(shù)據(jù),通過(guò)符號(hào)運(yùn)算,生成意合圖。
在這里,各類搭配數(shù)據(jù),是在大數(shù)據(jù)自動(dòng)學(xué)習(xí)得到的,經(jīng)過(guò)前期或后期的人工校對(duì),保證搭配數(shù)據(jù)的質(zhì)量。
做結(jié)構(gòu)的時(shí)候依靠樹庫(kù)標(biāo)注,北語(yǔ)這幾年發(fā)布了幾個(gè)千萬(wàn)量級(jí)的樹庫(kù),基于分層分階段建設(shè)規(guī)劃,包括樹庫(kù)1.0(組塊語(yǔ)結(jié)構(gòu)),樹庫(kù)2.0(缺省結(jié)構(gòu)還原),樹庫(kù)3.0(句間關(guān)系),等等。我們的標(biāo)注數(shù)據(jù)基于篇章,規(guī)模很大,涉及很多領(lǐng)域。
下圖展示了塊依存樹1.0中組塊語(yǔ)結(jié)構(gòu)的例子。我們通過(guò)簡(jiǎn)單的標(biāo)注操作,得到快依存結(jié)構(gòu)。
下圖展示了塊依存樹2.0中缺省結(jié)構(gòu)還原的例子。在1.0的基礎(chǔ)上,我們針對(duì)事件類的謂詞,標(biāo)注了具有缺省的依存結(jié)構(gòu),構(gòu)造了主、謂、賓、狀、補(bǔ)自足的結(jié)構(gòu),這為下一步生成意合圖提供了充分的結(jié)構(gòu)基礎(chǔ)。
有了意合圖,我們能做很多任務(wù),意合圖是一種抽象表達(dá),可以用于對(duì)話、推理和生成圖譜、寫作等等。例如:我們可以在意合圖的基礎(chǔ)上引入第三方知識(shí),比如知識(shí)圖譜,做推理;如果大數(shù)據(jù)中句子都分析成意合圖形態(tài),可以做意合圖的融合,形成意合圖圖譜,進(jìn)一步可以生成知識(shí)圖譜、事理圖譜等;也可以做復(fù)述,從抽象的意合圖生成句子;可以從意合圖中抽取答案,做問(wèn)答系統(tǒng),可以從意合圖中提取至命題,做蘊(yùn)含分析等等。
我們團(tuán)隊(duì)已經(jīng)在專利、健康等領(lǐng)域初步應(yīng)用了意合圖,顯示了強(qiáng)大的功能,為語(yǔ)義理解研究和開發(fā)開辟了新的領(lǐng)域。 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章