丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給劉鵬
發(fā)送

0

中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

導(dǎo)語(yǔ):知識(shí)工程和深度學(xué)習(xí)一樣,都是新一代人工智能的很有代表性的工作。

雷鋒網(wǎng) AI 科技評(píng)論按:2018 全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR)在深圳召開,峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流盛會(huì),旨在打造國(guó)內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。

CCF-GAIR 2018 延續(xù)前兩屆的「頂尖」陣容,提供 1 個(gè)主會(huì)場(chǎng)和 11 個(gè)專場(chǎng)(仿生機(jī)器人,機(jī)器人行業(yè)應(yīng)用,計(jì)算機(jī)視覺(jué),智能安全,金融科技,智能駕駛,NLP,AI+,AI 芯片,IoT,投資人)的豐富平臺(tái),意欲給三界參會(huì)者從產(chǎn)學(xué)研多個(gè)維度,呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會(huì)議內(nèi)容與現(xiàn)場(chǎng)體驗(yàn)。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

趙軍,中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,研究員,博士生導(dǎo)師,中國(guó)科學(xué)院大學(xué)人工智能學(xué)院崗位教授。研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、知識(shí)圖譜、問(wèn)答系統(tǒng)等。作為項(xiàng)目負(fù)責(zé)人承擔(dān)國(guó)家自然科學(xué)基金重點(diǎn)課題等多項(xiàng)國(guó)家級(jí)重要科研項(xiàng)目以及云知聲、華為、螞蟻金服等企業(yè)應(yīng)用項(xiàng)目。在 ACL、IJCAI、SIGIR、AAAI、COLING、EMNLP 等頂級(jí)國(guó)際會(huì)議和 TKDE 等重要學(xué)術(shù)期刊上發(fā)表論文 80 余篇。曾獲自然語(yǔ)言處理國(guó)際頂級(jí)學(xué)術(shù)會(huì)議 COLING 2014 最佳論文獎(jiǎng)。兼任 ACM TALLIP 副主編,中國(guó)中文信息學(xué)會(huì)常務(wù)理事、語(yǔ)言與知識(shí)計(jì)算專委會(huì)副主任、計(jì)算語(yǔ)言學(xué)專委會(huì)副主任,《中文信息學(xué)報(bào)》編委等學(xué)術(shù)職位。在中國(guó)科學(xué)院大學(xué)主講《知識(shí)圖譜導(dǎo)論》等課程。

來(lái)到 CCF-GAIR 2018 大會(huì)第三日的自然語(yǔ)言處理專場(chǎng),教授們?yōu)橛^眾奉上了環(huán)環(huán)相扣的精彩演講:

哈爾濱工業(yè)大學(xué)秦兵教授:「給定一個(gè)情感,可以讓生成的文本帶有這種情感,或者偏向這種情感?!?,清華大學(xué)孫茂松教授緊接著講解,「作詩(shī)將來(lái)要和知識(shí)圖譜結(jié)合」,來(lái)到知識(shí)圖譜領(lǐng)域,中科院趙軍教授正是國(guó)內(nèi)知識(shí)圖譜和問(wèn)答系統(tǒng)方面的知名專家,趙軍教授還曾指導(dǎo)學(xué)生獲得 2014 年 COLING 會(huì)議最佳論文獎(jiǎng)。

以下是趙軍教授發(fā)表的題為「開放域事件抽取」的演講全文,雷鋒網(wǎng) AI 科技評(píng)論在趙軍教授的幫助下,做了不改變?cè)獾恼砼c編輯:

非常感謝劉挺老師和 CCF-GAIR 2018 大會(huì)的邀請(qǐng)。剛才劉老師也提到了,我本次報(bào)告與知識(shí)有關(guān)。自然語(yǔ)言處理是人工智能的一個(gè)重要應(yīng)用方向,上世紀(jì)五六十年代,人工智能的主要研究是,搜索的算法或者推理的算法。但是,人們?cè)谶@個(gè)方面研究了一段時(shí)間后,意識(shí)到有一個(gè)問(wèn)題不可回避,那就是知識(shí)。我們很多系統(tǒng)中沒(méi)有領(lǐng)域的知識(shí)或者專家的知識(shí),在這種情況下,無(wú)法去做推理算法。這時(shí),知識(shí)就成為人工智能一個(gè)非常重要的問(wèn)題。

1977 年,F(xiàn)eigenbaum 提出,知識(shí)是人工智能非常重要的方向。2012 年,Web2.0 已經(jīng)面世,網(wǎng)絡(luò)上有了維基百科、百度百科等寶貴的知識(shí)資源。再加上信息抽取等自然語(yǔ)言處理技術(shù)的進(jìn)展,這使得以前依靠專家來(lái)建立知識(shí)庫(kù)的傳統(tǒng)方法發(fā)生了顯著的變化,知識(shí)庫(kù)的規(guī)模和類型也都發(fā)生了顯著的變化,知識(shí)工程再次成為人工智能的一個(gè)熱點(diǎn),它跟深度學(xué)習(xí)和情感一樣,都是新一代人工智能的很有代表性的工作。

知識(shí)圖譜有以下幾種:

實(shí)體圖譜,是一種是我們常見的以實(shí)體為中心的圖譜。例如,圖譜中間的一塊上,每一個(gè)節(jié)點(diǎn)都是一個(gè)實(shí)體,例如 Barack Obama 和 Michelle Obama,它們之間通過(guò)夫妻這種關(guān)系聯(lián)系起來(lái),現(xiàn)在的大多數(shù)圖譜就是這樣的。

事件圖譜,事件的知識(shí)圖譜是應(yīng)用中不可缺少的一類圖譜,其中的每一個(gè)節(jié)點(diǎn)是一個(gè)事件,事件之間通過(guò)事件的關(guān)系(比如時(shí)序關(guān)系、因果關(guān)系等)相關(guān)聯(lián),這就叫做事件的圖譜。

實(shí)體圖譜和事件圖譜,對(duì)于我們做問(wèn)答,以及其他應(yīng)用來(lái)說(shuō)都必不可少。無(wú)論是實(shí)體圖譜還是事件圖譜,我們不可能完全依靠人工去構(gòu)建,我們需要關(guān)鍵技術(shù)的支撐,這個(gè)關(guān)鍵技術(shù)就是信息抽取的技術(shù)。

實(shí)體的識(shí)別是最基礎(chǔ)的,有了實(shí)體以后,做實(shí)體圖譜需要做關(guān)系抽取,比如(比爾蓋茨是微軟的 CEO),我們要轉(zhuǎn)成三元組的結(jié)構(gòu)化方式,CEO(比爾蓋茨,微軟)。當(dāng)然。還存在多元的關(guān)系,它們都可以轉(zhuǎn)成二元的關(guān)系,這樣存儲(chǔ)和應(yīng)用的時(shí)候,效率更高。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

事件的抽取與事件圖譜相關(guān)聯(lián),舉個(gè)例子,土耳其的飛機(jī)失事事件,這樣一個(gè)事件的類別屬于恐怖事件,襲擊的目標(biāo)是俄羅斯戰(zhàn)機(jī),襲擊的工具是 F-16,還有地點(diǎn)和時(shí)間,這就是事件。我們要從一個(gè)文本當(dāng)中找出這樣的事件信息并進(jìn)行結(jié)構(gòu)化,這就是事件的抽取。

有關(guān)事件的關(guān)系其實(shí)也有很多,目前,我們應(yīng)用方面比較關(guān)注的是事件的同指關(guān)系,還有時(shí)序關(guān)系、因果關(guān)系、上下位關(guān)系等。

今天我講的是事件的抽取,也捎帶講一點(diǎn)關(guān)系的抽取。

剛才,我主要講解的是開放域的事件的抽取。我們先了解什么是開放域,在談到開放域之前,來(lái)看看傳統(tǒng)的關(guān)鍵抽取是什么樣子的。傳統(tǒng)的叫預(yù)定義的關(guān)系抽取。我們抽取的目標(biāo)關(guān)系類別是定義好的,我們給定的語(yǔ)料的結(jié)構(gòu)是比較單一的,這種就是預(yù)定義的關(guān)系抽取。

學(xué)界、產(chǎn)業(yè)界在這方面做得很多,國(guó)際上也有評(píng)測(cè),一般都給定一些標(biāo)注語(yǔ)料,這都是有監(jiān)督的關(guān)鍵抽取的技術(shù)。ACE 是美國(guó)的一個(gè)評(píng)測(cè),評(píng)測(cè)的就是這個(gè)表中列出的實(shí)體關(guān)系類別。這是 SemEval 的實(shí)體關(guān)系的類別,這是 TAC-KBP 的實(shí)體關(guān)系類別,都是預(yù)定好的。

預(yù)定義的關(guān)系抽取,有各種各樣的方法來(lái)做預(yù)定義的關(guān)系抽取?,F(xiàn)在,大家所共同關(guān)注的還是深度學(xué)習(xí)的方法。2014 年 COLING 上,我們首次使用深度學(xué)習(xí)的方法做了基于卷積神經(jīng)網(wǎng)絡(luò)的預(yù)定義關(guān)系抽取?;谏疃葘W(xué)習(xí)的關(guān)系抽取方法在性能方面,較傳統(tǒng)方法有明顯的提升。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

那么為什么要研究開放域關(guān)系抽取呢?我們來(lái)看:

Freebase:4000 多萬(wàn)實(shí)體,上萬(wàn)個(gè)屬性關(guān)系,24 多億個(gè)事實(shí)三元組,這樣級(jí)別的關(guān)系抽取,如果還是依靠剛才的那種方法,依靠人工標(biāo)注的訓(xùn)練集,在這方面肯定行不通,這時(shí)我們就必須考慮一些自動(dòng)的或者弱監(jiān)督、半監(jiān)督的方法,來(lái)做開放的關(guān)系抽取。

難點(diǎn)問(wèn)題在于如何獲取訓(xùn)練語(yǔ)料。有了語(yǔ)料還不行,我們還需要研究新的抽取方法。在這方面,國(guó)際上有兩個(gè)有代表性的開放域關(guān)系提取的研究方法,一個(gè)是基于句法的方法,一個(gè)是基于知識(shí)監(jiān)督的方法。

基于句法的方法,是美國(guó)華盛頓大學(xué)圖靈實(shí)驗(yàn)室做的一系列工作,例如,(華為,總部位于,深圳),語(yǔ)料庫(kù)中有各種表述方法,我們可以抽出(華為總部位于深圳,華為總部設(shè)置于深圳,華為將其總部建于深圳),都是相關(guān)的知識(shí)。我們需要通過(guò)句法分析器,對(duì)這樣的句子找出三元結(jié)構(gòu),抽取出來(lái)放在一起,這是我們所需要的知識(shí)。

基于句法的方法的核心是句法分析器。然而,很多找出來(lái)的句法三元組并不是我們需要的有實(shí)際含義的三元組,這是我們需要人工設(shè)計(jì)一些規(guī)則,把這些有實(shí)際含義的三元組過(guò)濾出來(lái),這就是基于句法的關(guān)系抽取的主要思想。這種方法存在的問(wèn)題是:這些實(shí)體關(guān)系三元組知識(shí)抽取出來(lái)放在了一起,它們到底代表什么語(yǔ)義還不明確,它的語(yǔ)義并沒(méi)有和人類的知識(shí)庫(kù)掛接,所以這還不是一種徹底的理解。而且,同樣的關(guān)系有各種各樣的語(yǔ)言表示,沒(méi)有歸一化,所以,如何應(yīng)用還存在很多問(wèn)題。

基于知識(shí)監(jiān)督的方法。2007 年 CIKM 的論文最早提出這樣的思想,在 Wikipedia 中可以分成兩個(gè)區(qū)域,一個(gè)區(qū)域是結(jié)構(gòu)化部分,我們叫做 Infobox,另一個(gè)區(qū)域是自然語(yǔ)言表達(dá)的部分,這兩部分描述的信息有重疊,比如描述清華大學(xué)和建校時(shí)間的知識(shí),在 Infobox 和自然語(yǔ)言里面有重疊的描述,如果把這兩部分對(duì)應(yīng)起來(lái),就可以對(duì)應(yīng)兩邊區(qū)域的知識(shí),一邊是它的訓(xùn)練集。這是一個(gè)非常簡(jiǎn)單的思想。如果用 Infobox 的結(jié)構(gòu)化信息在 wikipedia 條目的自然語(yǔ)言文本中進(jìn)行回標(biāo),可以自動(dòng)產(chǎn)生訓(xùn)練語(yǔ)料。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

Mintz 發(fā)展了這種思想,提出了遠(yuǎn)距離監(jiān)督方法或者說(shuō)是知識(shí)監(jiān)督方法。大家看這個(gè)例子,第一個(gè)例子是正例,剩下的都是反例(也就是噪音)。我們需要把里面標(biāo)注的例子中的噪音例子給過(guò)濾掉。噪音問(wèn)題目前是利用知識(shí)監(jiān)督方法建立訓(xùn)練集的最大挑戰(zhàn)。大家在這方面做了很多研究,主要思想是:正例有規(guī)律的出現(xiàn),反例是零零散散出現(xiàn),借助這樣的思想進(jìn)行過(guò)濾。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

這是我們做的開放關(guān)系抽取的研究工作。我們用 Freebase 作為結(jié)構(gòu)化知識(shí),在紐約時(shí)報(bào)的文本上進(jìn)行回標(biāo)。作為過(guò)濾噪音的方法,我們用了多示例學(xué)習(xí)。在傳統(tǒng)的方法中,假設(shè)回標(biāo)的每個(gè)句子都表示這種關(guān)系,它的噪音就很多。在多學(xué)習(xí)示例當(dāng)中,我們假定至少有一個(gè)句子表示了這種關(guān)系,目的就是要把最有可能的句子標(biāo)注出來(lái),這樣它的準(zhǔn)確率就比剛才那一個(gè)包里面的準(zhǔn)確率高了,性能就會(huì)提高。

這件工作也是在深度學(xué)習(xí)框架下做的。因?yàn)樽鲫P(guān)系抽取,需要有兩個(gè)實(shí)體,可以把句子分成三段。我們做深度學(xué)習(xí)和向量化的時(shí)候,不是一個(gè)句子做向量,而是把句子分成三部分,三部分分布做深度卷積操作,三部分的向量再合起來(lái),來(lái)做整個(gè)句子向量化表示,這樣可以保留句子的更多結(jié)構(gòu)化信息,我們把這個(gè)模型叫分段卷積神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)學(xué)習(xí)特征。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

這是我們標(biāo)注的知識(shí)庫(kù)和語(yǔ)料庫(kù),F(xiàn)reebase 和紐約時(shí)報(bào)。我們?nèi)绻@樣做的話,可以達(dá)到相對(duì)比較好的性能(大概在 70% 多的水平),雖然比較低,但已經(jīng)比傳統(tǒng)方法高,因?yàn)檫@是在 Freebase 的很多關(guān)系的類別上做的,能做到這個(gè)程度,其實(shí)就可以看到希望。

后面講一下事件抽取。這是 ACE 的事件,可以定義的事件有這么多種。

預(yù)定義的事件抽取,預(yù)定義的事件抽取也是用神經(jīng)網(wǎng)絡(luò)做的。開放的事件抽取比開放的關(guān)系抽取要困難得多,為什么?

一個(gè)關(guān)系是由兩個(gè)實(shí)體、以及它們之間的關(guān)系構(gòu)成的。而一個(gè)事件不一樣,比如一個(gè)婚姻事件,它有五個(gè)要素。我們可以把兩個(gè)實(shí)體作為錨點(diǎn),在文本中標(biāo)注。這個(gè)事件有五個(gè)要素,但不可能在一個(gè)句子中找全五個(gè)要素,因?yàn)?,事件?jīng)常橫跨幾句、甚至一 個(gè)段落才能找到要素。還有一個(gè)更重要的特征,中間這個(gè)是 Marriage,在 Freebase 里面表示為 ID 號(hào),在文本當(dāng)中不可能找到對(duì)應(yīng)的位置,所以這個(gè)最鮮明的特征我們找不著,所以回標(biāo)的過(guò)程中遇到了非常大的困難。換句話,事件里面最有表征意義的是那個(gè)觸發(fā)詞,但是知識(shí)庫(kù)中只是一個(gè)標(biāo)號(hào),所以觸發(fā)詞就沒(méi)有,這就很困難。

我們的方法,比如一類事件有 10 個(gè)要素,10 個(gè)要素不可能都出現(xiàn),但是一個(gè)事件里面會(huì)有一些核心要素,我們就從一堆要素當(dāng)中找出核心要素,用核心要素到句子當(dāng)中找到觸發(fā)詞,將觸發(fā)詞和前面的要素關(guān)聯(lián)到一起,再回標(biāo),就可以在文本當(dāng)中找到更多數(shù)據(jù),這就是我們的基本思想。在這件工作中,我們?cè)?Freebase 上做了 21 類,ACE 只提供了 6000 個(gè)句子訓(xùn)練集,用我們這樣的方法可以找到 42 萬(wàn)的語(yǔ)料,再過(guò)濾掉一些噪音,可靠性非常高的有 7 萬(wàn)多句,然后再訓(xùn)練事件抽取模型,觸發(fā)詞識(shí)別正確率達(dá)到 89%,元素標(biāo)注正確率可以達(dá)到 85%。

今年,我們 ACL-2018 的一件工作也是在 Freebase 上做的,我們?cè)谝粋€(gè)具體的金融領(lǐng)域做一些項(xiàng)目(不是在通用領(lǐng)域),能不能發(fā)揮更好的作用。在金融領(lǐng)域做金融事件的挖掘,做了四類,凍結(jié)、質(zhì)押、回購(gòu)、增減持。能不能用知識(shí)監(jiān)督方法建立建立訓(xùn)練語(yǔ)料把四類事件抽出來(lái)。我們主要的方法,利用金融知識(shí)庫(kù),回標(biāo)的文本是上市公司年報(bào),這是回標(biāo)的句子,后面是回標(biāo)以后具體的深度學(xué)習(xí)的方法,時(shí)間限制不做具體講解。

從我們的實(shí)驗(yàn)可以看出來(lái),在一個(gè)上市公司年報(bào)相對(duì)比較規(guī)范的文本中,知識(shí)庫(kù)也比較詳細(xì),我們可以比通用領(lǐng)域做得更好,基本上可以達(dá)到 90% 的水平,給企業(yè)做這樣的知識(shí)庫(kù),他們?cè)偃プ鋈斯さ木庉?,做出?lái)的知識(shí)資源還是非常有用的,這是我們的方法在金融領(lǐng)域的應(yīng)用。

今天我大概講了這幾個(gè)事情:知識(shí)圖譜很重要,事件圖譜是知識(shí)圖譜中很重要的類型,為了建立事件圖譜,我們需要研究開放域關(guān)系抽取,開放域事件抽取等等,其實(shí)可以在這方面做出很多有意思的工作,也可以有很多的應(yīng)用,是一種很有潛力的方法。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)