丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給劉鵬
發(fā)送

0

中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

導(dǎo)語:知識工程和深度學(xué)習(xí)一樣,都是新一代人工智能的很有代表性的工作。

雷鋒網(wǎng) AI 科技評論按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。

CCF-GAIR 2018 延續(xù)前兩屆的「頂尖」陣容,提供 1 個主會場和 11 個專場(仿生機器人,機器人行業(yè)應(yīng)用,計算機視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI 芯片,IoT,投資人)的豐富平臺,意欲給三界參會者從產(chǎn)學(xué)研多個維度,呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會議內(nèi)容與現(xiàn)場體驗。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

趙軍,中國科學(xué)院自動化研究所模式識別國家重點實驗室,研究員,博士生導(dǎo)師,中國科學(xué)院大學(xué)人工智能學(xué)院崗位教授。研究領(lǐng)域為自然語言處理、知識圖譜、問答系統(tǒng)等。作為項目負(fù)責(zé)人承擔(dān)國家自然科學(xué)基金重點課題等多項國家級重要科研項目以及云知聲、華為、螞蟻金服等企業(yè)應(yīng)用項目。在 ACL、IJCAI、SIGIR、AAAI、COLING、EMNLP 等頂級國際會議和 TKDE 等重要學(xué)術(shù)期刊上發(fā)表論文 80 余篇。曾獲自然語言處理國際頂級學(xué)術(shù)會議 COLING 2014 最佳論文獎。兼任 ACM TALLIP 副主編,中國中文信息學(xué)會常務(wù)理事、語言與知識計算專委會副主任、計算語言學(xué)專委會副主任,《中文信息學(xué)報》編委等學(xué)術(shù)職位。在中國科學(xué)院大學(xué)主講《知識圖譜導(dǎo)論》等課程。

來到 CCF-GAIR 2018 大會第三日的自然語言處理專場,教授們?yōu)橛^眾奉上了環(huán)環(huán)相扣的精彩演講:

哈爾濱工業(yè)大學(xué)秦兵教授:「給定一個情感,可以讓生成的文本帶有這種情感,或者偏向這種情感?!?,清華大學(xué)孫茂松教授緊接著講解,「作詩將來要和知識圖譜結(jié)合」,來到知識圖譜領(lǐng)域,中科院趙軍教授正是國內(nèi)知識圖譜和問答系統(tǒng)方面的知名專家,趙軍教授還曾指導(dǎo)學(xué)生獲得 2014 年 COLING 會議最佳論文獎。

以下是趙軍教授發(fā)表的題為「開放域事件抽取」的演講全文,雷鋒網(wǎng) AI 科技評論在趙軍教授的幫助下,做了不改變原意的整理與編輯:

非常感謝劉挺老師和 CCF-GAIR 2018 大會的邀請。剛才劉老師也提到了,我本次報告與知識有關(guān)。自然語言處理是人工智能的一個重要應(yīng)用方向,上世紀(jì)五六十年代,人工智能的主要研究是,搜索的算法或者推理的算法。但是,人們在這個方面研究了一段時間后,意識到有一個問題不可回避,那就是知識。我們很多系統(tǒng)中沒有領(lǐng)域的知識或者專家的知識,在這種情況下,無法去做推理算法。這時,知識就成為人工智能一個非常重要的問題。

1977 年,F(xiàn)eigenbaum 提出,知識是人工智能非常重要的方向。2012 年,Web2.0 已經(jīng)面世,網(wǎng)絡(luò)上有了維基百科、百度百科等寶貴的知識資源。再加上信息抽取等自然語言處理技術(shù)的進展,這使得以前依靠專家來建立知識庫的傳統(tǒng)方法發(fā)生了顯著的變化,知識庫的規(guī)模和類型也都發(fā)生了顯著的變化,知識工程再次成為人工智能的一個熱點,它跟深度學(xué)習(xí)和情感一樣,都是新一代人工智能的很有代表性的工作。

知識圖譜有以下幾種:

實體圖譜,是一種是我們常見的以實體為中心的圖譜。例如,圖譜中間的一塊上,每一個節(jié)點都是一個實體,例如 Barack Obama 和 Michelle Obama,它們之間通過夫妻這種關(guān)系聯(lián)系起來,現(xiàn)在的大多數(shù)圖譜就是這樣的。

事件圖譜,事件的知識圖譜是應(yīng)用中不可缺少的一類圖譜,其中的每一個節(jié)點是一個事件,事件之間通過事件的關(guān)系(比如時序關(guān)系、因果關(guān)系等)相關(guān)聯(lián),這就叫做事件的圖譜。

實體圖譜和事件圖譜,對于我們做問答,以及其他應(yīng)用來說都必不可少。無論是實體圖譜還是事件圖譜,我們不可能完全依靠人工去構(gòu)建,我們需要關(guān)鍵技術(shù)的支撐,這個關(guān)鍵技術(shù)就是信息抽取的技術(shù)。

實體的識別是最基礎(chǔ)的,有了實體以后,做實體圖譜需要做關(guān)系抽取,比如(比爾蓋茨是微軟的 CEO),我們要轉(zhuǎn)成三元組的結(jié)構(gòu)化方式,CEO(比爾蓋茨,微軟)。當(dāng)然。還存在多元的關(guān)系,它們都可以轉(zhuǎn)成二元的關(guān)系,這樣存儲和應(yīng)用的時候,效率更高。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

事件的抽取與事件圖譜相關(guān)聯(lián),舉個例子,土耳其的飛機失事事件,這樣一個事件的類別屬于恐怖事件,襲擊的目標(biāo)是俄羅斯戰(zhàn)機,襲擊的工具是 F-16,還有地點和時間,這就是事件。我們要從一個文本當(dāng)中找出這樣的事件信息并進行結(jié)構(gòu)化,這就是事件的抽取。

有關(guān)事件的關(guān)系其實也有很多,目前,我們應(yīng)用方面比較關(guān)注的是事件的同指關(guān)系,還有時序關(guān)系、因果關(guān)系、上下位關(guān)系等。

今天我講的是事件的抽取,也捎帶講一點關(guān)系的抽取。

剛才,我主要講解的是開放域的事件的抽取。我們先了解什么是開放域,在談到開放域之前,來看看傳統(tǒng)的關(guān)鍵抽取是什么樣子的。傳統(tǒng)的叫預(yù)定義的關(guān)系抽取。我們抽取的目標(biāo)關(guān)系類別是定義好的,我們給定的語料的結(jié)構(gòu)是比較單一的,這種就是預(yù)定義的關(guān)系抽取。

學(xué)界、產(chǎn)業(yè)界在這方面做得很多,國際上也有評測,一般都給定一些標(biāo)注語料,這都是有監(jiān)督的關(guān)鍵抽取的技術(shù)。ACE 是美國的一個評測,評測的就是這個表中列出的實體關(guān)系類別。這是 SemEval 的實體關(guān)系的類別,這是 TAC-KBP 的實體關(guān)系類別,都是預(yù)定好的。

預(yù)定義的關(guān)系抽取,有各種各樣的方法來做預(yù)定義的關(guān)系抽取?,F(xiàn)在,大家所共同關(guān)注的還是深度學(xué)習(xí)的方法。2014 年 COLING 上,我們首次使用深度學(xué)習(xí)的方法做了基于卷積神經(jīng)網(wǎng)絡(luò)的預(yù)定義關(guān)系抽取?;谏疃葘W(xué)習(xí)的關(guān)系抽取方法在性能方面,較傳統(tǒng)方法有明顯的提升。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

那么為什么要研究開放域關(guān)系抽取呢?我們來看:

Freebase:4000 多萬實體,上萬個屬性關(guān)系,24 多億個事實三元組,這樣級別的關(guān)系抽取,如果還是依靠剛才的那種方法,依靠人工標(biāo)注的訓(xùn)練集,在這方面肯定行不通,這時我們就必須考慮一些自動的或者弱監(jiān)督、半監(jiān)督的方法,來做開放的關(guān)系抽取。

難點問題在于如何獲取訓(xùn)練語料。有了語料還不行,我們還需要研究新的抽取方法。在這方面,國際上有兩個有代表性的開放域關(guān)系提取的研究方法,一個是基于句法的方法,一個是基于知識監(jiān)督的方法。

基于句法的方法,是美國華盛頓大學(xué)圖靈實驗室做的一系列工作,例如,(華為,總部位于,深圳),語料庫中有各種表述方法,我們可以抽出(華為總部位于深圳,華為總部設(shè)置于深圳,華為將其總部建于深圳),都是相關(guān)的知識。我們需要通過句法分析器,對這樣的句子找出三元結(jié)構(gòu),抽取出來放在一起,這是我們所需要的知識。

基于句法的方法的核心是句法分析器。然而,很多找出來的句法三元組并不是我們需要的有實際含義的三元組,這是我們需要人工設(shè)計一些規(guī)則,把這些有實際含義的三元組過濾出來,這就是基于句法的關(guān)系抽取的主要思想。這種方法存在的問題是:這些實體關(guān)系三元組知識抽取出來放在了一起,它們到底代表什么語義還不明確,它的語義并沒有和人類的知識庫掛接,所以這還不是一種徹底的理解。而且,同樣的關(guān)系有各種各樣的語言表示,沒有歸一化,所以,如何應(yīng)用還存在很多問題。

基于知識監(jiān)督的方法。2007 年 CIKM 的論文最早提出這樣的思想,在 Wikipedia 中可以分成兩個區(qū)域,一個區(qū)域是結(jié)構(gòu)化部分,我們叫做 Infobox,另一個區(qū)域是自然語言表達的部分,這兩部分描述的信息有重疊,比如描述清華大學(xué)和建校時間的知識,在 Infobox 和自然語言里面有重疊的描述,如果把這兩部分對應(yīng)起來,就可以對應(yīng)兩邊區(qū)域的知識,一邊是它的訓(xùn)練集。這是一個非常簡單的思想。如果用 Infobox 的結(jié)構(gòu)化信息在 wikipedia 條目的自然語言文本中進行回標(biāo),可以自動產(chǎn)生訓(xùn)練語料。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

Mintz 發(fā)展了這種思想,提出了遠距離監(jiān)督方法或者說是知識監(jiān)督方法。大家看這個例子,第一個例子是正例,剩下的都是反例(也就是噪音)。我們需要把里面標(biāo)注的例子中的噪音例子給過濾掉。噪音問題目前是利用知識監(jiān)督方法建立訓(xùn)練集的最大挑戰(zhàn)。大家在這方面做了很多研究,主要思想是:正例有規(guī)律的出現(xiàn),反例是零零散散出現(xiàn),借助這樣的思想進行過濾。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

這是我們做的開放關(guān)系抽取的研究工作。我們用 Freebase 作為結(jié)構(gòu)化知識,在紐約時報的文本上進行回標(biāo)。作為過濾噪音的方法,我們用了多示例學(xué)習(xí)。在傳統(tǒng)的方法中,假設(shè)回標(biāo)的每個句子都表示這種關(guān)系,它的噪音就很多。在多學(xué)習(xí)示例當(dāng)中,我們假定至少有一個句子表示了這種關(guān)系,目的就是要把最有可能的句子標(biāo)注出來,這樣它的準(zhǔn)確率就比剛才那一個包里面的準(zhǔn)確率高了,性能就會提高。

這件工作也是在深度學(xué)習(xí)框架下做的。因為做關(guān)系抽取,需要有兩個實體,可以把句子分成三段。我們做深度學(xué)習(xí)和向量化的時候,不是一個句子做向量,而是把句子分成三部分,三部分分布做深度卷積操作,三部分的向量再合起來,來做整個句子向量化表示,這樣可以保留句子的更多結(jié)構(gòu)化信息,我們把這個模型叫分段卷積神經(jīng)網(wǎng)絡(luò)來自動學(xué)習(xí)特征。

 中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

這是我們標(biāo)注的知識庫和語料庫,F(xiàn)reebase 和紐約時報。我們?nèi)绻@樣做的話,可以達到相對比較好的性能(大概在 70% 多的水平),雖然比較低,但已經(jīng)比傳統(tǒng)方法高,因為這是在 Freebase 的很多關(guān)系的類別上做的,能做到這個程度,其實就可以看到希望。

后面講一下事件抽取。這是 ACE 的事件,可以定義的事件有這么多種。

預(yù)定義的事件抽取,預(yù)定義的事件抽取也是用神經(jīng)網(wǎng)絡(luò)做的。開放的事件抽取比開放的關(guān)系抽取要困難得多,為什么?

一個關(guān)系是由兩個實體、以及它們之間的關(guān)系構(gòu)成的。而一個事件不一樣,比如一個婚姻事件,它有五個要素。我們可以把兩個實體作為錨點,在文本中標(biāo)注。這個事件有五個要素,但不可能在一個句子中找全五個要素,因為,事件經(jīng)常橫跨幾句、甚至一 個段落才能找到要素。還有一個更重要的特征,中間這個是 Marriage,在 Freebase 里面表示為 ID 號,在文本當(dāng)中不可能找到對應(yīng)的位置,所以這個最鮮明的特征我們找不著,所以回標(biāo)的過程中遇到了非常大的困難。換句話,事件里面最有表征意義的是那個觸發(fā)詞,但是知識庫中只是一個標(biāo)號,所以觸發(fā)詞就沒有,這就很困難。

我們的方法,比如一類事件有 10 個要素,10 個要素不可能都出現(xiàn),但是一個事件里面會有一些核心要素,我們就從一堆要素當(dāng)中找出核心要素,用核心要素到句子當(dāng)中找到觸發(fā)詞,將觸發(fā)詞和前面的要素關(guān)聯(lián)到一起,再回標(biāo),就可以在文本當(dāng)中找到更多數(shù)據(jù),這就是我們的基本思想。在這件工作中,我們在 Freebase 上做了 21 類,ACE 只提供了 6000 個句子訓(xùn)練集,用我們這樣的方法可以找到 42 萬的語料,再過濾掉一些噪音,可靠性非常高的有 7 萬多句,然后再訓(xùn)練事件抽取模型,觸發(fā)詞識別正確率達到 89%,元素標(biāo)注正確率可以達到 85%。

今年,我們 ACL-2018 的一件工作也是在 Freebase 上做的,我們在一個具體的金融領(lǐng)域做一些項目(不是在通用領(lǐng)域),能不能發(fā)揮更好的作用。在金融領(lǐng)域做金融事件的挖掘,做了四類,凍結(jié)、質(zhì)押、回購、增減持。能不能用知識監(jiān)督方法建立建立訓(xùn)練語料把四類事件抽出來。我們主要的方法,利用金融知識庫,回標(biāo)的文本是上市公司年報,這是回標(biāo)的句子,后面是回標(biāo)以后具體的深度學(xué)習(xí)的方法,時間限制不做具體講解。

從我們的實驗可以看出來,在一個上市公司年報相對比較規(guī)范的文本中,知識庫也比較詳細(xì),我們可以比通用領(lǐng)域做得更好,基本上可以達到 90% 的水平,給企業(yè)做這樣的知識庫,他們再去做人工的編輯,做出來的知識資源還是非常有用的,這是我們的方法在金融領(lǐng)域的應(yīng)用。

今天我大概講了這幾個事情:知識圖譜很重要,事件圖譜是知識圖譜中很重要的類型,為了建立事件圖譜,我們需要研究開放域關(guān)系抽取,開放域事件抽取等等,其實可以在這方面做出很多有意思的工作,也可以有很多的應(yīng)用,是一種很有潛力的方法。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

中科院趙軍:開放域事件抽取 | CCF-GAIR 2018

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說