丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

YOCSEF「知識(shí)圖譜」專(zhuān)題探索班成功舉辦,五大高校、三大企業(yè)共話(huà)知識(shí)圖譜理論與未來(lái)

本文作者: skura 2018-12-16 17:22
導(dǎo)語(yǔ):演講嘉賓有清華大學(xué)張鈸教授,北京大學(xué)趙東巖教授,東南大學(xué)漆桂林教授,復(fù)旦大學(xué)肖仰華教授,武漢大學(xué)洪亮副教授。

雷鋒網(wǎng) AI 科技評(píng)論按,12 月 14 日,中國(guó)計(jì)算機(jī)學(xué)會(huì) YOCSEF 在中科院計(jì)算所舉辦「知識(shí)圖譜」專(zhuān)題探索班。知識(shí)圖譜和圖數(shù)據(jù)是目前計(jì)算機(jī)學(xué)科相關(guān)研究中的熱點(diǎn),具體研究涵蓋知識(shí)圖譜構(gòu)建,知識(shí)圖譜的存儲(chǔ)和查詢(xún)系統(tǒng),面向知識(shí)圖譜應(yīng)用,以及大圖數(shù)據(jù)的處理分析方法及系統(tǒng)等。

知識(shí)圖譜和圖數(shù)據(jù)為計(jì)算機(jī)研究者提供了一個(gè)非常好的交叉研究對(duì)象,這包括自然語(yǔ)言處理、數(shù)據(jù)庫(kù)、知識(shí)工程和機(jī)器學(xué)習(xí)等領(lǐng)域。同時(shí)基于知識(shí)圖譜的工業(yè)應(yīng)用,也是各大互聯(lián)網(wǎng)公司以及一些創(chuàng)業(yè)型企業(yè)共同關(guān)注的焦點(diǎn)。

基于此,此次探索班邀請(qǐng)到自然語(yǔ)言處理、數(shù)據(jù)庫(kù)、知識(shí)工程和機(jī)器學(xué)習(xí)領(lǐng)域重量級(jí)的專(zhuān)家做報(bào)告,進(jìn)行報(bào)告的專(zhuān)家教授名單如下:

  • 張鈸 清華大學(xué)計(jì)算機(jī)系教授、中科院院士

  • 吳信東 明略科技首席科學(xué)家、路易斯安那大學(xué)教授、IEEE/AAAS Fellow

  • 周暢 阿里巴巴達(dá)摩院高級(jí)算法工程師

  • 洪亮 武漢大學(xué)信息管理學(xué)院副教授

  • 漆桂林 東南大學(xué)教授、博導(dǎo)

  • 趙東巖 北京大學(xué)教授、大數(shù)據(jù)研究院自然語(yǔ)言處理與認(rèn)知智能實(shí)驗(yàn)室主任

  • 賈巖濤 華為公司中央軟件院知識(shí)圖譜首席技術(shù)專(zhuān)家

  • 肖仰華 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授

大家結(jié)合自己的研究領(lǐng)域,圍繞知識(shí)圖譜,對(duì)其理論、應(yīng)用以及創(chuàng)新和未來(lái)進(jìn)行了精彩討論,以下為各位嘉賓的探討內(nèi)容,雷鋒網(wǎng) AI 科技評(píng)論整理。

首位演講嘉賓為清華大學(xué)計(jì)算機(jī)系教授、中科院院士張鈸,他的演講主題為《人工智能與知識(shí)圖譜》。張鈸教授表示,進(jìn)入深度學(xué)習(xí)時(shí)代,技術(shù)的門(mén)檻變得很低,例如對(duì)于一些創(chuàng)業(yè)公司,掌握好數(shù)據(jù)和算法就可以進(jìn)入一個(gè)行業(yè)。但是現(xiàn)在大家發(fā)現(xiàn)深度學(xué)習(xí)并不那么好用,它的缺點(diǎn)很突出,一是系統(tǒng)非常脆弱、容易受攻擊等,存在不魯棒性、不可解釋性,這是其本質(zhì)缺點(diǎn)。他表示,一是我們使用的原始數(shù)據(jù)質(zhì)量差,二是系統(tǒng)不能學(xué)出有語(yǔ)義的特征。

他舉了一個(gè)形象的例子,將一張阿爾卑斯山的圖片加上噪聲,加噪聲之前和之后,人類(lèi)看起來(lái)沒(méi)差別,但計(jì)算機(jī)就把加噪聲之后的圖片識(shí)別成了狗,這說(shuō)明這樣的系統(tǒng)非常脆弱,和人類(lèi)視覺(jué)系統(tǒng)完全不同。這樣的系統(tǒng)存在極大的問(wèn)題,所以我們提出后深度學(xué)習(xí)時(shí)代。

張鈸教授表示,人類(lèi)的優(yōu)點(diǎn)是在大是大非前非常明確,雖然會(huì)犯小錯(cuò),但不會(huì)犯大錯(cuò),但機(jī)器與人相反,雖然不會(huì)犯小錯(cuò),但一犯就是大錯(cuò)。

他表示,后深度學(xué)習(xí)時(shí)代,應(yīng)該努力克服深度學(xué)習(xí)存在的問(wèn)題。我們需要將知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)相結(jié)合,進(jìn)行多學(xué)科交叉研究。而我國(guó)目前的研究現(xiàn)狀如下,研究機(jī)器學(xué)習(xí)的人很多,但很少有人研究知識(shí)表示和推理。他表示,科學(xué)研究必須強(qiáng)調(diào)多樣化,我們應(yīng)該重視知識(shí)表示和推理,這是人工智能最核心的內(nèi)容。

隨后,他提到如何把知識(shí)圖譜嵌入向量空間,「現(xiàn)在的很多方法看起來(lái)都不太理想,問(wèn)題是在投射的過(guò)程中要盡量少丟失語(yǔ)義。當(dāng)數(shù)據(jù)很大的時(shí)候很難做到?!?br/>

他表示,從人工智能的觀點(diǎn)來(lái)看,IBM Watson 真正把知識(shí)推理和數(shù)據(jù)結(jié)合起來(lái)了,是非常好的研究工作。

從人工智能的角度看知識(shí)圖譜未來(lái)的發(fā)展趨勢(shì),張鈸教授表達(dá)了如下觀點(diǎn),我國(guó)必須要建立大規(guī)模的知識(shí)庫(kù)。他表示,美國(guó)現(xiàn)在已經(jīng)做了很多相關(guān)工作,我們?nèi)绻胍縿e人的數(shù)據(jù)庫(kù)、知識(shí)圖譜,很難發(fā)表創(chuàng)新性的、有見(jiàn)解的文章。

第二位演講的嘉賓是明略科技首席科學(xué)家、路易斯安那大學(xué)教授、IEEE/AAAS Fellow 吳信東,他的主題是《大數(shù)據(jù),大知識(shí),大智慧》。

吳信東教授表示,每個(gè)人對(duì)大數(shù)據(jù)的理解都不一樣。大數(shù)據(jù)的核心問(wèn)題是多維數(shù)據(jù)問(wèn)題,會(huì)遇到很多困難,比如在數(shù)據(jù)的來(lái)源不一樣的時(shí)候,例如如何進(jìn)行數(shù)據(jù)融合,如何去尋找和添加不存在的知識(shí)。

對(duì)于大數(shù)據(jù)有兩種理解方式,一是常規(guī)意義上的大數(shù)據(jù),二是將本來(lái)不是大數(shù)據(jù)的信息變成大數(shù)據(jù),這就需要找出大數(shù)據(jù)的底層特征。大數(shù)據(jù)最底層特征有四個(gè):

1.大數(shù)據(jù)不是指數(shù)據(jù)的體積大,而是數(shù)據(jù)多元,有聲音、文本、表格、不同的語(yǔ)言等;

2.每個(gè)信息來(lái)源自治,數(shù)據(jù)是異構(gòu)的,都有自己的邏輯,不同來(lái)源的信息會(huì)可能會(huì)產(chǎn)生矛盾、斷層現(xiàn)象。這就和盲人摸象、小馬過(guò)河一樣;

3.大數(shù)據(jù)的體量是巨大的,每個(gè)數(shù)據(jù)講的可能是某件事物不同的方面,可以把它們進(jìn)行融合;

4. 數(shù)據(jù)是變化的,觀點(diǎn)在變,內(nèi)容在變,信息也在變。

想做大知識(shí),必須要考慮到知識(shí)的體量是巨大的,要從大量的知識(shí)里羅列出有質(zhì)量的知識(shí),從量到質(zhì)、從質(zhì)到序。從量到質(zhì)是指要從大量的數(shù)據(jù)里面找出對(duì)自己有用的數(shù)據(jù),從質(zhì)到序是指根據(jù)需求使用數(shù)據(jù),正如知識(shí)是一樣的,但是每個(gè)人學(xué)習(xí)的途徑不一樣,根據(jù)個(gè)人需求進(jìn)行學(xué)習(xí)。

他表示,在大數(shù)據(jù)、大知識(shí)之后,就是機(jī)器學(xué)習(xí)。我們用數(shù)據(jù)挖掘獲取知識(shí),一般來(lái)說(shuō),數(shù)據(jù)獲取和數(shù)據(jù)挖掘要花掉大約 3/4 的時(shí)間,數(shù)據(jù)一旦變化時(shí),是重做還是更新,如何進(jìn)行融合等都是數(shù)據(jù)挖掘所面臨的挑戰(zhàn)。

第三位上臺(tái)演講的嘉賓為阿里巴巴達(dá)摩院高級(jí)算法工程師周暢,他帶來(lái)了圖表示學(xué)習(xí)在阿里的相關(guān)應(yīng)用。

開(kāi)場(chǎng)伊始,他提到圖表示學(xué)習(xí)在阿里的如下應(yīng)用:賬號(hào)匹配、反作弊、推薦、金融風(fēng)控、搜索廣告、NLP、知識(shí)圖譜。隨后,他提到目前在工業(yè)界中比較主流的兩大類(lèi)方法:

一是 Skip-Gram+Random Walk,類(lèi) DeepWalk;二是 Sampled GCN,類(lèi) GraphSage.

他提到與業(yè)務(wù)比較相關(guān)的應(yīng)用——用戶(hù)對(duì)齊,也講解了他們?cè)?ICDM2018 上的文章。

這一系列介紹之后,他講到圖嵌入在推薦召回中的應(yīng)用。

  • 一是店內(nèi),這里談到他們 2016 年的相關(guān)工作,在 item-item 圖上的初試。他們修正了 DeepWalk 在 Random Walk 時(shí)更新的非對(duì)稱(chēng)概率的問(wèn)題,店內(nèi) Ctr 穩(wěn)定提升 10% 以上。

  • 二是全網(wǎng),這里涉及到集團(tuán)其他團(tuán)隊(duì)工作。如首頁(yè)個(gè)性化推薦,這是在 KDD2018 上的研究工作,他們加入了 Side-Information,進(jìn)行了精致的數(shù)據(jù)預(yù)處理;還有阿里媽媽搜索廣告,這里用 metapath GCN 來(lái)處理 Query、Item、Ad 的異構(gòu)關(guān)系。

他們目前正在進(jìn)行的工作是算法生成的內(nèi)容化推薦。他表示,目前的推薦是被動(dòng)響應(yīng)式,很難做出發(fā)現(xiàn)性。如何將內(nèi)容化、知識(shí)化的推薦構(gòu)造成主動(dòng)推送式,他提到如下四點(diǎn):首先理解用戶(hù)是什么樣的人,其次是內(nèi)容聚合,再是分析出用戶(hù)會(huì)對(duì)什么樣的概念、知識(shí)感興趣,最后是如何打動(dòng)、說(shuō)服用戶(hù)。

對(duì)于用戶(hù)是什么樣的人,可以通過(guò) User-Item 二部圖構(gòu)建 User/Item Embedding;針對(duì)內(nèi)容聚合,通過(guò) Item Embedding 進(jìn)行層次聚類(lèi);在分析用戶(hù)對(duì)什么知識(shí)、概念感興趣時(shí),可以用到 tree-based user interest mining;針對(duì)如何打動(dòng)、說(shuō)服用戶(hù),可以找到一個(gè)解釋?zhuān)窂剑?,能說(shuō)服用戶(hù)對(duì)這個(gè)主題感興趣,說(shuō)服方式有多種,如標(biāo)題/短標(biāo)題,知識(shí)卡片。

最后,他提到目前 Graph Learning 的挑戰(zhàn)。

一是計(jì)算效率與效果

  • 大規(guī)模屬性圖中負(fù)樣本選取方式對(duì)結(jié)果非常敏感,啟發(fā)式的方法 vs 對(duì)抗式的方法

  • 如何提高采樣效率,如何增量訓(xùn)練

  • Hierarchical 的圖表征學(xué)習(xí)

二是動(dòng)態(tài)圖建模

  • 主要的挑戰(zhàn)是如何處理圖中邊的時(shí)序關(guān)系

三是異構(gòu)圖的表達(dá)能力

  • Multi-Type/Multi-Edge 的圖如何學(xué)出更好的表征

四是多任務(wù)/遷移學(xué)習(xí)

  • 圖結(jié)構(gòu)如何遷移

而系統(tǒng)層面的挑戰(zhàn)主要有如下三點(diǎn):

  • 一是采用 Sparse 的圖計(jì)算系統(tǒng),或 Dense 的機(jī)器學(xué)習(xí)系統(tǒng),或采用兩者結(jié)合的系統(tǒng)?應(yīng)該采用何種編程思路。

  • 二是相比于其他機(jī)器學(xué)習(xí)模型,存在著大量不規(guī)范的參數(shù)讀寫(xiě)模式。

  • 三是種類(lèi)多,屬性復(fù)雜的異構(gòu)圖打 Batch 困難,難以利用 GPU 優(yōu)勢(shì)。

最后,他提到他們的全景圖,最下層是 Graph Engine,上面一層提供數(shù)據(jù)服務(wù),更上一層提供算法服務(wù),最上層是業(yè)務(wù)解決方案。

隨后進(jìn)行報(bào)告的嘉賓是武漢大學(xué)信息管理學(xué)院副教授洪亮,主題是《股權(quán)網(wǎng)絡(luò)視角下的金融知識(shí)圖譜研究與平臺(tái)》。

他表示,智能金融在智能投研、智能風(fēng)控、商業(yè)股權(quán)查詢(xún)平臺(tái)和智能監(jiān)管上應(yīng)用廣泛。目前,很多銀行、保險(xiǎn)、證券、信托、支付、監(jiān)管、消費(fèi)金融、信用評(píng)級(jí)、互聯(lián)網(wǎng)金融和基金公司都會(huì)用到智能金融。知識(shí)圖譜構(gòu)建了實(shí)現(xiàn)智能化應(yīng)用的基礎(chǔ)知識(shí)資源,但目前的金融知識(shí)圖譜還存在很多問(wèn)題,現(xiàn)有的金融知識(shí)圖譜數(shù)據(jù)零散,需要進(jìn)一步融合;缺少基于金融股權(quán)網(wǎng)絡(luò)的金融知識(shí)圖譜;缺少系統(tǒng)性金融風(fēng)險(xiǎn)監(jiān)管平臺(tái)。

他進(jìn)一步提到,從股權(quán)視角來(lái)看,抓住金融股權(quán)關(guān)聯(lián),就抓住了系統(tǒng)性金融風(fēng)險(xiǎn)形成與傳導(dǎo)的根源。目前,金融行業(yè)面臨著金融體系主體繁多、股權(quán)網(wǎng)絡(luò)龐大、結(jié)構(gòu)復(fù)雜等難題,但他們有自己的優(yōu)勢(shì),他們有國(guó)內(nèi) 400 多家商業(yè)銀行的股權(quán)信息,在工商銀行也有超過(guò)一億三元組信息數(shù)據(jù)。金融知識(shí)圖譜有助于實(shí)現(xiàn)股權(quán)「穿透式」監(jiān)管,協(xié)助金融主管部門(mén)進(jìn)行系統(tǒng)性金融風(fēng)險(xiǎn)的識(shí)別、防范與化解。

基于金融知識(shí)圖譜,洪亮副教授團(tuán)隊(duì)建立了知融金融大數(shù)據(jù)平臺(tái)。和商用股權(quán)查詢(xún)平臺(tái)不同的是,它可以進(jìn)行股權(quán)網(wǎng)絡(luò)結(jié)構(gòu)分析,可以進(jìn)行金融知識(shí)圖譜查詢(xún)與分析,防范和化解系統(tǒng)性金融風(fēng)險(xiǎn)。

在算法上,他們主要采用的有:Top-K 控制權(quán)路徑查詢(xún),從直接股東出發(fā),結(jié)合工商庫(kù)數(shù)據(jù)查找第二層股東,遞歸查找,直至最終股東;最終股東持股比例采用的是稀疏矩陣計(jì)算法;同時(shí)也使用了視圖縮放的交互式資本系圖摘要算法。

他表示,智能金融的入口是金融本體。團(tuán)隊(duì)采用基于知識(shí)圖譜的 RDF 數(shù)據(jù)管理,提供面向?qū)W術(shù)界、監(jiān)管部門(mén)的數(shù)據(jù)服務(wù)接口(API)。

未來(lái),團(tuán)隊(duì)的目標(biāo)是實(shí)現(xiàn)對(duì)金融體系的大數(shù)據(jù)完全覆蓋。接下來(lái)將進(jìn)一步深化金融知識(shí)圖譜的管理與分析,主要涉及的方面是:大規(guī)模金融知識(shí)圖譜的自動(dòng)構(gòu)建與高效管理;控制權(quán)網(wǎng)絡(luò)、資本系;股權(quán)網(wǎng)絡(luò)的風(fēng)險(xiǎn)傳導(dǎo)動(dòng)態(tài)模擬;集成分析:系統(tǒng)性風(fēng)險(xiǎn)防范與化解。

第五位上臺(tái)演講的嘉賓是東南大學(xué)教授、博導(dǎo)漆桂林,他的報(bào)告主要圍繞知識(shí)圖譜以及知識(shí)圖譜的表示、推理、未來(lái)發(fā)展展開(kāi)。

他表示,知識(shí)圖譜是一種語(yǔ)義網(wǎng)絡(luò),即一個(gè)具有圖結(jié)構(gòu)的知識(shí)庫(kù),這里圖的節(jié)點(diǎn)可以是概念,可以是實(shí)例,可以是 literal,圖的邊就是一個(gè)關(guān)系。

從知識(shí)表示的角度看,目前的研究存在很多問(wèn)題,如如何用知識(shí)圖譜表示事件,這里存在的問(wèn)題是,事件可能存在關(guān)聯(lián)以及因果關(guān)系,此外,目前關(guān)于事件表示沒(méi)有特別多的相關(guān)研究。

另外他還舉了一些代表性問(wèn)題,如時(shí)空知識(shí)如何表示,什么可以成為知識(shí)圖譜中的節(jié)點(diǎn),知識(shí)到底是靜態(tài)還是動(dòng)態(tài),圖表示是不是最好的表示知識(shí)的方法。

他提及,大家的研究不能太單一,如只做數(shù)據(jù)庫(kù)。

關(guān)于知識(shí)圖譜的表示,他用圖例進(jìn)行了形象說(shuō)明,包括 RDF、literal、OWL、知識(shí)圖譜嵌入、基于上下文的表示學(xué)習(xí)等。

對(duì)于知識(shí)圖譜的推理,他提到邏輯方面的推理和統(tǒng)計(jì)方面的推理。在關(guān)于統(tǒng)計(jì)方面的推理上,他表示 Path-based reasoning 和 knowledge representation learning 這兩方面值得關(guān)注。他提到他們開(kāi)發(fā)的一些規(guī)則引擎(0 型、1 型、2 型、3 型),目前 2 型的性能是萬(wàn)級(jí)規(guī)則、十萬(wàn)級(jí)本體、秒級(jí)速度,其他三類(lèi)的性能是萬(wàn)級(jí)規(guī)則、毫秒級(jí)速度。他表示,當(dāng)?shù)饺f(wàn)級(jí)規(guī)模時(shí),無(wú)論管理還是推理都比較麻煩。隨后,他也提到這些規(guī)則引擎的應(yīng)用場(chǎng)景,0 型可以用在疾病診斷、知識(shí)表示和推理,1 型已經(jīng)用于國(guó)家 863 項(xiàng)目、高考機(jī)器人、地理知識(shí)表示和推理等,2 型可以用于疾病診斷、知識(shí)表示和推理,3 型可用于多模態(tài)人機(jī)交互中的交互知識(shí)表示和推理。

演講最后,他總結(jié)到,我們應(yīng)該更強(qiáng)調(diào)對(duì)知識(shí)圖譜的表示,我們需要了解本體,包括 RDF、RDFS,另外,不應(yīng)該把自己的研究限制得太窄,例如可以把圖像考慮在內(nèi)。他表示,推理有很多應(yīng)用,例如做問(wèn)答和輔助決策,邏輯推理并不像大家想的那樣,實(shí)用性比較差。統(tǒng)計(jì)推理目前在知識(shí)圖譜推理里的應(yīng)用更多是做問(wèn)答和推薦,如果用來(lái)做決策和知識(shí)庫(kù)補(bǔ)全,不是特別適用。

第六位嘉賓是北京大學(xué)教授、大數(shù)據(jù)研究院自然語(yǔ)言處理與認(rèn)知智能實(shí)驗(yàn)室主任趙東巖,他的報(bào)告主題是《基于知識(shí)圖譜的文本語(yǔ)義理解及其智能應(yīng)用》。

他表示,目前,研究類(lèi)人智能技術(shù)的團(tuán)隊(duì)有很多,如 MIT 人工智能實(shí)驗(yàn)室、IBM Watson、Todai Robot、DeepMind、Google 問(wèn)答搜索引擎團(tuán)隊(duì)等,文本語(yǔ)義理解是這項(xiàng)技術(shù)中非常重要的一個(gè)方面。

機(jī)器是如何做到語(yǔ)義理解的?以高考機(jī)器人技術(shù)研究為例,有四個(gè)步驟:

  1. 構(gòu)建基礎(chǔ)語(yǔ)義資源庫(kù)及深度語(yǔ)義分析技術(shù)平臺(tái);

  2. 研制大規(guī)模知識(shí)庫(kù)構(gòu)建技術(shù),構(gòu)建學(xué)科知識(shí)庫(kù);

  3. 提出語(yǔ)義與知識(shí)表示方法、研制深度語(yǔ)義理解技術(shù);

  4. 實(shí)現(xiàn)面向初等教育問(wèn)題求解的知識(shí)推理。

從技術(shù)上來(lái)說(shuō),就是將自然語(yǔ)言問(wèn)題解析為與知識(shí)庫(kù)關(guān)聯(lián)的結(jié)構(gòu)化查詢(xún)語(yǔ)句。

他提到如下三個(gè)研究方向:

  • 第一個(gè)方向是知識(shí)圖譜的構(gòu)建,主要研究如何從開(kāi)放域網(wǎng)絡(luò)信息資源中萃取以實(shí)體及實(shí)體間關(guān)系形式存在的知識(shí)條目,并據(jù)此構(gòu)建以圖模式存儲(chǔ)的結(jié)構(gòu)化語(yǔ)義知識(shí)庫(kù)。

  • 第二個(gè)研究方向是語(yǔ)義理解與問(wèn)題求解,也就是基于大規(guī)模結(jié)構(gòu)化知識(shí)資源的語(yǔ)義分析與理解。

  • 第三個(gè)研究方向是答案生成,也就是自然語(yǔ)言答案生成。

目前,他們已經(jīng)使用大規(guī)模異構(gòu)知識(shí)資源的語(yǔ)義網(wǎng)絡(luò)構(gòu)建了龐大的技術(shù)構(gòu)建語(yǔ)義知識(shí)庫(kù),如地理因果邏輯知識(shí)庫(kù),他們從地理教材、百度百科和中文維基百科得到 13.49 萬(wàn)地理因相關(guān)的因果邏輯關(guān)系條目,組成地理因果邏輯關(guān)系知識(shí)庫(kù)。解答問(wèn)題使用了基于地理因果關(guān)系資源的排序方法和基于多通道卷積神經(jīng)網(wǎng)絡(luò)的排序方法。他們也能融合多種知識(shí)資源進(jìn)行事實(shí)類(lèi)問(wèn)題的求解。其中,基于多通道 CNN 的解答器具有加寬卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最深處有 14 層,有 將近四百萬(wàn)個(gè)神經(jīng)元節(jié)點(diǎn),兩千七百多萬(wàn)個(gè)網(wǎng)絡(luò)參數(shù)。

未來(lái),他們還想做智能對(duì)話(huà)系統(tǒng),希望領(lǐng)域自適應(yīng)對(duì)話(huà)系統(tǒng)可以完成檢索式對(duì)話(huà)、生成式對(duì)話(huà)和多輪及主動(dòng)對(duì)話(huà)技術(shù)。

第七位上臺(tái)嘉賓是華為公司中央軟件院知識(shí)圖譜首席技術(shù)專(zhuān)家賈巖濤,他的演講主題是《企業(yè)級(jí)領(lǐng)域知識(shí)圖譜構(gòu)建及其應(yīng)用》。

他的分享分為四個(gè)方面,一是知識(shí)圖譜的背景,二是領(lǐng)域知識(shí)圖譜的構(gòu)建,三是領(lǐng)域知識(shí)圖譜的應(yīng)用,四是領(lǐng)域知識(shí)圖譜的挑戰(zhàn)。

知識(shí)圖譜最早由 Google 于 2012 年提出,它是谷歌對(duì)其索引的所有事物、任務(wù)和地點(diǎn),例如地標(biāo)性建筑、名人、城市、球隊(duì)、大樓、電影、藝術(shù)品等構(gòu)建的關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜從本質(zhì)上講是一個(gè)圖結(jié)構(gòu),由節(jié)點(diǎn)和邊組成。

知識(shí)圖譜的構(gòu)建歷程如下,先是人工構(gòu)建、服務(wù)于人,隨后是算法構(gòu)建、機(jī)器可理解。

他具體講到通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜的構(gòu)建,通用知識(shí)圖譜常用于搜索領(lǐng)域,為搜索提供豐富的查詢(xún)結(jié)果,領(lǐng)域知識(shí)圖譜是聚集在某一特定領(lǐng)域的知識(shí)圖譜,服務(wù)于特定場(chǎng)景。

他表示,領(lǐng)域知識(shí)可以劃分為四大類(lèi),事實(shí)類(lèi)、概念類(lèi)、過(guò)程類(lèi)、主觀類(lèi),并詳細(xì)描述了這四類(lèi)領(lǐng)域知識(shí)。領(lǐng)域知識(shí)圖譜的構(gòu)建思路如下:先是領(lǐng)域知識(shí)建模,隨后進(jìn)行數(shù)據(jù)采集、清洗、轉(zhuǎn)換,接下來(lái)進(jìn)行知識(shí)抽取、融合,隨后是知識(shí)存儲(chǔ)、知識(shí)計(jì)算等操作。

他們?cè)陬I(lǐng)域知識(shí)抽取上也有若干工作,介紹如下:

  • 預(yù)定義事件抽取。這一工作發(fā)表在 EMNLP2018 上,傳統(tǒng)事件抽取利用句子級(jí)信息獨(dú)立預(yù)測(cè)多個(gè)事件,忽略了事件之間的依賴(lài)關(guān)系,他們提出了聯(lián)合句子和篇章信息的多事件協(xié)同抽取方法——基于層次標(biāo)注神經(jīng)網(wǎng)絡(luò)和門(mén)控多層關(guān)注機(jī)制的多事件協(xié)同抽取。

  • 關(guān)系融合,這是與愛(ài)丁堡大學(xué)合作的一篇工作。關(guān)系之間存在蘊(yùn)含關(guān)系發(fā)現(xiàn),是問(wèn)答系統(tǒng)等上層應(yīng)用的基礎(chǔ),現(xiàn)有的基于上下文的關(guān)系相似度的學(xué)習(xí)方法,無(wú)法處理數(shù)據(jù)稀疏問(wèn)題,他們提出 cross-graph 與 inside-graph 相結(jié)合的蘊(yùn)含關(guān)系發(fā)現(xiàn)方法。

在報(bào)告最后,他談到知識(shí)圖譜的三個(gè)應(yīng)用以及三個(gè)挑戰(zhàn)。目前知識(shí)圖譜可以應(yīng)用在智能搜索、智能問(wèn)答、智能運(yùn)維領(lǐng)域。三個(gè)主要的挑戰(zhàn)如下:一是如何將專(zhuān)家經(jīng)驗(yàn)進(jìn)行知識(shí)化,二是如何自動(dòng)構(gòu)建知識(shí)體系,三是如何做好語(yǔ)音、視頻、圖像等多模態(tài)的全聯(lián)結(jié)。

第八位演講的嘉賓是復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授肖仰華,他主要探討機(jī)器語(yǔ)義理解的挑戰(zhàn)與未來(lái),以及如何利用知識(shí)圖譜進(jìn)行語(yǔ)義理解。

他表示,人類(lèi)之所以成為萬(wàn)物之靈,是因?yàn)槠渚哂姓Z(yǔ)言能力。機(jī)器是否具備語(yǔ)言能力?由于機(jī)器不能自動(dòng)理解數(shù)據(jù),因此目前的大數(shù)據(jù)并沒(méi)有被充分的利用。機(jī)器缺乏行業(yè)知識(shí),所以不能理解文本和數(shù)據(jù)。當(dāng)機(jī)器具備語(yǔ)言能力時(shí),才能真正產(chǎn)生能為人類(lèi)服務(wù)的人工智能,而不是「人工智障」。

目前的機(jī)器語(yǔ)言理解存在兩方面困難。

  • 第一個(gè)困難是,語(yǔ)言具有歧義性、關(guān)聯(lián)性和抽象性,同一個(gè)短語(yǔ)在不同的語(yǔ)境下意思可能大相徑庭。

  • 第二個(gè)困難是,語(yǔ)言表達(dá)具有多樣性,同一個(gè)事物可能有一百多種表達(dá)方式。

知識(shí)圖譜是解決機(jī)器語(yǔ)言理解問(wèn)題的一個(gè)方法,他也提到了一些創(chuàng)建方法。在他的研究中,用了兩類(lèi)常見(jiàn)的知識(shí)圖譜:一是概念圖譜,是通過(guò)互聯(lián)網(wǎng)里面的語(yǔ)義模式獲取的,采用了協(xié)同過(guò)濾等算法;二是涵蓋各種事實(shí)的知識(shí)圖譜。

他隨后提到,機(jī)器對(duì)語(yǔ)言的理解涉及到很多方面,包括短語(yǔ)、單詞的集合、對(duì)象的集合、不同的類(lèi)別、不同的動(dòng)詞結(jié)構(gòu)以及問(wèn)題等等。理解語(yǔ)言需要將文本里面的對(duì)象和知識(shí)庫(kù)里面的對(duì)象關(guān)聯(lián)起來(lái)。短文本的理解非常困難,如輸入一段話(huà),為了讓機(jī)器產(chǎn)生相關(guān)的概念,必須做兩個(gè)工作:區(qū)分出正確概念和錯(cuò)誤概念,找出信息量更大的概念。

最后,他總結(jié)道,得益于知識(shí)圖譜,機(jī)器可以做很多語(yǔ)言理解方面的工作。但目前,機(jī)器語(yǔ)言理解是基于統(tǒng)計(jì)模式的匹配,并不是真正意義上的理解。機(jī)器語(yǔ)言的理解還處于初級(jí)階段,未來(lái)還有還有很多難題需要科學(xué)家去解決。

至此,精彩的報(bào)告圓滿(mǎn)結(jié)束,各位演講嘉賓,或從學(xué)界角度,闡述了知識(shí)圖譜的理論、挑戰(zhàn)以及未來(lái)發(fā)展,或站在業(yè)界的角度,探討了知識(shí)圖譜的使用場(chǎng)景,以及在工業(yè)上的應(yīng)用。相信在未來(lái),我們將會(huì)看到知識(shí)圖譜更多技術(shù)上的革新與應(yīng)用。

雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

YOCSEF「知識(shí)圖譜」專(zhuān)題探索班成功舉辦,五大高校、三大企業(yè)共話(huà)知識(shí)圖譜理論與未來(lái)

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)