0
本文作者: 奕欣 | 2018-01-02 10:31 |
雷鋒網(wǎng)AI科技評(píng)論按:本文首發(fā)于“阿里技術(shù)”,AI 科技評(píng)論獲授權(quán)轉(zhuǎn)載。
近日,由阿里巴巴聯(lián)合中國中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專委會(huì) (KG 專委) 舉辦的知識(shí)圖譜研討會(huì)在杭州召開。研討會(huì)由阿里巴巴集團(tuán)副總裁墻輝(玄難)主持,知識(shí)圖譜領(lǐng)域國內(nèi)知名專家參與了此次研討。
參會(huì)專家學(xué)者合影
到場的國內(nèi)知名專家包括:中科院軟件所、中國中文信息學(xué)會(huì)副理事長兼秘書長孫樂教授,清華大學(xué)李涓子教授、劉知遠(yuǎn)助理教授,中國科學(xué)院自動(dòng)化所趙軍教授、劉康副教授,浙江大學(xué)陳華鈞教授,東南大學(xué)漆桂林教授,蘇州大學(xué)張民教授、陳文亮教授,北京大學(xué)趙東巖教授、馮巖松副教授。
孫樂,中國科學(xué)院軟件研究所,研究員,博士生導(dǎo)師,中文信息處理研究室負(fù)責(zé)人,中國中文信息學(xué)會(huì)副理事長兼秘書長,國際計(jì)算語言學(xué)年會(huì)(ACL 2015)組織委員會(huì)聯(lián)系主席。
在大數(shù)據(jù)時(shí)代,語言的理解,除了要基于數(shù)據(jù)模型和計(jì)算之外,還需要注重神經(jīng)科學(xué)認(rèn)知機(jī)制,以及大規(guī)模知識(shí)圖譜的利用。大規(guī)模知識(shí)圖譜對自然語言理解有至關(guān)重要的作用。我們的研究主要涉及兩個(gè)方面,一方面是從文本中獲取知識(shí),特別是如何構(gòu)建大規(guī)模中文知識(shí)庫,另外一方面是從知識(shí)到文本,如何基于已有知識(shí)來理解文本,比如實(shí)體鏈接和語義分析任務(wù)。
李涓子,清華大學(xué)教授,博士生導(dǎo)師,知識(shí)工程研究室負(fù)責(zé)人。中國中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專業(yè)委員會(huì)主任。長期從事知識(shí)工程和新聞及社會(huì)網(wǎng)路挖掘研究。主持研制大規(guī)模跨語言知識(shí)圖譜 XLORE。
大數(shù)據(jù)時(shí)代需要把數(shù)據(jù)轉(zhuǎn)化成知識(shí),為數(shù)據(jù)增添語義信息,獲得對大數(shù)據(jù)的洞察,使數(shù)據(jù)產(chǎn)生智慧,以提供決策支持等智能服務(wù)。知識(shí)圖譜把互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,可以把互聯(lián)網(wǎng)的內(nèi)容從符號(hào)映射成計(jì)算機(jī)可理解和計(jì)算的語義信息。知識(shí)工程實(shí)際上就是從大數(shù)據(jù)中挖掘知識(shí),建立知識(shí)圖譜,彌合大數(shù)據(jù)機(jī)器學(xué)習(xí)的低值特征與人類認(rèn)知的鴻溝,是實(shí)現(xiàn)機(jī)器智能的加速器。構(gòu)建大數(shù)據(jù)環(huán)境下的知識(shí)引擎是實(shí)現(xiàn)從互聯(lián)網(wǎng)信息服務(wù)向知識(shí)服務(wù)新業(yè)態(tài)躍遷的新技術(shù)。
趙軍,中國科學(xué)院自動(dòng)化研究所研究員,博士生導(dǎo)師。長期從事信息抽取、問答系統(tǒng)等方向的研究,在 ACL、SIGIR、IJCAI、COLING、TKDE 等頂級(jí)國際會(huì)議和期刊上發(fā)表論文 60 余篇,曾獲 COLING-2014 最佳論文獎(jiǎng)。
知識(shí)服務(wù)方式多種多樣,知識(shí)圖譜是重要的基礎(chǔ)設(shè)施。作為一種重要的知識(shí)服務(wù)方式,問答和對話系統(tǒng)一方面需要從知識(shí)圖譜中獲取知識(shí),滿足用戶信息需求;另一方面還需要從大規(guī)模問答和對話數(shù)據(jù)中學(xué)習(xí)問答和對話模式,以自然友好的方式與用戶交互。其中,知識(shí)圖譜基礎(chǔ)設(shè)施與深度學(xué)習(xí)等高效計(jì)算手段的結(jié)合是富有潛力的關(guān)鍵技術(shù)。
浙江大學(xué)教授、博導(dǎo),OpenKG 發(fā)起人,中國中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專家委員會(huì)副主任,浙江省大數(shù)據(jù)智能計(jì)算重點(diǎn)實(shí)驗(yàn)室副主任。
阿里 KG 很有挑戰(zhàn),需要綜合運(yùn)用好知識(shí)表示與推理、自然語言處理和深度學(xué)習(xí)等多方面的技術(shù)具有獲取、學(xué)習(xí)、表示和處理知識(shí)的能力是人類心智區(qū)別于其它物種心智的最重要特征。知識(shí)圖譜幫助構(gòu)建有「學(xué)識(shí)」的 AI。阿里 KG 的構(gòu)建和應(yīng)用都很有挑戰(zhàn),不限于輔助搜索和問答應(yīng)用,還包括支撐基于場景的智能導(dǎo)購、輔助平臺(tái)治理與管控、利用知識(shí)洞察消費(fèi)趨勢等多個(gè)應(yīng)用場景,最具挑戰(zhàn)的技術(shù)難點(diǎn)是推理能力的深度植入。對于計(jì)算機(jī)學(xué)科,產(chǎn)業(yè)力量非常重要,阿里已經(jīng)有了這樣的體量,應(yīng)該具備像谷歌類似的科技領(lǐng)導(dǎo)力,也希望像阿里這樣的行業(yè)翹楚能多多支持 OpenKG 的發(fā)展。
東南大學(xué)教授、博士生導(dǎo)師,獲得「六大人才高峰」資助。中國中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專業(yè)委員會(huì)副主任和中國科學(xué)技術(shù)情報(bào)學(xué)會(huì)知識(shí)組織專業(yè)委員會(huì)副主任。是開放知識(shí)圖譜聯(lián)盟 openKG 的聯(lián)合創(chuàng)始人之一。語義 Web 國際權(quán)威期刊 Journal of Web Semantics 和 Semantic Web Journal 編委,是國際期刊 DataIntelligence Journal 的執(zhí)行主編。
知識(shí)表示和推理對于知識(shí)工程來說是一個(gè)非常重要的研究方向。知識(shí)表示的形式很多,可以是圖或者邏輯公式集合,也可以是向量或張量等分布式表示。但這些都是知識(shí)的表現(xiàn)形式,并不是知識(shí)的內(nèi)涵。知識(shí)的內(nèi)涵需要配合知識(shí)推理才能全面的展現(xiàn)出來。邏輯推理對于知識(shí)庫的構(gòu)建和應(yīng)用都有不可忽略的價(jià)值,在知識(shí)庫構(gòu)建階段可以去對知識(shí)庫做不一致性檢測,從而保證知識(shí)庫不出現(xiàn)邏輯沖突,在應(yīng)用階段可以對一個(gè)面向知識(shí)庫的查詢做查詢的重寫,從而得到更多的精確答案。
邏輯推理需要有專家構(gòu)建的高質(zhì)量的規(guī)則庫或者本體庫才能很好的發(fā)揮作用。當(dāng)然,隨著技術(shù)的發(fā)展和海量數(shù)據(jù)的積累,也可以實(shí)現(xiàn)半自動(dòng)構(gòu)建規(guī)則和本體,這就需要去通過統(tǒng)計(jì)推理的方法來構(gòu)建不確定性的規(guī)則或者本體,然后由專家來修正。另外,也可以通過統(tǒng)計(jì)關(guān)系學(xué)習(xí)直接在知識(shí)圖譜是進(jìn)行推理,現(xiàn)有的統(tǒng)計(jì)關(guān)系學(xué)習(xí)方法雖然很多,但是缺少在海量數(shù)據(jù)下可以應(yīng)用的開源系統(tǒng),這方面還有不少研究和工程工作要做。
蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,蘇州大學(xué)人類語言技術(shù)研究所副所長。曾擔(dān)任 IALP-2015、IJCNLP-2017、CCKS-2017 程序委員會(huì)主席或領(lǐng)域主席。
高質(zhì)量的標(biāo)注訓(xùn)練數(shù)據(jù)是很難獲得的。傳統(tǒng)的聘請領(lǐng)域?qū)<业臄?shù)據(jù)標(biāo)注方式獲得的標(biāo)注數(shù)據(jù)往往是「少、慢、好、貴」,而全部使用眾包的標(biāo)注方式獲得的數(shù)據(jù)是「多、快、糙、省」。所以,可以采取一種折中的方式,利用少量的專家加上大量的眾包人員完成標(biāo)注任務(wù),達(dá)到「多、快、好、省」的目的。這種方式比較適合分詞、詞性標(biāo)注、NER 等任務(wù),我們可以多快好省的把這個(gè)事情干好。
或者說用遠(yuǎn)程監(jiān)督的方法,干脆不用人力,用知識(shí)圖譜直接生成訓(xùn)練數(shù)據(jù)就行了,獲得有噪音大量訓(xùn)練數(shù)據(jù)。我們的結(jié)果顯示,帶噪音的訓(xùn)練數(shù)據(jù)可以構(gòu)造效果還算可以的關(guān)系抽取系統(tǒng),但離效果很好的目標(biāo),還有很長的路要走。
清華大學(xué)計(jì)算機(jī)系助理教授、博士生導(dǎo)師。在 AAAI、IJCAI、ACL 等人工智能領(lǐng)域的著名國際期刊和會(huì)議發(fā)表相關(guān)論文 20 余篇,Google Scholar 統(tǒng)計(jì)引用超過 1900 次。
知識(shí)表示的挑戰(zhàn)在于基于符號(hào)表示的三元組(RDF)無法有效計(jì)算實(shí)體間的語義關(guān)系。利用分布式表示學(xué)習(xí)旨在實(shí)現(xiàn)知識(shí)的高效表示與計(jì)算。知識(shí)表示學(xué)習(xí)旨在將知識(shí)圖譜中的實(shí)體和關(guān)系映射到低維向量空間。該向量空間可以有效緩解大數(shù)據(jù)處理面臨的數(shù)據(jù)稀疏問題,并能夠靈活實(shí)現(xiàn)多源信息融合與知識(shí)遷移。近年來,以 TransE 為代表的知識(shí)表示學(xué)習(xí)已在知識(shí)圖譜補(bǔ)全、關(guān)系抽取、知識(shí)圖譜融合、實(shí)體分類等多個(gè)重要任務(wù)中獲得廣泛應(yīng)用。
博士,北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)研究所副教授。其研究小組構(gòu)建了大規(guī)模結(jié)構(gòu)化中文百科知識(shí)庫 PKUBase,并連續(xù)三年在面向結(jié)構(gòu)化知識(shí)庫的知識(shí)問答評(píng)測 QALD-4,5, 6 中獲得第一名。
目前知識(shí)圖譜的構(gòu)建主要有三種方案:一是利用專家手工構(gòu)建,二是基于已有結(jié)構(gòu)化資源自動(dòng)構(gòu)建,三是利用志愿者眾包標(biāo)注。關(guān)鍵點(diǎn)在于知識(shí)庫體系的確定方法和知識(shí)條目的收集。在神經(jīng)網(wǎng)絡(luò)時(shí)代下,與傳統(tǒng)方法相比,深度學(xué)習(xí)框架具有先天的優(yōu)勢,但仍需要與專家經(jīng)驗(yàn)做進(jìn)一步結(jié)合。利用先驗(yàn)知識(shí),充分利用「人」來完善知識(shí)圖譜的構(gòu)建,將人給出經(jīng)驗(yàn)性規(guī)則與現(xiàn)代機(jī)器學(xué)習(xí)方法有機(jī)結(jié)合起來必將是未來知識(shí)圖譜研究的發(fā)展方向之一。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。