0
本文作者: 奕欣 | 2018-01-02 10:31 |
雷鋒網(wǎng)AI科技評論按:本文首發(fā)于“阿里技術(shù)”,AI 科技評論獲授權(quán)轉(zhuǎn)載。
近日,由阿里巴巴聯(lián)合中國中文信息學(xué)會語言與知識計算專委會 (KG 專委) 舉辦的知識圖譜研討會在杭州召開。研討會由阿里巴巴集團副總裁墻輝(玄難)主持,知識圖譜領(lǐng)域國內(nèi)知名專家參與了此次研討。
參會專家學(xué)者合影
到場的國內(nèi)知名專家包括:中科院軟件所、中國中文信息學(xué)會副理事長兼秘書長孫樂教授,清華大學(xué)李涓子教授、劉知遠助理教授,中國科學(xué)院自動化所趙軍教授、劉康副教授,浙江大學(xué)陳華鈞教授,東南大學(xué)漆桂林教授,蘇州大學(xué)張民教授、陳文亮教授,北京大學(xué)趙東巖教授、馮巖松副教授。
孫樂,中國科學(xué)院軟件研究所,研究員,博士生導(dǎo)師,中文信息處理研究室負責(zé)人,中國中文信息學(xué)會副理事長兼秘書長,國際計算語言學(xué)年會(ACL 2015)組織委員會聯(lián)系主席。
在大數(shù)據(jù)時代,語言的理解,除了要基于數(shù)據(jù)模型和計算之外,還需要注重神經(jīng)科學(xué)認知機制,以及大規(guī)模知識圖譜的利用。大規(guī)模知識圖譜對自然語言理解有至關(guān)重要的作用。我們的研究主要涉及兩個方面,一方面是從文本中獲取知識,特別是如何構(gòu)建大規(guī)模中文知識庫,另外一方面是從知識到文本,如何基于已有知識來理解文本,比如實體鏈接和語義分析任務(wù)。
李涓子,清華大學(xué)教授,博士生導(dǎo)師,知識工程研究室負責(zé)人。中國中文信息學(xué)會語言與知識計算專業(yè)委員會主任。長期從事知識工程和新聞及社會網(wǎng)路挖掘研究。主持研制大規(guī)??缯Z言知識圖譜 XLORE。
大數(shù)據(jù)時代需要把數(shù)據(jù)轉(zhuǎn)化成知識,為數(shù)據(jù)增添語義信息,獲得對大數(shù)據(jù)的洞察,使數(shù)據(jù)產(chǎn)生智慧,以提供決策支持等智能服務(wù)。知識圖譜把互聯(lián)網(wǎng)的信息表達成更接近人類認知世界的形式,可以把互聯(lián)網(wǎng)的內(nèi)容從符號映射成計算機可理解和計算的語義信息。知識工程實際上就是從大數(shù)據(jù)中挖掘知識,建立知識圖譜,彌合大數(shù)據(jù)機器學(xué)習(xí)的低值特征與人類認知的鴻溝,是實現(xiàn)機器智能的加速器。構(gòu)建大數(shù)據(jù)環(huán)境下的知識引擎是實現(xiàn)從互聯(lián)網(wǎng)信息服務(wù)向知識服務(wù)新業(yè)態(tài)躍遷的新技術(shù)。
趙軍,中國科學(xué)院自動化研究所研究員,博士生導(dǎo)師。長期從事信息抽取、問答系統(tǒng)等方向的研究,在 ACL、SIGIR、IJCAI、COLING、TKDE 等頂級國際會議和期刊上發(fā)表論文 60 余篇,曾獲 COLING-2014 最佳論文獎。
知識服務(wù)方式多種多樣,知識圖譜是重要的基礎(chǔ)設(shè)施。作為一種重要的知識服務(wù)方式,問答和對話系統(tǒng)一方面需要從知識圖譜中獲取知識,滿足用戶信息需求;另一方面還需要從大規(guī)模問答和對話數(shù)據(jù)中學(xué)習(xí)問答和對話模式,以自然友好的方式與用戶交互。其中,知識圖譜基礎(chǔ)設(shè)施與深度學(xué)習(xí)等高效計算手段的結(jié)合是富有潛力的關(guān)鍵技術(shù)。
浙江大學(xué)教授、博導(dǎo),OpenKG 發(fā)起人,中國中文信息學(xué)會語言與知識計算專家委員會副主任,浙江省大數(shù)據(jù)智能計算重點實驗室副主任。
阿里 KG 很有挑戰(zhàn),需要綜合運用好知識表示與推理、自然語言處理和深度學(xué)習(xí)等多方面的技術(shù)具有獲取、學(xué)習(xí)、表示和處理知識的能力是人類心智區(qū)別于其它物種心智的最重要特征。知識圖譜幫助構(gòu)建有「學(xué)識」的 AI。阿里 KG 的構(gòu)建和應(yīng)用都很有挑戰(zhàn),不限于輔助搜索和問答應(yīng)用,還包括支撐基于場景的智能導(dǎo)購、輔助平臺治理與管控、利用知識洞察消費趨勢等多個應(yīng)用場景,最具挑戰(zhàn)的技術(shù)難點是推理能力的深度植入。對于計算機學(xué)科,產(chǎn)業(yè)力量非常重要,阿里已經(jīng)有了這樣的體量,應(yīng)該具備像谷歌類似的科技領(lǐng)導(dǎo)力,也希望像阿里這樣的行業(yè)翹楚能多多支持 OpenKG 的發(fā)展。
東南大學(xué)教授、博士生導(dǎo)師,獲得「六大人才高峰」資助。中國中文信息學(xué)會語言與知識計算專業(yè)委員會副主任和中國科學(xué)技術(shù)情報學(xué)會知識組織專業(yè)委員會副主任。是開放知識圖譜聯(lián)盟 openKG 的聯(lián)合創(chuàng)始人之一。語義 Web 國際權(quán)威期刊 Journal of Web Semantics 和 Semantic Web Journal 編委,是國際期刊 DataIntelligence Journal 的執(zhí)行主編。
知識表示和推理對于知識工程來說是一個非常重要的研究方向。知識表示的形式很多,可以是圖或者邏輯公式集合,也可以是向量或張量等分布式表示。但這些都是知識的表現(xiàn)形式,并不是知識的內(nèi)涵。知識的內(nèi)涵需要配合知識推理才能全面的展現(xiàn)出來。邏輯推理對于知識庫的構(gòu)建和應(yīng)用都有不可忽略的價值,在知識庫構(gòu)建階段可以去對知識庫做不一致性檢測,從而保證知識庫不出現(xiàn)邏輯沖突,在應(yīng)用階段可以對一個面向知識庫的查詢做查詢的重寫,從而得到更多的精確答案。
邏輯推理需要有專家構(gòu)建的高質(zhì)量的規(guī)則庫或者本體庫才能很好的發(fā)揮作用。當然,隨著技術(shù)的發(fā)展和海量數(shù)據(jù)的積累,也可以實現(xiàn)半自動構(gòu)建規(guī)則和本體,這就需要去通過統(tǒng)計推理的方法來構(gòu)建不確定性的規(guī)則或者本體,然后由專家來修正。另外,也可以通過統(tǒng)計關(guān)系學(xué)習(xí)直接在知識圖譜是進行推理,現(xiàn)有的統(tǒng)計關(guān)系學(xué)習(xí)方法雖然很多,但是缺少在海量數(shù)據(jù)下可以應(yīng)用的開源系統(tǒng),這方面還有不少研究和工程工作要做。
蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,蘇州大學(xué)人類語言技術(shù)研究所副所長。曾擔(dān)任 IALP-2015、IJCNLP-2017、CCKS-2017 程序委員會主席或領(lǐng)域主席。
高質(zhì)量的標注訓(xùn)練數(shù)據(jù)是很難獲得的。傳統(tǒng)的聘請領(lǐng)域?qū)<业臄?shù)據(jù)標注方式獲得的標注數(shù)據(jù)往往是「少、慢、好、貴」,而全部使用眾包的標注方式獲得的數(shù)據(jù)是「多、快、糙、省」。所以,可以采取一種折中的方式,利用少量的專家加上大量的眾包人員完成標注任務(wù),達到「多、快、好、省」的目的。這種方式比較適合分詞、詞性標注、NER 等任務(wù),我們可以多快好省的把這個事情干好。
或者說用遠程監(jiān)督的方法,干脆不用人力,用知識圖譜直接生成訓(xùn)練數(shù)據(jù)就行了,獲得有噪音大量訓(xùn)練數(shù)據(jù)。我們的結(jié)果顯示,帶噪音的訓(xùn)練數(shù)據(jù)可以構(gòu)造效果還算可以的關(guān)系抽取系統(tǒng),但離效果很好的目標,還有很長的路要走。
清華大學(xué)計算機系助理教授、博士生導(dǎo)師。在 AAAI、IJCAI、ACL 等人工智能領(lǐng)域的著名國際期刊和會議發(fā)表相關(guān)論文 20 余篇,Google Scholar 統(tǒng)計引用超過 1900 次。
知識表示的挑戰(zhàn)在于基于符號表示的三元組(RDF)無法有效計算實體間的語義關(guān)系。利用分布式表示學(xué)習(xí)旨在實現(xiàn)知識的高效表示與計算。知識表示學(xué)習(xí)旨在將知識圖譜中的實體和關(guān)系映射到低維向量空間。該向量空間可以有效緩解大數(shù)據(jù)處理面臨的數(shù)據(jù)稀疏問題,并能夠靈活實現(xiàn)多源信息融合與知識遷移。近年來,以 TransE 為代表的知識表示學(xué)習(xí)已在知識圖譜補全、關(guān)系抽取、知識圖譜融合、實體分類等多個重要任務(wù)中獲得廣泛應(yīng)用。
博士,北京大學(xué)計算機科學(xué)與技術(shù)研究所副教授。其研究小組構(gòu)建了大規(guī)模結(jié)構(gòu)化中文百科知識庫 PKUBase,并連續(xù)三年在面向結(jié)構(gòu)化知識庫的知識問答評測 QALD-4,5, 6 中獲得第一名。
目前知識圖譜的構(gòu)建主要有三種方案:一是利用專家手工構(gòu)建,二是基于已有結(jié)構(gòu)化資源自動構(gòu)建,三是利用志愿者眾包標注。關(guān)鍵點在于知識庫體系的確定方法和知識條目的收集。在神經(jīng)網(wǎng)絡(luò)時代下,與傳統(tǒng)方法相比,深度學(xué)習(xí)框架具有先天的優(yōu)勢,但仍需要與專家經(jīng)驗做進一步結(jié)合。利用先驗知識,充分利用「人」來完善知識圖譜的構(gòu)建,將人給出經(jīng)驗性規(guī)則與現(xiàn)代機器學(xué)習(xí)方法有機結(jié)合起來必將是未來知識圖譜研究的發(fā)展方向之一。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。