0
在社交網(wǎng)絡中,有這樣一條著名的“六度分隔理論”:
“最多通過五個人,你就能夠認識世界上的任何一個陌生人。”
“六度分隔理論”背后的知識圖譜就是幫助社交網(wǎng)絡連接每個人的“黑科技”。知識圖譜以實體概念(例如人)為節(jié)點,以關系為邊,以可視化的圖形展示直觀地呈現(xiàn)人們的社交關系。目前這一技術已在搜索、金融等領域得到了很好的應用。
那么,如果將上述知識圖譜中的“人”改為“事”,又會有怎樣的變化?
明略科技集團首席科學家和明略科學院院長吳信東教授的回答是,傳統(tǒng)的知識圖譜回答的是“是什么”的問題,而以“事”為核心的事理圖譜回答的是“為什么”的問題。目前,絕大多數(shù)知識圖譜主要以實體(特別是人名)為基礎,面向事件知識圖譜研究的語料構建和研究方法還處于探索階段。
吳信東
“知識圖譜的關注點從‘知識’到‘事件’,這代表了目前知識圖譜自動構建領域的日漸成熟,單一的靜態(tài)事實類圖譜構建模型已經(jīng)不能滿足業(yè)界的需求,產(chǎn)業(yè)界對動態(tài)事理圖譜以及其他更深層次的語義理解技術有著迫切的關注。”吳信東告訴AI科技評論。
事件關系抽?。鹤岇o態(tài)知識動起來
知識圖譜的概念由Google于2012年提出,最早被搜索引擎用基于實體的搜索來代替基于字符串的搜索,從而提升用戶搜索質量與體驗。在大數(shù)據(jù)時代,知識圖譜以結構化的形式將互聯(lián)網(wǎng)的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。
構建知識圖譜的前提與核心條件是知識獲取。具體來說,這一過程需要將現(xiàn)實世界中的各類“信息”轉換為“知識”并表達成計算機可存儲和計算的結構,再進一步形成“圖譜”。早期的知識圖譜構建大量依賴于人力分類,如維基百科采取“眾包”的方式,讓網(wǎng)民成為知識的貢獻者,從而加快了知識圖譜的累計速度。
但在大數(shù)據(jù)時代,手工勞動已經(jīng)不能適應知識圖譜的構建需求。不少企業(yè)開始積極探索和嘗試自動化構建技術,利用機器從不同來源、不同結構的數(shù)據(jù)中進行抽取,形成知識存入到知識圖譜。而在產(chǎn)業(yè)實踐中,通過文本信息等非結構化數(shù)據(jù)中提煉知識構建知識圖譜,技術上面臨很多挑戰(zhàn)。
而這也正是數(shù)據(jù)挖掘頂會 ICDM 從 2019 年開始舉辦知識圖譜大賽的原因。
“知識圖譜是一個明略的技術特長,明略認為有這個義務為促進知識圖譜的學術研究以及產(chǎn)業(yè)實踐的聯(lián)動與交流出一份力?!?019 年的 ICDM 在北京舉辦,作為會議的發(fā)起人、數(shù)據(jù)挖掘領域領軍人物吳信東教授從會議之初一路相隨,在本屆會議上,吳信東教授不僅擔任大會主席,并推動設立了首屆知識圖譜大賽,使之成為知識圖譜學術與產(chǎn)業(yè)交流的重要平臺。
ICDM 2019 知識圖譜大賽的主題是自動生成知識圖譜,而 2020 年的競賽主題“事件原因抽取”則更貼近產(chǎn)業(yè)應用。任務是解決場景營銷的一大痛點,即如何智能分析與提取與消費者行為相關的內容場景及關系知識,以數(shù)據(jù)挖掘、機器學習、NLP等技術建立模型,從文本中智能提取出消費者事件的因果關系。
據(jù) ICDM 2020 知識圖譜大賽聯(lián)席競賽主席、中科院自動化所研究員劉康教授介紹,事件關系抽取是信息抽取任務中較難的任務。相較于實體關系抽取,事件關系抽取需要判斷兩個事件之間的關系,而事件在文本中的描述通常比較復雜,有可能是一句話或者多句話。
劉康
此外,事件抽取任務側重于事件類型的判斷以及事件元素的抽取,屬于單個事件內部的語義識別;而事件關系側重于不同事件之間錯綜復雜關系語義識別,更準確的事件抽取能提升事件關系的性能。
據(jù)AI科技評論了解,本屆知識圖譜大賽比賽數(shù)據(jù)使用真實、公開的用戶消費評論數(shù)據(jù),存在數(shù)據(jù)質量差、多種語言、格式不統(tǒng)一等問題,增大了賽題的挑戰(zhàn)難度。
這也是業(yè)界在知識圖譜應用中需要解決的問題:知識圖譜的節(jié)點是偏靜態(tài)描述的實體,而事件偏動態(tài)。與實體相比,事件能夠更加清晰、精確表示發(fā)生的各種事實信息;而人類的命題記憶是以“事件”為存儲單位的,真實的消費評論所體現(xiàn)的也正是這樣一種動態(tài)信息。讓機器能夠以一種更為接近于人腦知識結構體系的方式來處理知識和進行推理,有助于機器更好地理解復雜場景下的具體問題,為用戶提供更好的體驗。
換言之:讓知識圖譜中的知識“動起來”,不僅是學術界研究更好實現(xiàn)人工智能的手段,也是產(chǎn)業(yè)界為客戶提供更智能化的服務、提升服務質量、降低成本的需求。
2020 年的知識圖譜大賽共吸引了 45 個國家的 2000 多支隊伍參與,北京大學、清華大學、中國科學院、香港中文大學、康奈爾大學、國立新加坡大學等著名高校及阿里巴巴、騰訊、華為、百度、京東等企業(yè)均參與其中。
那么,事件關系提取又能在哪些方面幫助企業(yè)提升業(yè)務水平?
事件關系提取的作用
劉康教授告訴AI科技評論,在知識圖譜領域,學術界和企業(yè)界聯(lián)系十分緊密,相關技術在企業(yè)中有豐富的應用場景,這也使得學術界在研究理論的同時注重技術、場景的實際落地,在本次賽題命題中,命題專家同樣很好地考慮到了這一點。
以參賽企業(yè)京東為例,利用知識圖譜可以自動整理行業(yè)和企業(yè)數(shù)據(jù),形成金融數(shù)據(jù)庫,幫助金融機構形成差異化競爭優(yōu)勢。知識圖譜也服務于京東金融App支持各個業(yè)務線的銷售對話機器人,為智能問答系統(tǒng)提供了推理問答,邏輯判斷問答,查詢問答等功能。
除了行業(yè)和企業(yè)的應用,提取消費者事件的原因在內容廣告、社交監(jiān)聽等許多業(yè)務場景中都是關注的焦點。以內容廣告為例,如今的廣告主更喜歡通過產(chǎn)品功能嵌入內容,以潛移默化的方式將自己的品牌或產(chǎn)品與任意的消費事件聯(lián)系起來。為此,明確地提取消費者事件的原因成為構建這樣一個滿足廣告商需求的系統(tǒng)的重要技術。
盡管知識圖譜技術在產(chǎn)業(yè)界正經(jīng)歷著應用的高速增長,學術領域前沿成果與實際落地應用場景間依然存在著巨大的鴻溝。對于大多數(shù)企業(yè)來說,他們并不具備像京東一樣,利用知識圖譜中的事件關系改善自身業(yè)務的能力。
“基于事理圖譜的應用已經(jīng)在多個行業(yè)中涌現(xiàn),比如營銷、金融、工業(yè)等?!?/span>吳信東教授告訴AI科技評論,明略科技在幫助企業(yè)推進基于事理圖譜的應用有足夠多的構想和實踐。
“比如在明略的實踐中,使用事件抽取技術識別輿情中的熱點事件,將不同新聞中提到的同一事件進行聚合、統(tǒng)計熱度,以氣泡圖等方式對事件發(fā)展趨勢進行可視化,從而指導營銷文案的自動撰寫、垂直領域報告的自動生成等?!?/span>
在金融行業(yè),明略科技與浦發(fā)銀行合作,共同推動金融認知工程方法論研究與理論體系創(chuàng)建,在產(chǎn)融生態(tài)合作中不斷完善金融認知智能體系,構建國內領先的認知智能平臺基礎設施,提升用戶洞察、感知互動等能力。在工業(yè)領域,明略也廣泛地在軌道交通等多個行業(yè)的智能維保與故障歸因場景上有著深入的探索。
除此之外,明略科技也在基于大數(shù)據(jù)和AI技術構建行業(yè)知識圖譜。知識圖譜的自動構建是明略的核心技術之一,2020 年 7 月在 2020 WAIC 世界人工智能大會期間,明略科技推出了目前世界上第一個語音實時生成圖譜的企業(yè)級知識圖譜開發(fā)工具包 HAO 圖譜,HAO 正在做到:專家在臺上講話,后臺圖譜系統(tǒng)可自動同步構建知識圖譜。
據(jù)介紹,HAO 圖譜可以獨立運行,也可交付給企業(yè)技術團隊進行二次開發(fā),幫助用戶及中小微企業(yè)提供全方位服務。目前 HAO 圖譜已在數(shù)字城市、金融、工業(yè)、廣告營銷等多個場景中落地。
“HAO 治理”模型架構圖
對企業(yè)而言,知識圖譜的構建可以幫助企業(yè)連接內部結構化數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、外部非結構化數(shù)據(jù),進而可能成為下一代企業(yè)管理數(shù)據(jù)的主流技術路線;而明略科技也將結合在知識圖譜事件抽取領域的新動向,幫助企業(yè)實現(xiàn)知識圖譜和數(shù)據(jù)管理的升級。
知識圖譜的未來
雖然知識圖譜在產(chǎn)業(yè)界已經(jīng)得到了一定的應用,但劉康教授認為,從學術研究的角度,現(xiàn)在知識圖譜的研究正處于快速發(fā)展初期,并從傳統(tǒng)的以實體為核心向事件等復雜結構知識為核心轉變。
“顯著的圖譜有可能出現(xiàn)在和預訓練語言模型的結合上,目前以 BERT 為代表的預訓練語言模型正在各個 NLP 任務中發(fā)力,這些主要得益于大數(shù)據(jù)和算力的進步,但是此類模型中到底蘊含哪些知識類型,以及如何用知識圖譜顯示提升預訓練語言模型的表示能力有可能會取得比較顯著的突破?!闭劶拔磥碇R圖譜的發(fā)展趨勢,劉康教授如是說。
從根本上說,從實體到事件的核心轉變并不會改變基于知識圖譜的人工智能推理的技術本質,其核心挑戰(zhàn)還是在圖譜上搜索最優(yōu)解所面臨的組合爆炸困境。近年來如 BERT、GPT-3 等大規(guī)模預訓練語言模型的出現(xiàn),也為解決事理圖譜的組合爆炸困境提供了新的方法。
而在 2020 知識圖譜競賽中,我們也看到了不同隊伍的技術處理方案。如京東引入了一種全新的視角來重新審視關系行為原因提取任務,并提出了一種新的序列標記框架,而不是單獨提取行為類型和行為原因;獲得第二名的日本選手則是使用 GAN 完成了本次任務,通過 GAN 的生成方式增加訓練樣本,同時對 GAN 生成的數(shù)據(jù)標注為 Fake,在原有五種時間類型的基礎上,增加 Fake 標簽進行預測。
劉康教授認為,未來知識圖譜領域研究可能是向多模態(tài)、復雜結構知識和領域化發(fā)展。其中,如何表示各種類型的知識?如何抽取常識知識?如何結合多模態(tài)信息進行復雜結構知識的自動獲???都是他認為比較有意思的研究問題。
吳信東教授認為,知識圖譜從靜態(tài)知識描述走向動態(tài)問題求解是知識圖譜走向實際應用的重要發(fā)展方向,事理圖譜可以接入問題求解的動態(tài)信息,為知識圖譜的推理插上一個動態(tài)翅膀。
作為人工智能技術中的知識容器和孵化器,知識圖譜會對未來 AI 領域的發(fā)展起到關鍵性的作用。無論是基于實體的傳統(tǒng)知識圖譜還是事件的新一代知識圖譜,其構建技術的發(fā)展和對應用場景的探索仍然會不斷的持續(xù)下去,在此過程中,知識圖譜構建技術會朝著越來越自動化方向前進,同時在以明略為代表的 AI 和大數(shù)據(jù)公司推動下,知識圖譜也會在越來越多的領域找到能夠真正落地的應用場景,在各行各業(yè)中解放生產(chǎn)力,助力業(yè)務轉型。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。