一文讀懂知識圖譜的商業(yè)應用進程及技術背景

本文作者：雷鋒專欄

2017-09-01 15:50

導語：知識圖譜（Knowledge Graph/Vault，以下簡稱KG）本質上是語義網絡，是一種基于圖的數據結構，由節(jié)點(Point)和邊(Edge)組成

雷鋒網按：本文作者林錦周，澳銀資本TMT負責人。

知識圖譜（Knowledge Graph/Vault，以下簡稱KG）本質上是語義網絡，是一種基于圖的數據結構，由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里，每個節(jié)點表示現實世界中存在的“實體”，每條邊為實體與實體之間的“關系”。知識圖譜是關系的最有效的表示方式。通俗地講，知識圖譜就是把所有不同種類的信息（Heterogeneous Information）連接在一起而得到的一個關系網絡。知識圖譜提供了從“關系”的角度去分析問題的能力

一文讀懂知識圖譜的商業(yè)應用進程及技術背景

KG應用篇

在知識圖譜應用這一塊我shi會通過介紹名人知識圖譜的聚類、知識圖譜在搜索引擎、聊天機器人、金融科技領域等的商業(yè)應用。

進一步形象的解釋這個定義，人物、作品、地點、數值、身高等都可以作為知識圖譜中的節(jié)點，我們稱這些節(jié)點為實體。實體可以由若干個屬性表示，節(jié)點關系這類可以有妻子、女兒、哥哥、偶像、同門等關系屬性。通過實體的屬性可以將不同的實體建立關聯關系，例如:

一文讀懂知識圖譜的商業(yè)應用進程及技術背景但這里面很多做知識圖譜網絡的公司都出過問題，比如同時在電影和音樂知識圖譜內，電影數據源里有劉德華，音樂數據源里也有劉德華，這兩其實是一個人，但是知識圖譜目前的聚類分布效果并不好，經常容易出現兩個劉德華。從不同數據源構建圖譜的時候，必須有自動化的算法將各處的劉德華聚類，這里面最難也最需要抓緊解決的是如何將來自不同數據源的相同實體聚類。這方面谷歌走過彎路，但現在Google now的崛起也證明了谷歌正在從搜索引擎往谷歌知識圖譜轉型。

知識圖譜最早被應用于搜索引擎領域。

自從2012年Google推出自己第一版知識圖譜以來，它在學術界和工業(yè)界掀起了一股熱潮。各大互聯網企業(yè)在之后的短短一年內紛紛推出了自己的知識圖譜產品以作為回應。比如在國內，互聯網巨頭百度和搜狗分別推出”知心“和”知立方”來改進其搜索質量。旨在通過語義把碎片化的數據關聯起來，讓用戶能直接搜索到事務（Things），而不是文本字符串（Strings）。在搜索引擎中引入知識圖譜大幅的提升和優(yōu)化了搜索體驗。不同于基于關鍵詞搜索的傳統(tǒng)搜索引擎，知識圖譜可用來更好地查詢復雜的關聯信息，從語義層面理解用戶意圖，改進搜索質量。比如在Google的搜索框里輸入Bill Gates的時候，搜索結果頁面的右側還會出現Bill Gates相關的信息比如出生年月，家庭情況等等。對于稍微復雜的搜索語句比如 ”Who is the wife of Bill Gates“，Google能準確返回他的妻子Melinda Gates。這就說明搜索引擎通過知識圖譜真正理解了用戶的意圖。一文讀懂知識圖譜的商業(yè)應用進程及技術背景

近年來，隨著人工智能的再次興起，知識圖譜又被廣泛的應用于聊天機器人和問答系統(tǒng)中，用于輔助深度理解人類的語言和支持推理，并提升人機問答的用戶體驗等。典型的如IBM的Watson，蘋果的Siri，Google Allo，Amazon Echo，百度度秘，公子小白等。

一文讀懂知識圖譜的商業(yè)應用進程及技術背景

知識圖譜也被廣泛用于各種問答交互場景中。Watson 背后依托 DBpedia 和 Yago 等百科知識庫和 WordNet 等語言學知識。類似地，Alexa 也依托其早年收購的 True Knowledge 公司所積累的知識庫；Siri 則利用 DBpedia 和可計算的知識服務引擎 WolframAlpha；狗尾草公司推出的虛擬美少女機器人琥珀虛顏則用到了首個中文鏈接知識庫 Zhishi.me。伴隨著機器人和 IoT 設備的智能化浪潮，智能廚房、智能駕駛和智能家居等應用層出不窮。無獨有偶，百度推出的 Duer OS 和 Siri 的進化版 Viv 背后也都有海量知識庫的支撐。

小冰是微軟中國團隊推出的娛樂聊天機器人。她的人設是一位 16 歲的少女。小冰是一個基于搜索的回復檢索系統(tǒng)。通過各種基于深度學習的語義匹配算法，從海量的問答對語料中返回最佳的回復（Message response 而非 Answer）。小冰也會不定期推出新的技能供大家使用，這些技能往往包含了微軟團隊在圖像理解、語音和自然語言理解方面的各種小應用嘗試。更值得一提的是：微軟針對日本、北美和歐洲等市場陸續(xù)推出了具有不同人設的少女如 Rinna、Tay 和 Zo，她們往往可以方便的通過微信、微博或 Twitter 等平臺進行交流。此外，知識圖譜還被用來提升數據分析的能力和效果。例如著名的大數據公司Palantir利用知識圖譜建立數據的關聯以提升上游數據分析的效果。與知識圖譜有關的語義技術也被用來提升機器與機器之間的語義互操作能力，解決機器之間的語義理解問題。例如，全球最大物聯網標準化組織OneM2M就把語義和知識技術作為物聯設備抽象和語義封裝的技術基礎。

在金融、農業(yè)、電商、醫(yī)療健康、環(huán)境保護等大量的垂直領域，知識圖譜都得到廣泛的應用。例如，很多金融領域公司也構建了金融知識庫以進行碎片化金融數據的集成與管理，并輔助金融專家進行風控控制、欺詐識別等；生物醫(yī)療專家通過集成和分析大規(guī)模的生物醫(yī)學知識圖譜，輔助其進行藥物發(fā)現、潛在靶點識別等多方面任務。就金融領域來說，規(guī)則可以是專家對行業(yè)的理解，投資的邏輯，風控的把握，關系可以是企業(yè)的上下游、合作、競爭對手、子母公司、投資、對標等關系，可以是高管與企業(yè)間的任職等關系，也可以是行業(yè)間的邏輯關系，實體則是投資機構、投資人、企業(yè)等等，把它們用知識圖譜表示出來，從而進行更深入的知識推理。

這里我們主要圍繞著知識圖譜在國內金融市場的應用敞開來講，目前在中國市場上我們可以將看到的主要的各種類型的金融知識圖譜做個簡單分類。

一文讀懂知識圖譜的商業(yè)應用進程及技術背景

這里面知識圖譜在國內金融市場的細分應用，超過15項，其中有10項是在去年一年的時間內出現的，足以見得技術成本的有效下滑對這個行業(yè)的促進影響作用。此外，有些國內的消費金融及互聯網金融公司也積極在利用知識圖譜加強自身的風控和完善用戶畫像，這里我們舉個京東金融的例子。

京東金融團隊花了大量時間研究消費者在京東商城上的行為知識圖譜數據。一筆真實交易之前，有二三十倍的行為數據，都是碎片化的，風控團隊的工作就是對這些細枝末節(jié)進行甄別評級，細節(jié)甚至包括同一個用戶買東西是先看購物車，還是先看優(yōu)惠券頻道。“一下子到購物車的，則欺詐風險較大，因為他根本不去比價，有可能是欺詐性風險套現的個案。” 因為京東從商戶的選擇到物流都是自己做，能掌握更多、更準確的一手的數據。例如，除了電商交易數據之外，京東的自有物流可以提供大量的物流數據?！爆F在通過這些數據，可以判斷一筆交易背后的眾多邏輯：“比如是否是一個活躍客戶——活躍客戶一般違約概率都比較低。如果用戶買的電視是60英寸產品，很容易推斷出他會有一個大客廳，這些看似跟信用沒有強關聯的碎片化數據經過模型處理就能夠變得有用。” 京東金融已披露投資的技術類公司有8家。這些公司涉及數據源、數據抓取業(yè)務、數據清洗及建模等業(yè)務。京東金融4000多名員工中，一半屬于風控和技術團隊成員。在消費金融內部，近百人集中在模型搭建環(huán)節(jié)，另一部分集中在數據挖掘，大量數學及統(tǒng)計博士在做模型開發(fā)和量化開發(fā)工作。和市場上大部分的競爭對手相比，京東金融在數據的豐富度和質量方面更有優(yōu)勢，因此通過知識圖譜方式來構建用戶畫像及相應的風控模型，他們是有明顯的先發(fā)優(yōu)勢。

在互聯網飛速發(fā)展的今天，知識大量存在于非結構化的文本數據、大量半結構化的表格和網頁以及生產系統(tǒng)的結構化數據中。在全球不斷匯集的數據中，知識圖譜幫助我們去精準地結構化每一層數據，每一條新聞、每一條微博、每一條朋友圈信息流、每一條網頁數據。對于每一條非結構化數據，通過精準地解構出來平均7-8條的知識圖譜，包含了時間、地點、人物、事件、機構等等。而我們將這超過3000萬篇章、5億多條每一天的數據更新，疊加出來去分析，每兩點之間、三點之間、任意一點之間、任意一個要素之間的關聯關系。而這些在數據底層里面構成了一個去掉語言符號，匯集起來龐大無比的知識圖譜。

KG技術篇：

當前世界范圍內已經有非常成熟且知名的高質量大規(guī)模開放知識圖譜，包括 DBpedia、Yago、Wikidata、BabelNet、ConceptNet以及Microsoft Concept Graph。其中DBpedia 是一個大規(guī)模的多語言百科知識圖譜，可視為是維基百科的結構化版本。Wikidata 是一個可以自由協(xié)作編輯的多語言百科知識庫，它由維基媒體基金會發(fā)起，期望將維基百科、維基文庫、維基導游等項目中結構化知識進行抽取、存儲、關聯。BabelNet 是目前世界范圍內最大的多語言百科同義詞典，它本身可被視為一個由概念、實體、關系構成的語義網絡（Semantic Network）。BabelNet 目前有超過 1400 萬個詞目，每個詞目對應一個 synset。每個 synset 包含所有表達相同含義的不同語言的同義詞。比如：“中國”、“中華人民共和國”、“China”以及“people’srepublic of China”均存在于一個 synset 中。

中文目前可用的大規(guī)模開放知識圖譜有 Zhishi.me、Zhishi.schema與XLore。其中Zhishi.me 是第一份構建中文鏈接數據的工作，與 DBpedia 類似，擁有約 1000 萬個實體與一億兩千萬個 RDF 三元組。Zhishi.schema 是一個大規(guī)模的中文模式（Schema）知識庫，其本質是一個語義網絡，其中包含三種概念間的關系，即equal、related與subClassOf關系。Zhishi.schema抽取自社交站點的分類目錄(Category Taxonomy)及標簽云（Tag Cloud），目前擁有約40萬的中文概念與150萬RDF三元組，正確率約為84%，并支持數據集的完全下載。

此外，中文開放知識圖譜聯盟（OpenKG）目前也非常受業(yè)內歡迎，作為推動中文知識圖譜的開放與互聯的平臺，它已經搭建有 OpenKG.CN 技術平臺，目前已有 54家機構入駐。吸引了國內最著名知識圖譜資源的加入，如 Zhishi.me， CN-DBPedia, PKUBase。并已經包含了來自于常識、醫(yī)療、金融、城市、出行等 15 個類目的開放知識圖譜。

一文讀懂知識圖譜的商業(yè)應用進程及技術背景

知識圖譜的計算流程一般包括：知識提取、知識表現融合、知識存儲計算及知識檢索應用

一文讀懂知識圖譜的商業(yè)應用進程及技術背景

知識獲取：在處理非結構化數據方面，首先要對用戶的非結構化數據提取正文。目前的互聯網數據存在著大量的廣告，正文提取技術希望有效的過濾廣告而只保留用戶關注的文本內容。當得到正文文本后，需要通過自然語言技術識別文章中的實體，實體識別通常有兩種方法，一種是用戶本身有一個知識庫則可以使用實體鏈接將文章中可能的候選實體鏈接到用戶的知識庫上。另一種是當用戶沒有知識庫則需要使用命名實體識別技術識別文章中的實體。

知識融合（knowledge fusion）指的是將多個數據源抽取的知識進行融合。

知識計算主要是根據圖譜提供的信息得到更多隱含的知識，如通過本體或者規(guī)則推理技術可以獲取數據中存在的隱含知識；而鏈接預測則可預測實體間隱含的關系；同時使用社會計算的不同算法在知識網絡上計算獲取知識圖譜上存在的社區(qū)，提供知識間關聯的路徑；通過不一致檢測技術發(fā)現數據中的噪聲和缺陷。通過知識計算知識圖譜可以產生大量的智能應用如可以提供精確的用戶畫像為精準營銷系統(tǒng)提供潛在的客戶；提供領域知識給專家系統(tǒng)提供決策數據，給律師、醫(yī)生、公司 CEO 等提供輔助決策的意見；提供更智能的檢索方式，使用戶可以通過自然語言進行搜索；當然知識圖譜也是問答必不可少的重要組建。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

13人收藏

雷鋒專欄

編輯

雷鋒專欄賬號，關注技術科普&行業(yè)深度分析！

發(fā)私信

當月熱門文章