0
本文作者: 雷鋒專欄 | 2017-09-01 15:50 |
雷鋒網(wǎng)按:本文作者林錦周,澳銀資本TMT負(fù)責(zé)人。
知識圖譜(Knowledge Graph/Vault,以下簡稱KG)本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系”。知識圖譜是關(guān)系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)。知識圖譜提供了從“關(guān)系”的角度去分析問題的能力
在知識圖譜應(yīng)用這一塊我shi會通過介紹名人知識圖譜的聚類、知識圖譜在搜索引擎、聊天機(jī)器人、金融科技領(lǐng)域等的商業(yè)應(yīng)用。
進(jìn)一步形象的解釋這個定義,人物、作品、地點、數(shù)值、身高等都可以作為知識圖譜中的節(jié)點,我們稱這些節(jié)點為實體。 實體可以由若干個屬性表示,節(jié)點關(guān)系這類可以有妻子、女兒、哥哥、偶像、同門等關(guān)系屬性。通過實體的屬性可以將不同的實體建立關(guān)聯(lián)關(guān)系,例如:
但這里面很多做知識圖譜網(wǎng)絡(luò)的公司都出過問題,比如同時在電影和音樂知識圖譜內(nèi),電影數(shù)據(jù)源里有劉德華,音樂數(shù)據(jù)源里也有劉德華,這兩其實是一個人,但是知識圖譜目前的聚類分布效果并不好,經(jīng)常容易出現(xiàn)兩個劉德華。從不同數(shù)據(jù)源構(gòu)建圖譜的時候,必須有自動化的算法將各處的劉德華聚類,這里面最難也最需要抓緊解決的是 如何將來自不同數(shù)據(jù)源的相同實體聚類。這方面谷歌走過彎路,但現(xiàn)在Google now的崛起也證明了谷歌正在從搜索引擎往谷歌知識圖譜轉(zhuǎn)型。
知識圖譜最早被應(yīng)用于搜索引擎領(lǐng)域。
自從2012年Google推出自己第一版知識圖譜以來,它在學(xué)術(shù)界和工業(yè)界掀起了一股熱潮。各大互聯(lián)網(wǎng)企業(yè)在之后的短短一年內(nèi)紛紛推出了自己的知識圖譜產(chǎn)品以作為回應(yīng)。比如在國內(nèi),互聯(lián)網(wǎng)巨頭百度和搜狗分別推出”知心“和”知立方”來改進(jìn)其搜索質(zhì)量。旨在通過語義把碎片化的數(shù)據(jù)關(guān)聯(lián)起來,讓用戶能直接搜索到事務(wù)(Things),而不是文本字符串(Strings)。在搜索引擎中引入知識圖譜大幅的提升和優(yōu)化了搜索體驗。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎,知識圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。比如在Google的搜索框里輸入Bill Gates的時候,搜索結(jié)果頁面的右側(cè)還會出現(xiàn)Bill Gates相關(guān)的信息比如出生年月,家庭情況等等。對于稍微復(fù)雜的搜索語句比如 ”Who is the wife of Bill Gates“,Google能準(zhǔn)確返回他的妻子Melinda Gates。這就說明搜索引擎通過知識圖譜真正理解了用戶的意圖。
近年來,隨著人工智能的再次興起,知識圖譜又被廣泛的應(yīng)用于聊天機(jī)器人和問答系統(tǒng)中,用于輔助深度理解人類的語言和支持推理,并提升人機(jī)問答的用戶體驗等。典型的如IBM的Watson,蘋果的Siri,Google Allo,Amazon Echo,百度度秘,公子小白等。
知識圖譜也被廣泛用于各種問答交互場景中。Watson 背后依托 DBpedia 和 Yago 等百科知識庫和 WordNet 等語言學(xué)知識。類似地,Alexa 也依托其早年收購的 True Knowledge 公司所積累的知識庫;Siri 則利用 DBpedia 和可計算的知識服務(wù)引擎 WolframAlpha;狗尾草公司推出的虛擬美少女機(jī)器人琥珀虛顏則用到了首個中文鏈接知識庫 Zhishi.me。伴隨著機(jī)器人和 IoT 設(shè)備的智能化浪潮,智能廚房、智能駕駛和智能家居等應(yīng)用層出不窮。無獨有偶,百度推出的 Duer OS 和 Siri 的進(jìn)化版 Viv 背后也都有海量知識庫的支撐。
小冰是微軟中國團(tuán)隊推出的娛樂聊天機(jī)器人。她的人設(shè)是一位 16 歲的少女。小冰是一個基于搜索的回復(fù)檢索系統(tǒng)。通過各種基于深度學(xué)習(xí)的語義匹配算法,從海量的問答對語料中返回最佳的回復(fù)(Message response 而非 Answer)。小冰也會不定期推出新的技能供大家使用,這些技能往往包含了微軟團(tuán)隊在圖像理解、語音和自然語言理解方面的各種小應(yīng)用嘗試。更值得一提的是:微軟針對日本、北美和歐洲等市場陸續(xù)推出了具有不同人設(shè)的少女如 Rinna、Tay 和 Zo,她們往往可以方便的通過微信、微博或 Twitter 等平臺進(jìn)行交流。此外,知識圖譜還被用來提升數(shù)據(jù)分析的能力和效果。例如著名的大數(shù)據(jù)公司Palantir利用知識圖譜建立數(shù)據(jù)的關(guān)聯(lián)以提升上游數(shù)據(jù)分析的效果。與知識圖譜有關(guān)的語義技術(shù)也被用來提升機(jī)器與機(jī)器之間的語義互操作能力,解決機(jī)器之間的語義理解問題。例如,全球最大物聯(lián)網(wǎng)標(biāo)準(zhǔn)化組織OneM2M就把語義和知識技術(shù)作為物聯(lián)設(shè)備抽象和語義封裝的技術(shù)基礎(chǔ)。
在金融、農(nóng)業(yè)、電商、醫(yī)療健康、環(huán)境保護(hù)等大量的垂直領(lǐng)域,知識圖譜都得到廣泛的應(yīng)用。例如,很多金融領(lǐng)域公司也構(gòu)建了金融知識庫以進(jìn)行碎片化金融數(shù)據(jù)的集成與管理,并輔助金融專家進(jìn)行風(fēng)控控制、欺詐識別等;生物醫(yī)療專家通過集成和分析大規(guī)模的生物醫(yī)學(xué)知識圖譜,輔助其進(jìn)行藥物發(fā)現(xiàn)、潛在靶點識別等多方面任務(wù)。就金融領(lǐng)域來說,規(guī)則可以是專家對行業(yè)的理解,投資的邏輯,風(fēng)控的把握,關(guān)系可以是企業(yè)的上下游、合作、競爭對手、子母公司、投資、對標(biāo)等關(guān)系,可以是高管與企業(yè)間的任職等關(guān)系,也可以是行業(yè)間的邏輯關(guān)系,實體則是投資機(jī)構(gòu)、投資人、企業(yè)等等,把它們用知識圖譜表示出來,從而進(jìn)行更深入的知識推理。
這里我們主要圍繞著知識圖譜在國內(nèi)金融市場的應(yīng)用敞開來講,目前在中國市場上我們可以將看到的主要的各種類型的金融知識圖譜做個簡單分類。
這里面知識圖譜在國內(nèi)金融市場的細(xì)分應(yīng)用,超過15項,其中有10項是在去年一年的時間內(nèi)出現(xiàn)的,足以見得技術(shù)成本的有效下滑對這個行業(yè)的促進(jìn)影響作用。此外,有些國內(nèi)的消費金融及互聯(lián)網(wǎng)金融公司也積極在利用知識圖譜加強(qiáng)自身的風(fēng)控和完善用戶畫像,這里我們舉個京東金融的例子。
京東金融團(tuán)隊花了大量時間研究消費者在京東商城上的行為知識圖譜數(shù)據(jù)。一筆真實交易之前,有二三十倍的行為數(shù)據(jù),都是碎片化的,風(fēng)控團(tuán)隊的工作就是對這些細(xì)枝末節(jié)進(jìn)行甄別評級,細(xì)節(jié)甚至包括同一個用戶買東西是先看購物車,還是先看優(yōu)惠券頻道。“一下子到購物車的,則欺詐風(fēng)險較大,因為他根本不去比價,有可能是欺詐性風(fēng)險套現(xiàn)的個案。” 因為京東從商戶的選擇到物流都是自己做,能掌握更多、更準(zhǔn)確的一手的數(shù)據(jù)。例如,除了電商交易數(shù)據(jù)之外,京東的自有物流可以提供大量的物流數(shù)據(jù)?!爆F(xiàn)在通過這些數(shù)據(jù),可以判斷一筆交易背后的眾多邏輯:“比如是否是一個活躍客戶——活躍客戶一般違約概率都比較低。如果用戶買的電視是60英寸產(chǎn)品,很容易推斷出他會有一個大客廳,這些看似跟信用沒有強(qiáng)關(guān)聯(lián)的碎片化數(shù)據(jù)經(jīng)過模型處理就能夠變得有用。” 京東金融已披露投資的技術(shù)類公司有8家。這些公司涉及數(shù)據(jù)源、數(shù)據(jù)抓取業(yè)務(wù)、數(shù)據(jù)清洗及建模等業(yè)務(wù)。京東金融4000多名員工中,一半屬于風(fēng)控和技術(shù)團(tuán)隊成員。在消費金融內(nèi)部,近百人集中在模型搭建環(huán)節(jié),另一部分集中在數(shù)據(jù)挖掘,大量數(shù)學(xué)及統(tǒng)計博士在做模型開發(fā)和量化開發(fā)工作。和市場上大部分的競爭對手相比,京東金融在數(shù)據(jù)的豐富度和質(zhì)量方面更有優(yōu)勢,因此通過知識圖譜方式來構(gòu)建用戶畫像及相應(yīng)的風(fēng)控模型,他們是有明顯的先發(fā)優(yōu)勢。
在互聯(lián)網(wǎng)飛速發(fā)展的今天,知識大量存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、大量半結(jié)構(gòu)化的表格和網(wǎng)頁以及生產(chǎn)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中。在全球不斷匯集的數(shù)據(jù)中,知識圖譜幫助我們?nèi)ゾ珳?zhǔn)地結(jié)構(gòu)化每一層數(shù)據(jù),每一條新聞、每一條微博、每一條朋友圈信息流、每一條網(wǎng)頁數(shù)據(jù)。對于每一條非結(jié)構(gòu)化數(shù)據(jù),通過精準(zhǔn)地解構(gòu)出來平均7-8條的知識圖譜,包含了時間、地點、人物、事件、機(jī)構(gòu)等等。而我們將這超過3000萬篇章、5億多條每一天的數(shù)據(jù)更新,疊加出來去分析,每兩點之間、三點之間、任意一點之間、任意一個要素之間的關(guān)聯(lián)關(guān)系。而這些在數(shù)據(jù)底層里面構(gòu)成了一個去掉語言符號,匯集起來龐大無比的知識圖譜。
當(dāng)前世界范圍內(nèi)已經(jīng)有非常成熟且知名的高質(zhì)量大規(guī)模開放知識圖譜,包括 DBpedia、Yago、Wikidata、BabelNet、ConceptNet以及Microsoft Concept Graph。其中DBpedia 是一個大規(guī)模的多語言百科知識圖譜,可視為是維基百科的結(jié)構(gòu)化版本。Wikidata 是一個可以自由協(xié)作編輯的多語言百科知識庫,它由維基媒體基金會發(fā)起,期望將維基百科、維基文庫、維基導(dǎo)游等項目中結(jié)構(gòu)化知識進(jìn)行抽取、存儲、關(guān)聯(lián)。BabelNet 是目前世界范圍內(nèi)最大的多語言百科同義詞典,它本身可被視為一個由概念、實體、關(guān)系構(gòu)成的語義網(wǎng)絡(luò)(Semantic Network)。BabelNet 目前有超過 1400 萬個詞目,每個詞目對應(yīng)一個 synset。每個 synset 包含所有表達(dá)相同含義的不同語言的同義詞。比如:“中國”、“中華人民共和國”、“China”以及“people’srepublic of China”均存在于一個 synset 中。
中文目前可用的大規(guī)模開放知識圖譜有 Zhishi.me、Zhishi.schema與XLore。其中Zhishi.me 是第一份構(gòu)建中文鏈接數(shù)據(jù)的工作,與 DBpedia 類似,擁有約 1000 萬個實體與一億兩千萬個 RDF 三元組。Zhishi.schema 是一個大規(guī)模的中文模式(Schema)知識庫,其本質(zhì)是一個語義網(wǎng)絡(luò),其中包含三種概念間的關(guān)系,即equal、related與subClassOf關(guān)系。Zhishi.schema抽取自社交站點的分類目錄(Category Taxonomy)及標(biāo)簽云(Tag Cloud),目前擁有約40萬的中文概念與150萬RDF三元組,正確率約為84%,并支持?jǐn)?shù)據(jù)集的完全下載。
此外,中文開放知識圖譜聯(lián)盟(OpenKG)目前也非常受業(yè)內(nèi)歡迎,作為推動中文知識圖譜的開放與互聯(lián)的平臺,它已經(jīng)搭建有 OpenKG.CN 技術(shù)平臺,目前已有 54家機(jī)構(gòu)入駐。吸引了國內(nèi)最著名知識圖譜資源的加入,如 Zhishi.me, CN-DBPedia, PKUBase。并已經(jīng)包含了來自于常識、醫(yī)療、金融、城市、出行等 15 個類目的開放知識圖譜。
知識圖譜的計算流程一般包括:知識提取、知識表現(xiàn)融合、知識存儲計算及知識檢索應(yīng)用
知識獲取:在處理非結(jié)構(gòu)化數(shù)據(jù)方面,首先要對用戶的非結(jié)構(gòu)化數(shù)據(jù)提取正文。目前的互聯(lián)網(wǎng)數(shù)據(jù)存在著大量的廣告,正文提取技術(shù)希望有效的過濾廣告而只保留用戶關(guān)注的文本內(nèi)容。當(dāng)?shù)玫秸奈谋竞?,需要通過自然語言技術(shù)識別文章中的實體,實體識別通常有兩種方法,一種是用戶本身有一個知識庫則可以使用實體鏈接將文章中可能的候選實體鏈接到用戶的知識庫上。另一種是當(dāng)用戶沒有知識庫則需要使用命名實體識別技術(shù)識別文章中的實體。
知識融合(knowledge fusion)指的是將多個數(shù)據(jù)源抽取的知識進(jìn)行融合。
知識計算主要是根據(jù)圖譜提供的信息得到更多隱含的知識,如通過本體或者規(guī)則推理技術(shù)可以獲取數(shù)據(jù)中存在的隱含知識;而鏈接預(yù)測則可預(yù)測實體間隱含的關(guān)系;同時使用社會計算的不同算法在知識網(wǎng)絡(luò)上計算獲取知識圖譜上存在的社區(qū),提供知識間關(guān)聯(lián)的路徑;通過不一致檢測技術(shù)發(fā)現(xiàn)數(shù)據(jù)中的噪聲和缺陷。通過知識計算知識圖譜可以產(chǎn)生大量的智能應(yīng)用如可以提供精確的用戶畫像為精準(zhǔn)營銷系統(tǒng)提供潛在的客戶;提供領(lǐng)域知識給專家系統(tǒng)提供決策數(shù)據(jù),給律師、醫(yī)生、公司 CEO 等提供輔助決策的意見;提供更智能的檢索方式,使用戶可以通過自然語言進(jìn)行搜索;當(dāng)然知識圖譜也是問答必不可少的重要組建。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。