丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給雷鋒專欄
發(fā)送

0

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

本文作者: 雷鋒專欄 2017-09-01 15:50
導(dǎo)語:知識(shí)圖譜(Knowledge Graph/Vault,以下簡稱KG)本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成

雷鋒網(wǎng)按:本文作者林錦周,澳銀資本TMT負(fù)責(zé)人。

知識(shí)圖譜(Knowledge Graph/Vault,以下簡稱KG)本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識(shí)圖譜里,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。知識(shí)圖譜是關(guān)系的最有效的表示方式。通俗地講,知識(shí)圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜提供了從“關(guān)系”的角度去分析問題的能力

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

KG應(yīng)用篇

在知識(shí)圖譜應(yīng)用這一塊我shi會(huì)通過介紹名人知識(shí)圖譜的聚類、知識(shí)圖譜在搜索引擎、聊天機(jī)器人、金融科技領(lǐng)域等的商業(yè)應(yīng)用。

進(jìn)一步形象的解釋這個(gè)定義,人物、作品、地點(diǎn)、數(shù)值、身高等都可以作為知識(shí)圖譜中的節(jié)點(diǎn),我們稱這些節(jié)點(diǎn)為實(shí)體。 實(shí)體可以由若干個(gè)屬性表示,節(jié)點(diǎn)關(guān)系這類可以有妻子、女兒、哥哥、偶像、同門等關(guān)系屬性。通過實(shí)體的屬性可以將不同的實(shí)體建立關(guān)聯(lián)關(guān)系,例如:

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景但這里面很多做知識(shí)圖譜網(wǎng)絡(luò)的公司都出過問題,比如同時(shí)在電影和音樂知識(shí)圖譜內(nèi),電影數(shù)據(jù)源里有劉德華,音樂數(shù)據(jù)源里也有劉德華,這兩其實(shí)是一個(gè)人,但是知識(shí)圖譜目前的聚類分布效果并不好,經(jīng)常容易出現(xiàn)兩個(gè)劉德華。從不同數(shù)據(jù)源構(gòu)建圖譜的時(shí)候,必須有自動(dòng)化的算法將各處的劉德華聚類,這里面最難也最需要抓緊解決的是 如何將來自不同數(shù)據(jù)源的相同實(shí)體聚類。這方面谷歌走過彎路,但現(xiàn)在Google now的崛起也證明了谷歌正在從搜索引擎往谷歌知識(shí)圖譜轉(zhuǎn)型。

知識(shí)圖譜最早被應(yīng)用于搜索引擎領(lǐng)域。

自從2012年Google推出自己第一版知識(shí)圖譜以來,它在學(xué)術(shù)界和工業(yè)界掀起了一股熱潮。各大互聯(lián)網(wǎng)企業(yè)在之后的短短一年內(nèi)紛紛推出了自己的知識(shí)圖譜產(chǎn)品以作為回應(yīng)。比如在國內(nèi),互聯(lián)網(wǎng)巨頭百度和搜狗分別推出”知心“和”知立方”來改進(jìn)其搜索質(zhì)量。旨在通過語義把碎片化的數(shù)據(jù)關(guān)聯(lián)起來,讓用戶能直接搜索到事務(wù)(Things),而不是文本字符串(Strings)。在搜索引擎中引入知識(shí)圖譜大幅的提升和優(yōu)化了搜索體驗(yàn)。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎,知識(shí)圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。比如在Google的搜索框里輸入Bill Gates的時(shí)候,搜索結(jié)果頁面的右側(cè)還會(huì)出現(xiàn)Bill Gates相關(guān)的信息比如出生年月,家庭情況等等。對于稍微復(fù)雜的搜索語句比如 ”Who is the wife of Bill Gates“,Google能準(zhǔn)確返回他的妻子Melinda Gates。這就說明搜索引擎通過知識(shí)圖譜真正理解了用戶的意圖。一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

近年來,隨著人工智能的再次興起,知識(shí)圖譜又被廣泛的應(yīng)用于聊天機(jī)器人和問答系統(tǒng)中,用于輔助深度理解人類的語言和支持推理,并提升人機(jī)問答的用戶體驗(yàn)等。典型的如IBM的Watson,蘋果的Siri,Google Allo,Amazon Echo,百度度秘,公子小白等。

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

知識(shí)圖譜也被廣泛用于各種問答交互場景中。Watson 背后依托 DBpedia 和 Yago 等百科知識(shí)庫和 WordNet 等語言學(xué)知識(shí)。類似地,Alexa 也依托其早年收購的 True Knowledge 公司所積累的知識(shí)庫;Siri 則利用 DBpedia 和可計(jì)算的知識(shí)服務(wù)引擎 WolframAlpha;狗尾草公司推出的虛擬美少女機(jī)器人琥珀虛顏則用到了首個(gè)中文鏈接知識(shí)庫 Zhishi.me。伴隨著機(jī)器人和 IoT 設(shè)備的智能化浪潮,智能廚房、智能駕駛和智能家居等應(yīng)用層出不窮。無獨(dú)有偶,百度推出的 Duer OS 和 Siri 的進(jìn)化版 Viv 背后也都有海量知識(shí)庫的支撐。

小冰是微軟中國團(tuán)隊(duì)推出的娛樂聊天機(jī)器人。她的人設(shè)是一位 16 歲的少女。小冰是一個(gè)基于搜索的回復(fù)檢索系統(tǒng)。通過各種基于深度學(xué)習(xí)的語義匹配算法,從海量的問答對語料中返回最佳的回復(fù)(Message response 而非 Answer)。小冰也會(huì)不定期推出新的技能供大家使用,這些技能往往包含了微軟團(tuán)隊(duì)在圖像理解、語音和自然語言理解方面的各種小應(yīng)用嘗試。更值得一提的是:微軟針對日本、北美和歐洲等市場陸續(xù)推出了具有不同人設(shè)的少女如 Rinna、Tay 和 Zo,她們往往可以方便的通過微信、微博或 Twitter 等平臺(tái)進(jìn)行交流。此外,知識(shí)圖譜還被用來提升數(shù)據(jù)分析的能力和效果。例如著名的大數(shù)據(jù)公司Palantir利用知識(shí)圖譜建立數(shù)據(jù)的關(guān)聯(lián)以提升上游數(shù)據(jù)分析的效果。與知識(shí)圖譜有關(guān)的語義技術(shù)也被用來提升機(jī)器與機(jī)器之間的語義互操作能力,解決機(jī)器之間的語義理解問題。例如,全球最大物聯(lián)網(wǎng)標(biāo)準(zhǔn)化組織OneM2M就把語義和知識(shí)技術(shù)作為物聯(lián)設(shè)備抽象和語義封裝的技術(shù)基礎(chǔ)。

在金融、農(nóng)業(yè)、電商、醫(yī)療健康、環(huán)境保護(hù)等大量的垂直領(lǐng)域,知識(shí)圖譜都得到廣泛的應(yīng)用。例如,很多金融領(lǐng)域公司也構(gòu)建了金融知識(shí)庫以進(jìn)行碎片化金融數(shù)據(jù)的集成與管理,并輔助金融專家進(jìn)行風(fēng)控控制、欺詐識(shí)別等;生物醫(yī)療專家通過集成和分析大規(guī)模的生物醫(yī)學(xué)知識(shí)圖譜,輔助其進(jìn)行藥物發(fā)現(xiàn)、潛在靶點(diǎn)識(shí)別等多方面任務(wù)。就金融領(lǐng)域來說,規(guī)則可以是專家對行業(yè)的理解,投資的邏輯,風(fēng)控的把握,關(guān)系可以是企業(yè)的上下游、合作、競爭對手、子母公司、投資、對標(biāo)等關(guān)系,可以是高管與企業(yè)間的任職等關(guān)系,也可以是行業(yè)間的邏輯關(guān)系,實(shí)體則是投資機(jī)構(gòu)、投資人、企業(yè)等等,把它們用知識(shí)圖譜表示出來,從而進(jìn)行更深入的知識(shí)推理。

這里我們主要圍繞著知識(shí)圖譜在國內(nèi)金融市場的應(yīng)用敞開來講,目前在中國市場上我們可以將看到的主要的各種類型的金融知識(shí)圖譜做個(gè)簡單分類。

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

這里面知識(shí)圖譜在國內(nèi)金融市場的細(xì)分應(yīng)用,超過15項(xiàng),其中有10項(xiàng)是在去年一年的時(shí)間內(nèi)出現(xiàn)的,足以見得技術(shù)成本的有效下滑對這個(gè)行業(yè)的促進(jìn)影響作用。此外,有些國內(nèi)的消費(fèi)金融及互聯(lián)網(wǎng)金融公司也積極在利用知識(shí)圖譜加強(qiáng)自身的風(fēng)控和完善用戶畫像,這里我們舉個(gè)京東金融的例子。

京東金融團(tuán)隊(duì)花了大量時(shí)間研究消費(fèi)者在京東商城上的行為知識(shí)圖譜數(shù)據(jù)。一筆真實(shí)交易之前,有二三十倍的行為數(shù)據(jù),都是碎片化的,風(fēng)控團(tuán)隊(duì)的工作就是對這些細(xì)枝末節(jié)進(jìn)行甄別評級,細(xì)節(jié)甚至包括同一個(gè)用戶買東西是先看購物車,還是先看優(yōu)惠券頻道。“一下子到購物車的,則欺詐風(fēng)險(xiǎn)較大,因?yàn)樗静蝗ケ葍r(jià),有可能是欺詐性風(fēng)險(xiǎn)套現(xiàn)的個(gè)案?!?因?yàn)榫〇|從商戶的選擇到物流都是自己做,能掌握更多、更準(zhǔn)確的一手的數(shù)據(jù)。例如,除了電商交易數(shù)據(jù)之外,京東的自有物流可以提供大量的物流數(shù)據(jù)?!爆F(xiàn)在通過這些數(shù)據(jù),可以判斷一筆交易背后的眾多邏輯:“比如是否是一個(gè)活躍客戶——活躍客戶一般違約概率都比較低。如果用戶買的電視是60英寸產(chǎn)品,很容易推斷出他會(huì)有一個(gè)大客廳,這些看似跟信用沒有強(qiáng)關(guān)聯(lián)的碎片化數(shù)據(jù)經(jīng)過模型處理就能夠變得有用。” 京東金融已披露投資的技術(shù)類公司有8家。這些公司涉及數(shù)據(jù)源、數(shù)據(jù)抓取業(yè)務(wù)、數(shù)據(jù)清洗及建模等業(yè)務(wù)。京東金融4000多名員工中,一半屬于風(fēng)控和技術(shù)團(tuán)隊(duì)成員。在消費(fèi)金融內(nèi)部,近百人集中在模型搭建環(huán)節(jié),另一部分集中在數(shù)據(jù)挖掘,大量數(shù)學(xué)及統(tǒng)計(jì)博士在做模型開發(fā)和量化開發(fā)工作。和市場上大部分的競爭對手相比,京東金融在數(shù)據(jù)的豐富度和質(zhì)量方面更有優(yōu)勢,因此通過知識(shí)圖譜方式來構(gòu)建用戶畫像及相應(yīng)的風(fēng)控模型,他們是有明顯的先發(fā)優(yōu)勢。

在互聯(lián)網(wǎng)飛速發(fā)展的今天,知識(shí)大量存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、大量半結(jié)構(gòu)化的表格和網(wǎng)頁以及生產(chǎn)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中。在全球不斷匯集的數(shù)據(jù)中,知識(shí)圖譜幫助我們?nèi)ゾ珳?zhǔn)地結(jié)構(gòu)化每一層數(shù)據(jù),每一條新聞、每一條微博、每一條朋友圈信息流、每一條網(wǎng)頁數(shù)據(jù)。對于每一條非結(jié)構(gòu)化數(shù)據(jù),通過精準(zhǔn)地解構(gòu)出來平均7-8條的知識(shí)圖譜,包含了時(shí)間、地點(diǎn)、人物、事件、機(jī)構(gòu)等等。而我們將這超過3000萬篇章、5億多條每一天的數(shù)據(jù)更新,疊加出來去分析,每兩點(diǎn)之間、三點(diǎn)之間、任意一點(diǎn)之間、任意一個(gè)要素之間的關(guān)聯(lián)關(guān)系。而這些在數(shù)據(jù)底層里面構(gòu)成了一個(gè)去掉語言符號,匯集起來龐大無比的知識(shí)圖譜。

KG技術(shù)篇:

當(dāng)前世界范圍內(nèi)已經(jīng)有非常成熟且知名的高質(zhì)量大規(guī)模開放知識(shí)圖譜,包括 DBpedia、Yago、Wikidata、BabelNet、ConceptNet以及Microsoft Concept Graph。其中DBpedia 是一個(gè)大規(guī)模的多語言百科知識(shí)圖譜,可視為是維基百科的結(jié)構(gòu)化版本。Wikidata 是一個(gè)可以自由協(xié)作編輯的多語言百科知識(shí)庫,它由維基媒體基金會(huì)發(fā)起,期望將維基百科、維基文庫、維基導(dǎo)游等項(xiàng)目中結(jié)構(gòu)化知識(shí)進(jìn)行抽取、存儲(chǔ)、關(guān)聯(lián)。BabelNet 是目前世界范圍內(nèi)最大的多語言百科同義詞典,它本身可被視為一個(gè)由概念、實(shí)體、關(guān)系構(gòu)成的語義網(wǎng)絡(luò)(Semantic Network)。BabelNet 目前有超過 1400 萬個(gè)詞目,每個(gè)詞目對應(yīng)一個(gè) synset。每個(gè) synset 包含所有表達(dá)相同含義的不同語言的同義詞。比如:“中國”、“中華人民共和國”、“China”以及“people’srepublic of China”均存在于一個(gè) synset 中。

中文目前可用的大規(guī)模開放知識(shí)圖譜有 Zhishi.me、Zhishi.schema與XLore。其中Zhishi.me 是第一份構(gòu)建中文鏈接數(shù)據(jù)的工作,與 DBpedia 類似,擁有約 1000 萬個(gè)實(shí)體與一億兩千萬個(gè) RDF 三元組。Zhishi.schema 是一個(gè)大規(guī)模的中文模式(Schema)知識(shí)庫,其本質(zhì)是一個(gè)語義網(wǎng)絡(luò),其中包含三種概念間的關(guān)系,即equal、related與subClassOf關(guān)系。Zhishi.schema抽取自社交站點(diǎn)的分類目錄(Category Taxonomy)及標(biāo)簽云(Tag Cloud),目前擁有約40萬的中文概念與150萬RDF三元組,正確率約為84%,并支持?jǐn)?shù)據(jù)集的完全下載。

此外,中文開放知識(shí)圖譜聯(lián)盟(OpenKG)目前也非常受業(yè)內(nèi)歡迎,作為推動(dòng)中文知識(shí)圖譜的開放與互聯(lián)的平臺(tái),它已經(jīng)搭建有 OpenKG.CN 技術(shù)平臺(tái),目前已有 54家機(jī)構(gòu)入駐。吸引了國內(nèi)最著名知識(shí)圖譜資源的加入,如 Zhishi.me, CN-DBPedia, PKUBase。并已經(jīng)包含了來自于常識(shí)、醫(yī)療、金融、城市、出行等 15 個(gè)類目的開放知識(shí)圖譜。

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

 知識(shí)圖譜的計(jì)算流程一般包括:知識(shí)提取、知識(shí)表現(xiàn)融合、知識(shí)存儲(chǔ)計(jì)算及知識(shí)檢索應(yīng)用

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

知識(shí)獲取:在處理非結(jié)構(gòu)化數(shù)據(jù)方面,首先要對用戶的非結(jié)構(gòu)化數(shù)據(jù)提取正文。目前的互聯(lián)網(wǎng)數(shù)據(jù)存在著大量的廣告,正文提取技術(shù)希望有效的過濾廣告而只保留用戶關(guān)注的文本內(nèi)容。當(dāng)?shù)玫秸奈谋竞螅枰ㄟ^自然語言技術(shù)識(shí)別文章中的實(shí)體,實(shí)體識(shí)別通常有兩種方法,一種是用戶本身有一個(gè)知識(shí)庫則可以使用實(shí)體鏈接將文章中可能的候選實(shí)體鏈接到用戶的知識(shí)庫上。另一種是當(dāng)用戶沒有知識(shí)庫則需要使用命名實(shí)體識(shí)別技術(shù)識(shí)別文章中的實(shí)體。

知識(shí)融合(knowledge fusion)指的是將多個(gè)數(shù)據(jù)源抽取的知識(shí)進(jìn)行融合。

知識(shí)計(jì)算主要是根據(jù)圖譜提供的信息得到更多隱含的知識(shí),如通過本體或者規(guī)則推理技術(shù)可以獲取數(shù)據(jù)中存在的隱含知識(shí);而鏈接預(yù)測則可預(yù)測實(shí)體間隱含的關(guān)系;同時(shí)使用社會(huì)計(jì)算的不同算法在知識(shí)網(wǎng)絡(luò)上計(jì)算獲取知識(shí)圖譜上存在的社區(qū),提供知識(shí)間關(guān)聯(lián)的路徑;通過不一致檢測技術(shù)發(fā)現(xiàn)數(shù)據(jù)中的噪聲和缺陷。通過知識(shí)計(jì)算知識(shí)圖譜可以產(chǎn)生大量的智能應(yīng)用如可以提供精確的用戶畫像為精準(zhǔn)營銷系統(tǒng)提供潛在的客戶;提供領(lǐng)域知識(shí)給專家系統(tǒng)提供決策數(shù)據(jù),給律師、醫(yī)生、公司 CEO 等提供輔助決策的意見;提供更智能的檢索方式,使用戶可以通過自然語言進(jìn)行搜索;當(dāng)然知識(shí)圖譜也是問答必不可少的重要組建。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

一文讀懂知識(shí)圖譜的商業(yè)應(yīng)用進(jìn)程及技術(shù)背景

分享:

編輯

雷鋒專欄賬號,關(guān)注技術(shù)科普&行業(yè)深度分析!
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說