0
本文作者: 叢末 | 2018-10-03 02:31 |
現(xiàn)在的市場環(huán)境下,企業(yè)正面臨著競爭逐漸加劇、人力成本增加、人員流動(dòng)率加快等挑戰(zhàn)。而隨著企業(yè)經(jīng)歷了信息化的成熟階段,沉淀了大量的數(shù)據(jù),大型的企業(yè)都開始了數(shù)字化轉(zhuǎn)型,它們利用前沿的技術(shù)、海量的外部數(shù)據(jù)以及內(nèi)部積累的業(yè)務(wù)數(shù)據(jù)上下游的關(guān)聯(lián)客戶,將數(shù)據(jù)轉(zhuǎn)化為專家的經(jīng)驗(yàn)知識(shí),從而提高工作效率和產(chǎn)品銷量,并增強(qiáng)產(chǎn)品的用戶體驗(yàn)。而知識(shí)圖譜,則在企業(yè)的數(shù)字化轉(zhuǎn)型中扮演了重要的作用。
近日,在雷鋒網(wǎng) AI 研習(xí)社第 3 期職播間上,北京知識(shí)圖譜科技有限公司 CEO 進(jìn)行了招聘宣講,并分享了如何利用知識(shí)圖譜產(chǎn)品賦能企業(yè)數(shù)字化轉(zhuǎn)型。公開課回放視頻網(wǎng)址:http://www.mooc.ai/open/course/554?=aitechtalkwugang
吳剛:中科院軟件所碩士,師從軟件所總工戴國忠研究員,主要研究方向?yàn)槿藱C(jī)交互與智能信息處理,曾在湯森路透擔(dān)任中國區(qū)首席顧問?,F(xiàn)任北京知識(shí)圖譜科技有限公司 CEO、中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專委會(huì)委員、開放知識(shí)圖譜聯(lián)盟成員。
分享主題:知識(shí)圖譜賦能企業(yè)數(shù)字化轉(zhuǎn)型
分享提綱:
1、公司介紹與職位介紹
2、知識(shí)圖譜技術(shù)概述
3、企業(yè)機(jī)遇與挑戰(zhàn)
4、知識(shí)圖譜賦能企業(yè)數(shù)字化轉(zhuǎn)型
5、知識(shí)圖譜落地挑戰(zhàn)與趨勢(shì)
雷鋒網(wǎng) AI 研習(xí)社將其分享內(nèi)容整理如下:
我是知識(shí)圖譜科技有限公司的 CEO 吳剛,很榮幸能來這里與大家進(jìn)行分享。首先做個(gè)自我介紹,我畢業(yè)于中國科學(xué)院的中科院軟件所,學(xué)的是人機(jī)交互與智能信息處理。畢業(yè)后在湯森路透工作了幾年,做面向金融、科技行業(yè)的咨詢顧問,之后在 2017 年,我們成立了北京知識(shí)圖譜科技,面向醫(yī)療、軍工、金融等領(lǐng)域提供知識(shí)圖譜解決方案。
今天我們分享內(nèi)容包括:公司介紹&招聘,知識(shí)圖譜概述 &企業(yè)機(jī)遇挑戰(zhàn),知識(shí)圖譜賦能企業(yè)數(shù)字化轉(zhuǎn)型,知識(shí)圖譜落地挑戰(zhàn)與趨勢(shì)四個(gè)方面。
其實(shí)我們首席科學(xué)家在 2015 年就開始做知識(shí)圖譜的相關(guān)業(yè)務(wù)了,在 2017 年成立了北京知識(shí)圖譜科技有限公司。公司的研發(fā)中心在江蘇省南京市江寧區(qū)秣周東路(地鐵三號(hào)線旁邊),未來科技城里面。我們整個(gè)公司是技術(shù)驅(qū)動(dòng)型的,技術(shù)氛圍很濃,經(jīng)常會(huì)組織技術(shù)分享會(huì),包括請(qǐng)外面的專家過來作報(bào)告、讓員工去參加知名的技術(shù)會(huì)議等。我們公司現(xiàn)在主要是面向行業(yè)構(gòu)建行業(yè)知識(shí)圖譜,賦能企業(yè)數(shù)字化、智能化轉(zhuǎn)型。
我們公司在研發(fā)方面的實(shí)力較強(qiáng)。我們的領(lǐng)軍人物是東南大學(xué)漆桂林教授,他是知識(shí)圖譜領(lǐng)域頂級(jí)專家,在知識(shí)圖譜和人工智能領(lǐng)域非常知名,大家去百度搜索一下就知道了。我們的研發(fā)團(tuán)隊(duì)也是由中國科學(xué)院、東南大學(xué)碩博士以及阿里巴巴高級(jí)技術(shù)人才組成的全職專業(yè)研發(fā)團(tuán)隊(duì),并且依托東南大學(xué)認(rèn)知智能研究所強(qiáng)大的技術(shù)儲(chǔ)備和人才資源,實(shí)現(xiàn)產(chǎn)學(xué)研的結(jié)合。在技術(shù)方面,我們已有 10 余年知識(shí)圖譜領(lǐng)域的技術(shù)積累,擁有 10 多項(xiàng)從數(shù)據(jù)采集清洗、智能語義處理、知識(shí)圖譜建模到運(yùn)維、智能決策等全技術(shù)鏈 的核心自主知識(shí)產(chǎn)權(quán)。
我們公司的優(yōu)勢(shì)可以從兩方面來說:
一是技術(shù)方面:我們公司專注于知識(shí)圖譜、智能問答應(yīng)用領(lǐng)域多年,通過多年面向企業(yè)和政府的大型項(xiàng)目經(jīng)驗(yàn)將知識(shí)圖譜技術(shù)工具化、平臺(tái)化,可基于用戶場景快速開發(fā)人工智能應(yīng)用。
二是經(jīng)驗(yàn)方面:我們擁有大量知識(shí)圖譜智能應(yīng)用的典型客戶案例,服務(wù)了多個(gè)世界 500 強(qiáng)、國內(nèi)上市公司、 頂級(jí)科研機(jī)構(gòu)以及政府(軍工集團(tuán)及院所)和多行業(yè)企業(yè)客戶,有專業(yè)豐富的領(lǐng)域服務(wù)經(jīng)驗(yàn)。
這是我們公司的工作環(huán)境,未來科技城這邊的綠化環(huán)境很好,還有湖,非常適合散步和跑步,下地鐵走幾分鐘就可以到。同時(shí),未來科技城里面也有很多科技公司,像華為、中軟都在這邊。
我們公司現(xiàn)在全職員工為 20 人工作,以技術(shù)人員為主。大概介紹一下我們公司招聘的職位,因?yàn)槲覀冎饕鲋R(shí)圖譜,所以主要招聘開發(fā)知識(shí)圖譜、人工智能平臺(tái)及行業(yè)應(yīng)用產(chǎn)品的工程師,但我們并不要求必須有知識(shí)圖譜經(jīng)驗(yàn)的工程師,只要求有工程應(yīng)用開發(fā)經(jīng)驗(yàn)的工程師即可。職位主要有:
資深 Java 工程師:我們的知識(shí)圖譜平臺(tái)主要是 Java 的平臺(tái),因此我們主要招聘資深 Java 工程師,要求 3-5 年工作經(jīng)驗(yàn),本科及以上學(xué)歷 。
nlp 工程師 :做知識(shí)圖譜也涉及到很多非結(jié)構(gòu)、半結(jié)構(gòu)的數(shù)據(jù)處理,將處理后的數(shù)據(jù)融合到知識(shí)圖譜中,是我們這個(gè)平臺(tái)在做的事情,另外我們?cè)卺t(yī)療、軍工等行業(yè)的應(yīng)用的文檔數(shù)據(jù)也需要這類工程師進(jìn)行處理。這個(gè)職位要求 3-5 年工作經(jīng)驗(yàn),本科及以上學(xué)歷 。
測(cè)試工程師:這個(gè)崗位主要做平臺(tái)的測(cè)試,要求 1-3 年工作經(jīng)驗(yàn),本科及以上學(xué)歷。
我們公司在南京,因此這些職位都是在南京進(jìn)行招聘。
接下來講一下現(xiàn)在企業(yè)所面臨的挑戰(zhàn)。其實(shí)知識(shí)圖譜這兩年才比較熱門,前幾年人工智能從技術(shù)上來說也才相對(duì)比較成熟,落地應(yīng)用場景還是偏感知智能,如科大訊飛、商湯科技這些做語音識(shí)別、人工智能的公司,利用深度學(xué)習(xí)對(duì)海量數(shù)據(jù)進(jìn)行訓(xùn)練,應(yīng)用到語音識(shí)別、人臉識(shí)別這樣一些應(yīng)用場景中。
而我們現(xiàn)在在做的事情是認(rèn)知智能,如果說科大訊飛、商湯這些公司做的是眼睛、耳朵,那我們做的是大腦——大腦就需要處理各種各樣的數(shù)據(jù),尤其行業(yè)數(shù)據(jù)很多都是非結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù),涉及到智能語音處理和知識(shí)圖譜本身的一些技術(shù),如知識(shí)推理、智能問答和可視化等,類似于 IBM Watson 、Palantir 利用這些技術(shù)去做智能情報(bào)分析或行業(yè)的專家系統(tǒng)一樣,知識(shí)圖譜可以應(yīng)用于醫(yī)療癌癥智能診斷、金融智能投研、法律類案推薦等場景。
知識(shí)圖譜是實(shí)現(xiàn)強(qiáng)人工智能必須要攻克的難點(diǎn),但它本身的技術(shù)棧也比較長,暫時(shí)無法像圖像識(shí)別、語音識(shí)別那樣被快速推進(jìn),只能在一個(gè)個(gè)小的場景中落地。
知識(shí)圖譜技術(shù)可能有的人沒怎么聽說過,但百度、Google 在 2012 年 就開始做這個(gè)。比如你在百度上搜「人民的名義」,它知道這是一個(gè)電影,而搜索頁面的右邊,就是通過知識(shí)圖譜推薦的關(guān)聯(lián)知識(shí),比如電影有哪些演員、導(dǎo)演,導(dǎo)演導(dǎo)過什么電影,編劇是哪些人等等。
所以什么叫知識(shí)圖譜呢?其實(shí)現(xiàn)在沒有一個(gè)官方的定義,但是從我的角度來看,可以從兩個(gè)角度來看:
從數(shù)據(jù)角度來看:知識(shí)圖譜是結(jié)構(gòu)化的語義知識(shí)庫,用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是「實(shí)體—屬性—關(guān)系」,構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu),融合碎片化的信息,建立領(lǐng)域知識(shí)模型,挖掘隱藏的關(guān)聯(lián)關(guān)系和傳遞影響,輔助智能決策。
例如一個(gè)醫(yī)療大健康領(lǐng)域,像這個(gè)圖一樣,包括食譜、食材、問答、人群、營養(yǎng)素和疾病保健幾個(gè)部分,彼此間的關(guān)聯(lián)包括什么樣的疾病不能吃什么營養(yǎng)素的食材等等,這就是一個(gè)知識(shí)圖譜。
從技術(shù)角度來看:它是一套工程技術(shù),包括知識(shí)抽取、知識(shí)表示、知識(shí)存儲(chǔ)、知識(shí)推理、知識(shí)檢索、知識(shí)問答等 一系列技術(shù)。
上圖是我對(duì)技術(shù)棧的一個(gè)總結(jié)。知識(shí)圖譜其實(shí)是人工智能領(lǐng)域的一個(gè)分支,可能現(xiàn)在行業(yè)內(nèi)的一些工程師認(rèn)為他們做的 nlp、數(shù)據(jù)庫、可視化就是知識(shí)圖譜,但是我認(rèn)為知識(shí)圖譜是一套工程體系,不是做一個(gè) nlp、數(shù)據(jù)庫、可視化就能實(shí)現(xiàn),而是要能在場景中解決問題。
因此做一個(gè)智能的語義搜索,你需要利用自然語音處理去抽取文本信息,抽取后要去表示、融合知識(shí),并基于這個(gè)知識(shí)做推理。上面幾個(gè)(知識(shí)提取、知識(shí)表示、知識(shí)融合、知識(shí)存儲(chǔ)、知識(shí)推理)是構(gòu)建知識(shí)圖譜的過程,下面(知識(shí)問答、知識(shí)檢索、知識(shí)推薦、可視化關(guān)聯(lián))是有了數(shù)據(jù)知識(shí)圖譜后的幾種比較典型的運(yùn)用。
所以知識(shí)圖譜是一種交叉的技術(shù)體系,與深度學(xué)習(xí)、自然語言處理都有交叉,包括問答在內(nèi)的知識(shí)圖譜在做語義理解時(shí),都要用到深度學(xué)習(xí)的技術(shù),因此我們做的這個(gè)平臺(tái)也是基于很多技術(shù)的,比較具有挑戰(zhàn)性。這也對(duì)我們工程師提出了更高的要求,不過這樣工程師也能得到更快速的成長,因?yàn)榻佑|到的東西不再僅是深度學(xué)習(xí)的算法,知識(shí)圖譜跟行業(yè)的結(jié)合是非常緊密的,工程師也會(huì)接觸到一些行業(yè)知識(shí)。
這是知識(shí)圖譜大概的架構(gòu):
數(shù)據(jù)層:指內(nèi)外部的各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),包括 ERP、CPM、產(chǎn)品說明書、書籍指南、FAQ、EXCEL、專家錄入數(shù)據(jù)以及采集的數(shù)據(jù)等。
平臺(tái)層:基于數(shù)據(jù)層去做數(shù)據(jù)智能采集的清洗、智能語義的提取、行業(yè)知識(shí)圖譜動(dòng)態(tài)模型的構(gòu)建以及知識(shí)推理。
知識(shí)層:基于數(shù)據(jù)層和平臺(tái)層,我們就能構(gòu)建企業(yè)級(jí)的知識(shí)圖譜、用戶知識(shí)圖譜以及知識(shí)規(guī)則引擎。
應(yīng)用層:使用知識(shí)圖譜,可以去做可視化關(guān)聯(lián)分析、智能知識(shí)問答、智能知識(shí)推薦、智能語義檢索等方面的應(yīng)用。
用戶:我們的知識(shí)圖譜面向的用戶,主要是知識(shí)密集型的行業(yè),例如金融、法律、醫(yī)療、企業(yè)等。
構(gòu)建一次性圖譜可能不是那么復(fù)雜,但是怎樣讓知識(shí)圖譜持續(xù)地迭代更新,并讓專家參與其中來做運(yùn)維,這是比較難的問題。而右邊的這個(gè)知識(shí)圖譜運(yùn)維管理平臺(tái),則能讓我們低成本地去運(yùn)維這個(gè)圖譜,這是我們的產(chǎn)品現(xiàn)在在做的事情,我們的工程師在做整套的算法、管理運(yùn)維平臺(tái)并將應(yīng)用層結(jié)合到用戶場景中,這些都需要進(jìn)行很多開發(fā)的工作。
我們講一下這兩年企業(yè)開始使用知識(shí)圖譜的原因:
一是(金融、醫(yī)療等領(lǐng)域)市場監(jiān)管的加強(qiáng),如果沒有這個(gè)驅(qū)動(dòng)因素,企業(yè)可能沒有那么大的動(dòng)力去做這方面的技術(shù)創(chuàng)新;
二是人力成本增加、 人員流動(dòng)率大。隨著競爭加劇,知識(shí)密集型行業(yè)的人力成本逐漸提高。同時(shí),人員流動(dòng)率的增大也會(huì)導(dǎo)致企業(yè)流失掉員工的經(jīng)驗(yàn),培訓(xùn)成本也隨之增大,所以我們的客戶也希望用知識(shí)圖譜技術(shù)去沉淀經(jīng)驗(yàn),培訓(xùn)和賦能員工。
三是業(yè)務(wù)向長尾發(fā)展,專家資源有限。一線城市、大醫(yī)院的醫(yī)療業(yè)務(wù)基本達(dá)到飽和狀態(tài),我們的知識(shí)圖譜可以推動(dòng)分級(jí)診療這些機(jī)制在這些城市的進(jìn)展;而隨著市場的增大,專家資源就變得相對(duì)有限,這就需要我們這樣的技術(shù)幫助企業(yè)去滿足并持續(xù)擴(kuò)展市場。
四是整個(gè)市場競爭加劇,業(yè)務(wù)變化和知識(shí)更新加快。像金融這些行業(yè)需要最新技術(shù)來進(jìn)行創(chuàng)新,減少成本,提高效率。當(dāng)然業(yè)務(wù)本身的變化也在加快,如果不用更好的技術(shù)去響應(yīng)業(yè)務(wù)的變化,這種業(yè)務(wù)就很難生存下去了。
當(dāng)然對(duì)企業(yè)來說,之前也有傳統(tǒng) BI、知識(shí)庫,那為什么還要用知識(shí)圖譜?知識(shí)圖譜與它們有什么區(qū)別?
傳統(tǒng) BI 可以進(jìn)行數(shù)據(jù)統(tǒng)計(jì)或報(bào)表,更多是處理知識(shí)結(jié)構(gòu)化的數(shù)據(jù),而知識(shí)圖譜則更多地應(yīng)用了 AI 技術(shù),除了結(jié)構(gòu)化的數(shù)據(jù),它還能處理非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)。知識(shí)庫更多地是把信息匯集在一起提供查詢,但信息中那些經(jīng)驗(yàn)性知識(shí)沒有被提取出來,或者還需要耗費(fèi)較大的人力去查找信息,這也是我們知識(shí)圖譜面臨的挑戰(zhàn)——怎樣提高效率,更快地找到我們想要的信息。
不僅如此,知識(shí)圖譜是針對(duì)應(yīng)用場景,去幫助客戶解決問題的。現(xiàn)在客戶也有這方面的要求,比如連接起他們生態(tài)中的用戶,而連接過程需要整個(gè)行業(yè)的知識(shí)賦能,然后通過問答去觸達(dá)這些用戶。由于現(xiàn)在移動(dòng)互聯(lián)網(wǎng)的發(fā)展也為用戶連接、場景落地應(yīng)用提供了很好的條件,這也是我覺得企業(yè)有動(dòng)力去使用這種方法來提高效率、積淀經(jīng)驗(yàn)、增強(qiáng)用戶體驗(yàn),以及通過企業(yè)轉(zhuǎn)型連接生態(tài),與用戶互動(dòng)起來的重要原因。
當(dāng)然,除了需要企業(yè)有較強(qiáng)的使用意愿,知識(shí)圖譜也需要技術(shù)層面的支撐。這也是為什么此前的專家系統(tǒng)都沒有做起來的重要原因——因?yàn)闂l件還不具備。這些專家系統(tǒng)往往都是人工在做相關(guān)的工作,成本很高,難以落地應(yīng)用場景。而現(xiàn)在我們的知識(shí)圖譜能做起來,主要有 4 個(gè)方面的原因:
第一,在線海量數(shù)據(jù)。現(xiàn)在海量數(shù)據(jù)在線可公開獲取,而企業(yè)內(nèi)部信息化階段也有大量數(shù)據(jù)沉淀。
第二,數(shù)據(jù)采集種類增加。隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、可穿戴設(shè)備等技術(shù)的發(fā)展,數(shù)據(jù)采集的種類及采集途徑大大增加。比如要做一個(gè)面向病人的護(hù)理產(chǎn)品,不采集海量的信息,就很難推動(dòng)。
第三,對(duì)海量數(shù)據(jù)進(jìn)行計(jì)算和存儲(chǔ)的成本大大降低。以前成本很高,難以持續(xù)投入,而現(xiàn)在成本的降低,能讓我們快速啟動(dòng)應(yīng)用。
第四,知識(shí)圖譜本身的知識(shí)建模、處理技術(shù)如 nlp、深度學(xué)習(xí)、動(dòng)態(tài)本體知識(shí)表示、圖數(shù)據(jù)庫、知識(shí)推理、智能對(duì)話、眾包等技術(shù)的發(fā)展。
除了業(yè)務(wù)和技術(shù)方面,那做知識(shí)圖譜還存在哪些挑戰(zhàn)呢?
第一是數(shù)據(jù)源。很多數(shù)據(jù)都是半結(jié)構(gòu)化、非結(jié)構(gòu)化的,如專業(yè)書籍和專利、產(chǎn)品說明書、FAQ、報(bào)告、新聞等,這些數(shù)據(jù)的整體質(zhì)量不高。
第二是數(shù)據(jù)融合。輸入數(shù)據(jù)量越來越大是個(gè)好事,但是帶來的負(fù)面影響就是需要對(duì)不同數(shù)據(jù)源進(jìn)行融合。而怎樣將從多源異構(gòu)數(shù)據(jù)中抽取的數(shù)據(jù)和業(yè)務(wù)模型進(jìn)行關(guān)聯(lián)融合,則是一個(gè)較大的難點(diǎn)。
第三是業(yè)務(wù)建模。垂直行業(yè)專業(yè)化程度很高,知識(shí)體系復(fù)雜龐大,且知識(shí)具有模糊性。就比如幫病人診病,每個(gè)醫(yī)生的知識(shí)和診斷方式都不一樣。此外,業(yè)務(wù)具有動(dòng)態(tài)變化性,經(jīng)驗(yàn)規(guī)則復(fù)雜,如何建立可靈活擴(kuò)展的模型比較關(guān)鍵。
第四是用戶體驗(yàn),因?yàn)榇怪毙袠I(yè)產(chǎn)品面臨的是對(duì)技術(shù)不熟練的個(gè)人、銷售代表、業(yè)務(wù)繁忙的專家等,他們需要簡單易用,用戶體驗(yàn)智能化的產(chǎn)品。
接下來我們就講一下知識(shí)圖譜怎樣賦能企業(yè)數(shù)字化轉(zhuǎn)型。針對(duì)剛剛提到的 4 個(gè)挑戰(zhàn),我們有以下需要做的事情:
第一,可以采用智能爬蟲、自然語言處理、眾包、機(jī)器學(xué)習(xí)和行業(yè)詞庫等方式去處理數(shù)據(jù)源;
第二,利用 ETL、知識(shí)融合和知識(shí)存儲(chǔ)去進(jìn)行數(shù)據(jù)融合和存儲(chǔ);
第三,采用動(dòng)態(tài)知識(shí)模型、實(shí)體知識(shí)圖譜構(gòu)建、知識(shí)推理引擎等方式去進(jìn)行業(yè)務(wù)建模;
第四,用戶體驗(yàn)方面,采用智能問答、語義檢索、智能推薦和可視化分析這四種方式去觸及用戶。
企業(yè)智能問答應(yīng)用場景主要有以下 4 種:
智能客服:現(xiàn)在一般企業(yè)還是使用 chatbot 作為智能客服,知識(shí)圖譜可以賦能客服知識(shí)培訓(xùn),幫助 chatbot 更加智能化。
智能呼叫:有的企業(yè)會(huì)使用機(jī)器人進(jìn)行電話營銷(如房產(chǎn)、保險(xiǎn)行業(yè)等)、催債(如金融行業(yè)等),知識(shí)圖譜能使幫助機(jī)器人解決這些場景中遇到的問題。
智能專家:這也是知識(shí)圖譜的一個(gè)典型場景的運(yùn)用,知識(shí)圖譜能應(yīng)用到醫(yī)療、法律、金融等專業(yè)領(lǐng)域知識(shí)問答。
業(yè)務(wù)決策:集成企業(yè)內(nèi)外部數(shù)據(jù)構(gòu)建的企業(yè)知識(shí)圖譜,可使用戶通過問答、搜索方式更快獲取知識(shí)信息,知識(shí)圖譜讓這些問答、搜索更加快速、智能,類似于企業(yè)智能助手。
這是我們知識(shí)圖譜業(yè)務(wù)的一個(gè)架構(gòu),知識(shí)圖譜本身可以跟問答分隔開來,我們可以構(gòu)建企業(yè)圖譜或者行業(yè)圖譜,直接讓企業(yè)通過搜索問答方式去使用,當(dāng)然也可以用在第三方如智能客服、智能助手上,讓它們?nèi)セ卮瓞F(xiàn)在難以回答和理解的問題。
這是一個(gè)更細(xì)的架構(gòu),更多面向復(fù)雜知識(shí)問答的場景。簡答的知識(shí)問答比如問天氣、訂機(jī)票則不太適合用這個(gè)知識(shí)圖譜。
舉個(gè)例子,構(gòu)建產(chǎn)品說明書的知識(shí)圖譜,也有不少難點(diǎn),每個(gè)產(chǎn)品說明書表格不太一樣,描述也不一樣,例如「加熱不?!垢讣訜釤o法停止」二者的描述就有差異,需要進(jìn)行知識(shí)的處理。
比如構(gòu)建一個(gè)家電維修的圖譜提供給用戶,當(dāng)他們說到某個(gè)故障的時(shí)候,知識(shí)圖譜需要告訴他們?cè)撛鯓尤ゾS修,以及什么原因。
這是一個(gè)簡單的例子,大家可以在圖上看到各種故障,故障有各種原因,在問答的時(shí)候我們可以通過這個(gè)圖譜進(jìn)行圖上的查詢及交互。
當(dāng)然還有很多客戶他們的應(yīng)用場景,需要導(dǎo)入各種業(yè)務(wù)相關(guān)的 FAQ、知識(shí)文檔、語料等,怎樣構(gòu)建一個(gè)更加智能化的圖譜去進(jìn)行問答呢?
基于此,我們打造了這樣一個(gè)平臺(tái),做全流程的知識(shí)圖譜。
我們會(huì)根據(jù)用戶的反饋去做運(yùn)維:通過數(shù)據(jù)采集以及系統(tǒng)自動(dòng)報(bào)警,包括自動(dòng)偵測(cè)以及讓專家去抽樣檢查,接著使用我們這個(gè)平臺(tái)做問答運(yùn)維,以逐步優(yōu)化知識(shí)圖譜的質(zhì)量。
我對(duì)智能問答技術(shù)進(jìn)行了比較:
FAQ:針對(duì)常見簡單問題進(jìn)行問答,適用于閑聊和客戶場景。
深度學(xué)習(xí):輔助 FAQ 深度語義解析、問答泛化、多輪對(duì)話,需要大量語料,不可解釋。
而知識(shí)圖譜則有以下幾個(gè)方面的優(yōu)勢(shì):
1. 帶語義的結(jié)構(gòu)化知識(shí),可擴(kuò)展衍生應(yīng)用;
2. 適用于復(fù)雜專業(yè)知識(shí)問答、精準(zhǔn)知識(shí)推薦、知識(shí)點(diǎn)關(guān)聯(lián);
3. 可與 FAQ 和深度學(xué)習(xí)結(jié)合,使 chatbot 更智能;
4. 可基于少量語料冷啟動(dòng),無需大量語料和配置相同問法;
5. 具有可解釋性。
我們的知識(shí)圖譜業(yè)務(wù)主要是這么一個(gè)流程:
第一步,梳理業(yè)務(wù)需求:根據(jù)業(yè)務(wù)戰(zhàn)略梳理業(yè)務(wù)需求及業(yè)務(wù)優(yōu)先級(jí)和數(shù)據(jù)源。
第二步,技術(shù)評(píng)估:根據(jù)業(yè)務(wù)需求和數(shù)據(jù)源進(jìn)行技術(shù)可行性評(píng)估;根據(jù)場景確定是否需要智能問答?是否必須要多輪對(duì)話?(不是每個(gè)場景都需要多輪對(duì)話,多輪對(duì)話的實(shí)現(xiàn)也有較大難度);對(duì)技術(shù)方案、數(shù)據(jù)質(zhì)量、需要參與的人員以及技術(shù)要求進(jìn)行評(píng)估;對(duì)業(yè)務(wù)需求的工作量和難易程度進(jìn)行評(píng)估。
第三步,方案確定:從工作量和效益產(chǎn)出綜合評(píng)估進(jìn)行優(yōu)先級(jí)排列;分期實(shí)施、快速迭代。
第四步,知識(shí)圖譜構(gòu)建:包括數(shù)據(jù)清洗、本體知識(shí)模型構(gòu)建、數(shù)據(jù)集成導(dǎo)入、知識(shí)圖譜建模等環(huán)節(jié)。我們這個(gè)平臺(tái)將整套技術(shù)融合在一起,形成全周期性的技術(shù)平臺(tái),讓用戶不需要熟練掌握技術(shù)就能使用這個(gè)平臺(tái)。
第五步,智能問答應(yīng)用開發(fā):從小做起;閉環(huán)反饋,逐步實(shí)現(xiàn)自學(xué)習(xí)。
第六步,運(yùn)維:實(shí)現(xiàn)本體、知識(shí)圖譜半自動(dòng)運(yùn)維,根據(jù)數(shù)據(jù)和用戶反饋持續(xù)迭代優(yōu)化。
知識(shí)圖譜的構(gòu)建流程大概是這樣:通過對(duì)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行自動(dòng)提取,構(gòu)建結(jié)構(gòu)化語義模型,形成一個(gè)個(gè)小的知識(shí)圖譜,再進(jìn)行知識(shí)融合,這個(gè)過程中,人工也會(huì)參與進(jìn)來,包括專家會(huì)錄入數(shù)據(jù),做知識(shí)的校正,形成一個(gè)業(yè)務(wù)層級(jí)的知識(shí)圖譜,再通過智能應(yīng)用反饋回來,逐步迭代,最終形成全量業(yè)務(wù)知識(shí)圖譜。
做知識(shí)圖譜應(yīng)用落地還面臨著一些挑戰(zhàn):
一是數(shù)據(jù)層面?,F(xiàn)在知識(shí)圖譜行業(yè)面臨部門數(shù)據(jù)壁壘高,高質(zhì)量知識(shí)獲取困難,結(jié)構(gòu)化數(shù)據(jù)少,這意味著非結(jié)構(gòu)化數(shù)據(jù)比較多,知識(shí)處理就會(huì)變難。另外 nlp 現(xiàn)在還沒有到達(dá)到非常高的質(zhì)量,需要不少人工的標(biāo)注。
二是平臺(tái)工具層面。知識(shí)圖譜的技術(shù)棧比較長,圖譜構(gòu)建和運(yùn)維成本高,可復(fù)制性不強(qiáng)。
三是專業(yè)知識(shí)層面。知識(shí)圖譜的知識(shí)專業(yè)性強(qiáng),和行業(yè)結(jié)合十分緊密,因而需要與行業(yè)專家技術(shù)團(tuán)隊(duì)合作,來建立知識(shí)模型,在這個(gè)過程中,雙方的磨合也是一個(gè)挑戰(zhàn)。
四是閉環(huán)系統(tǒng)層面。我們必須將知識(shí)圖譜做成一個(gè)半自動(dòng)化學(xué)習(xí)、人機(jī)互動(dòng),可持續(xù)低成本迭代優(yōu)化的平臺(tái),才能讓用戶實(shí)現(xiàn)低成本的運(yùn)營。
最后介紹一下知識(shí)圖譜的趨勢(shì):
第一,知識(shí)圖譜與深度學(xué)習(xí)、語音識(shí)別、圖像識(shí)別等技術(shù)深度結(jié)合。比如通過深度學(xué)習(xí)去識(shí)別一個(gè)片子,如果有知識(shí)圖譜作為背景支撐,能實(shí)現(xiàn)效果更佳的識(shí)別,還能增強(qiáng)可解釋性。
第二,其也內(nèi)外部數(shù)據(jù)打通,企業(yè)從數(shù)字化到智能化的轉(zhuǎn)型,企業(yè)知識(shí)圖譜應(yīng)用場景模式交叉融合,來逐步沉淀高質(zhì)量行業(yè)知識(shí)圖譜。
第三,全生命周期知識(shí)圖譜開放平臺(tái)化,構(gòu)建與運(yùn)維成本大大降低人機(jī)結(jié)合,閉環(huán)反饋迭代,集成領(lǐng)域知識(shí)模型,自學(xué)習(xí)。
分享結(jié)束后,嘉賓還對(duì)同學(xué)們提出的問題進(jìn)行了回答,大家可以移步社區(qū)(http://www.gair.link/page/blogDetail/8626)進(jìn)行詳細(xì)了解。
以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請(qǐng)到雷鋒網(wǎng) AI 研習(xí)社社區(qū)(https://club.leiphone.com/)觀看。關(guān)注微信公眾號(hào):AI 研習(xí)社(okweiwu),可獲取最新公開課直播時(shí)間預(yù)告。
1. 是否和咨詢行業(yè)有 overlap?
我認(rèn)為是有 overlap 的,我們做的一些知識(shí)圖譜會(huì)替代咨詢行業(yè)的某些工作。實(shí)際上,咨詢行業(yè)本身也意識(shí)到了這個(gè)問題,像麥肯錫這樣的公司也會(huì)使用知識(shí)圖譜自動(dòng)化、智能化的一些產(chǎn)品。此外,我們遇到的一些客戶如 IBM、微軟這些技術(shù)型的公司也在逐步利用知識(shí)圖譜技術(shù)去做一些職能化的運(yùn)用,給客戶一套解決方案。當(dāng)然,我們現(xiàn)在在做的知識(shí)圖譜本質(zhì)上相當(dāng)于專家系統(tǒng),能幫助咨詢行業(yè)去沉淀咨詢經(jīng)驗(yàn)。
2. 知識(shí)圖譜和客戶畫像的關(guān)系?
因?yàn)橹R(shí)圖譜本身的定義也不是很清晰,我們有時(shí)候也可將用戶視為客戶畫像,知識(shí)圖譜會(huì)比傳統(tǒng)畫像更加立體。傳統(tǒng)的畫像相對(duì)比較平面化,包括用戶的基本屬性,年齡,購買類別等等,但是知識(shí)圖譜能做到非常深層的關(guān)聯(lián),比如可以對(duì)企業(yè)的上下層關(guān)系,挖掘出一個(gè)很長的鏈條;對(duì)個(gè)人,則會(huì)涉及到他是哪個(gè)公司的高管,參與了其他哪些公司,從哪個(gè)學(xué)校畢業(yè)的以及發(fā)表了什么專利論文(跟誰一起發(fā)表的),相比較而言,知識(shí)圖譜所呈現(xiàn)出來的客戶畫像會(huì)更加全面,更注重深層關(guān)系的挖掘和關(guān)聯(lián),而不僅僅是個(gè)人屬性。
3. 知識(shí)圖譜目前和區(qū)塊鏈這類分布式技術(shù)有結(jié)合嗎?
就我來看,二者目前沒什么結(jié)合。區(qū)塊鏈的技術(shù)我不是太熟悉,但目前結(jié)合場景比較少。而區(qū)塊鏈本身落地場景的探索現(xiàn)在也還不是很清晰,不過知識(shí)圖譜現(xiàn)在的落地場景比較明確,技術(shù)實(shí)現(xiàn)也比較難,很難進(jìn)行復(fù)制。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。