0
現在的市場環(huán)境下,企業(yè)正面臨著競爭逐漸加劇、人力成本增加、人員流動率加快等挑戰(zhàn)。而隨著企業(yè)經歷了信息化的成熟階段,沉淀了大量的數據,大型的企業(yè)都開始了數字化轉型,它們利用前沿的技術、海量的外部數據以及內部積累的業(yè)務數據上下游的關聯客戶,將數據轉化為專家的經驗知識,從而提高工作效率和產品銷量,并增強產品的用戶體驗。而知識圖譜,則在企業(yè)的數字化轉型中扮演了重要的作用。
近日,在雷鋒網 AI 研習社第 3 期職播間上,北京知識圖譜科技有限公司 CEO 進行了招聘宣講,并分享了如何利用知識圖譜產品賦能企業(yè)數字化轉型。公開課回放視頻網址:http://www.mooc.ai/open/course/554?=aitechtalkwugang
吳剛:中科院軟件所碩士,師從軟件所總工戴國忠研究員,主要研究方向為人機交互與智能信息處理,曾在湯森路透擔任中國區(qū)首席顧問?,F任北京知識圖譜科技有限公司 CEO、中文信息學會語言與知識計算專委會委員、開放知識圖譜聯盟成員。
分享主題:知識圖譜賦能企業(yè)數字化轉型
分享提綱:
1、公司介紹與職位介紹
2、知識圖譜技術概述
3、企業(yè)機遇與挑戰(zhàn)
4、知識圖譜賦能企業(yè)數字化轉型
5、知識圖譜落地挑戰(zhàn)與趨勢
雷鋒網 AI 研習社將其分享內容整理如下:
我是知識圖譜科技有限公司的 CEO 吳剛,很榮幸能來這里與大家進行分享。首先做個自我介紹,我畢業(yè)于中國科學院的中科院軟件所,學的是人機交互與智能信息處理。畢業(yè)后在湯森路透工作了幾年,做面向金融、科技行業(yè)的咨詢顧問,之后在 2017 年,我們成立了北京知識圖譜科技,面向醫(yī)療、軍工、金融等領域提供知識圖譜解決方案。
今天我們分享內容包括:公司介紹&招聘,知識圖譜概述 &企業(yè)機遇挑戰(zhàn),知識圖譜賦能企業(yè)數字化轉型,知識圖譜落地挑戰(zhàn)與趨勢四個方面。
其實我們首席科學家在 2015 年就開始做知識圖譜的相關業(yè)務了,在 2017 年成立了北京知識圖譜科技有限公司。公司的研發(fā)中心在江蘇省南京市江寧區(qū)秣周東路(地鐵三號線旁邊),未來科技城里面。我們整個公司是技術驅動型的,技術氛圍很濃,經常會組織技術分享會,包括請外面的專家過來作報告、讓員工去參加知名的技術會議等。我們公司現在主要是面向行業(yè)構建行業(yè)知識圖譜,賦能企業(yè)數字化、智能化轉型。
我們公司在研發(fā)方面的實力較強。我們的領軍人物是東南大學漆桂林教授,他是知識圖譜領域頂級專家,在知識圖譜和人工智能領域非常知名,大家去百度搜索一下就知道了。我們的研發(fā)團隊也是由中國科學院、東南大學碩博士以及阿里巴巴高級技術人才組成的全職專業(yè)研發(fā)團隊,并且依托東南大學認知智能研究所強大的技術儲備和人才資源,實現產學研的結合。在技術方面,我們已有 10 余年知識圖譜領域的技術積累,擁有 10 多項從數據采集清洗、智能語義處理、知識圖譜建模到運維、智能決策等全技術鏈 的核心自主知識產權。
我們公司的優(yōu)勢可以從兩方面來說:
一是技術方面:我們公司專注于知識圖譜、智能問答應用領域多年,通過多年面向企業(yè)和政府的大型項目經驗將知識圖譜技術工具化、平臺化,可基于用戶場景快速開發(fā)人工智能應用。
二是經驗方面:我們擁有大量知識圖譜智能應用的典型客戶案例,服務了多個世界 500 強、國內上市公司、 頂級科研機構以及政府(軍工集團及院所)和多行業(yè)企業(yè)客戶,有專業(yè)豐富的領域服務經驗。
這是我們公司的工作環(huán)境,未來科技城這邊的綠化環(huán)境很好,還有湖,非常適合散步和跑步,下地鐵走幾分鐘就可以到。同時,未來科技城里面也有很多科技公司,像華為、中軟都在這邊。
我們公司現在全職員工為 20 人工作,以技術人員為主。大概介紹一下我們公司招聘的職位,因為我們主要做知識圖譜,所以主要招聘開發(fā)知識圖譜、人工智能平臺及行業(yè)應用產品的工程師,但我們并不要求必須有知識圖譜經驗的工程師,只要求有工程應用開發(fā)經驗的工程師即可。職位主要有:
資深 Java 工程師:我們的知識圖譜平臺主要是 Java 的平臺,因此我們主要招聘資深 Java 工程師,要求 3-5 年工作經驗,本科及以上學歷 。
nlp 工程師 :做知識圖譜也涉及到很多非結構、半結構的數據處理,將處理后的數據融合到知識圖譜中,是我們這個平臺在做的事情,另外我們在醫(yī)療、軍工等行業(yè)的應用的文檔數據也需要這類工程師進行處理。這個職位要求 3-5 年工作經驗,本科及以上學歷 。
測試工程師:這個崗位主要做平臺的測試,要求 1-3 年工作經驗,本科及以上學歷。
我們公司在南京,因此這些職位都是在南京進行招聘。
接下來講一下現在企業(yè)所面臨的挑戰(zhàn)。其實知識圖譜這兩年才比較熱門,前幾年人工智能從技術上來說也才相對比較成熟,落地應用場景還是偏感知智能,如科大訊飛、商湯科技這些做語音識別、人工智能的公司,利用深度學習對海量數據進行訓練,應用到語音識別、人臉識別這樣一些應用場景中。
而我們現在在做的事情是認知智能,如果說科大訊飛、商湯這些公司做的是眼睛、耳朵,那我們做的是大腦——大腦就需要處理各種各樣的數據,尤其行業(yè)數據很多都是非結構和半結構化數據,涉及到智能語音處理和知識圖譜本身的一些技術,如知識推理、智能問答和可視化等,類似于 IBM Watson 、Palantir 利用這些技術去做智能情報分析或行業(yè)的專家系統(tǒng)一樣,知識圖譜可以應用于醫(yī)療癌癥智能診斷、金融智能投研、法律類案推薦等場景。
知識圖譜是實現強人工智能必須要攻克的難點,但它本身的技術棧也比較長,暫時無法像圖像識別、語音識別那樣被快速推進,只能在一個個小的場景中落地。
知識圖譜技術可能有的人沒怎么聽說過,但百度、Google 在 2012 年 就開始做這個。比如你在百度上搜「人民的名義」,它知道這是一個電影,而搜索頁面的右邊,就是通過知識圖譜推薦的關聯知識,比如電影有哪些演員、導演,導演導過什么電影,編劇是哪些人等等。
所以什么叫知識圖譜呢?其實現在沒有一個官方的定義,但是從我的角度來看,可以從兩個角度來看:
從數據角度來看:知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組成單位是「實體—屬性—關系」,構成網狀的知識結構,融合碎片化的信息,建立領域知識模型,挖掘隱藏的關聯關系和傳遞影響,輔助智能決策。
例如一個醫(yī)療大健康領域,像這個圖一樣,包括食譜、食材、問答、人群、營養(yǎng)素和疾病保健幾個部分,彼此間的關聯包括什么樣的疾病不能吃什么營養(yǎng)素的食材等等,這就是一個知識圖譜。
從技術角度來看:它是一套工程技術,包括知識抽取、知識表示、知識存儲、知識推理、知識檢索、知識問答等 一系列技術。
上圖是我對技術棧的一個總結。知識圖譜其實是人工智能領域的一個分支,可能現在行業(yè)內的一些工程師認為他們做的 nlp、數據庫、可視化就是知識圖譜,但是我認為知識圖譜是一套工程體系,不是做一個 nlp、數據庫、可視化就能實現,而是要能在場景中解決問題。
因此做一個智能的語義搜索,你需要利用自然語音處理去抽取文本信息,抽取后要去表示、融合知識,并基于這個知識做推理。上面幾個(知識提取、知識表示、知識融合、知識存儲、知識推理)是構建知識圖譜的過程,下面(知識問答、知識檢索、知識推薦、可視化關聯)是有了數據知識圖譜后的幾種比較典型的運用。
所以知識圖譜是一種交叉的技術體系,與深度學習、自然語言處理都有交叉,包括問答在內的知識圖譜在做語義理解時,都要用到深度學習的技術,因此我們做的這個平臺也是基于很多技術的,比較具有挑戰(zhàn)性。這也對我們工程師提出了更高的要求,不過這樣工程師也能得到更快速的成長,因為接觸到的東西不再僅是深度學習的算法,知識圖譜跟行業(yè)的結合是非常緊密的,工程師也會接觸到一些行業(yè)知識。
這是知識圖譜大概的架構:
數據層:指內外部的各種結構化、半結構化、非結構化數據,包括 ERP、CPM、產品說明書、書籍指南、FAQ、EXCEL、專家錄入數據以及采集的數據等。
平臺層:基于數據層去做數據智能采集的清洗、智能語義的提取、行業(yè)知識圖譜動態(tài)模型的構建以及知識推理。
知識層:基于數據層和平臺層,我們就能構建企業(yè)級的知識圖譜、用戶知識圖譜以及知識規(guī)則引擎。
應用層:使用知識圖譜,可以去做可視化關聯分析、智能知識問答、智能知識推薦、智能語義檢索等方面的應用。
用戶:我們的知識圖譜面向的用戶,主要是知識密集型的行業(yè),例如金融、法律、醫(yī)療、企業(yè)等。
構建一次性圖譜可能不是那么復雜,但是怎樣讓知識圖譜持續(xù)地迭代更新,并讓專家參與其中來做運維,這是比較難的問題。而右邊的這個知識圖譜運維管理平臺,則能讓我們低成本地去運維這個圖譜,這是我們的產品現在在做的事情,我們的工程師在做整套的算法、管理運維平臺并將應用層結合到用戶場景中,這些都需要進行很多開發(fā)的工作。
我們講一下這兩年企業(yè)開始使用知識圖譜的原因:
一是(金融、醫(yī)療等領域)市場監(jiān)管的加強,如果沒有這個驅動因素,企業(yè)可能沒有那么大的動力去做這方面的技術創(chuàng)新;
二是人力成本增加、 人員流動率大。隨著競爭加劇,知識密集型行業(yè)的人力成本逐漸提高。同時,人員流動率的增大也會導致企業(yè)流失掉員工的經驗,培訓成本也隨之增大,所以我們的客戶也希望用知識圖譜技術去沉淀經驗,培訓和賦能員工。
三是業(yè)務向長尾發(fā)展,專家資源有限。一線城市、大醫(yī)院的醫(yī)療業(yè)務基本達到飽和狀態(tài),我們的知識圖譜可以推動分級診療這些機制在這些城市的進展;而隨著市場的增大,專家資源就變得相對有限,這就需要我們這樣的技術幫助企業(yè)去滿足并持續(xù)擴展市場。
四是整個市場競爭加劇,業(yè)務變化和知識更新加快。像金融這些行業(yè)需要最新技術來進行創(chuàng)新,減少成本,提高效率。當然業(yè)務本身的變化也在加快,如果不用更好的技術去響應業(yè)務的變化,這種業(yè)務就很難生存下去了。
當然對企業(yè)來說,之前也有傳統(tǒng) BI、知識庫,那為什么還要用知識圖譜?知識圖譜與它們有什么區(qū)別?
傳統(tǒng) BI 可以進行數據統(tǒng)計或報表,更多是處理知識結構化的數據,而知識圖譜則更多地應用了 AI 技術,除了結構化的數據,它還能處理非結構化或者半結構化的數據。知識庫更多地是把信息匯集在一起提供查詢,但信息中那些經驗性知識沒有被提取出來,或者還需要耗費較大的人力去查找信息,這也是我們知識圖譜面臨的挑戰(zhàn)——怎樣提高效率,更快地找到我們想要的信息。
不僅如此,知識圖譜是針對應用場景,去幫助客戶解決問題的?,F在客戶也有這方面的要求,比如連接起他們生態(tài)中的用戶,而連接過程需要整個行業(yè)的知識賦能,然后通過問答去觸達這些用戶。由于現在移動互聯網的發(fā)展也為用戶連接、場景落地應用提供了很好的條件,這也是我覺得企業(yè)有動力去使用這種方法來提高效率、積淀經驗、增強用戶體驗,以及通過企業(yè)轉型連接生態(tài),與用戶互動起來的重要原因。
當然,除了需要企業(yè)有較強的使用意愿,知識圖譜也需要技術層面的支撐。這也是為什么此前的專家系統(tǒng)都沒有做起來的重要原因——因為條件還不具備。這些專家系統(tǒng)往往都是人工在做相關的工作,成本很高,難以落地應用場景。而現在我們的知識圖譜能做起來,主要有 4 個方面的原因:
第一,在線海量數據?,F在海量數據在線可公開獲取,而企業(yè)內部信息化階段也有大量數據沉淀。
第二,數據采集種類增加。隨著移動互聯網、物聯網、可穿戴設備等技術的發(fā)展,數據采集的種類及采集途徑大大增加。比如要做一個面向病人的護理產品,不采集海量的信息,就很難推動。
第三,對海量數據進行計算和存儲的成本大大降低。以前成本很高,難以持續(xù)投入,而現在成本的降低,能讓我們快速啟動應用。
第四,知識圖譜本身的知識建模、處理技術如 nlp、深度學習、動態(tài)本體知識表示、圖數據庫、知識推理、智能對話、眾包等技術的發(fā)展。
除了業(yè)務和技術方面,那做知識圖譜還存在哪些挑戰(zhàn)呢?
第一是數據源。很多數據都是半結構化、非結構化的,如專業(yè)書籍和專利、產品說明書、FAQ、報告、新聞等,這些數據的整體質量不高。
第二是數據融合。輸入數據量越來越大是個好事,但是帶來的負面影響就是需要對不同數據源進行融合。而怎樣將從多源異構數據中抽取的數據和業(yè)務模型進行關聯融合,則是一個較大的難點。
第三是業(yè)務建模。垂直行業(yè)專業(yè)化程度很高,知識體系復雜龐大,且知識具有模糊性。就比如幫病人診病,每個醫(yī)生的知識和診斷方式都不一樣。此外,業(yè)務具有動態(tài)變化性,經驗規(guī)則復雜,如何建立可靈活擴展的模型比較關鍵。
第四是用戶體驗,因為垂直行業(yè)產品面臨的是對技術不熟練的個人、銷售代表、業(yè)務繁忙的專家等,他們需要簡單易用,用戶體驗智能化的產品。
接下來我們就講一下知識圖譜怎樣賦能企業(yè)數字化轉型。針對剛剛提到的 4 個挑戰(zhàn),我們有以下需要做的事情:
第一,可以采用智能爬蟲、自然語言處理、眾包、機器學習和行業(yè)詞庫等方式去處理數據源;
第二,利用 ETL、知識融合和知識存儲去進行數據融合和存儲;
第三,采用動態(tài)知識模型、實體知識圖譜構建、知識推理引擎等方式去進行業(yè)務建模;
第四,用戶體驗方面,采用智能問答、語義檢索、智能推薦和可視化分析這四種方式去觸及用戶。
企業(yè)智能問答應用場景主要有以下 4 種:
智能客服:現在一般企業(yè)還是使用 chatbot 作為智能客服,知識圖譜可以賦能客服知識培訓,幫助 chatbot 更加智能化。
智能呼叫:有的企業(yè)會使用機器人進行電話營銷(如房產、保險行業(yè)等)、催債(如金融行業(yè)等),知識圖譜能使幫助機器人解決這些場景中遇到的問題。
智能專家:這也是知識圖譜的一個典型場景的運用,知識圖譜能應用到醫(yī)療、法律、金融等專業(yè)領域知識問答。
業(yè)務決策:集成企業(yè)內外部數據構建的企業(yè)知識圖譜,可使用戶通過問答、搜索方式更快獲取知識信息,知識圖譜讓這些問答、搜索更加快速、智能,類似于企業(yè)智能助手。
這是我們知識圖譜業(yè)務的一個架構,知識圖譜本身可以跟問答分隔開來,我們可以構建企業(yè)圖譜或者行業(yè)圖譜,直接讓企業(yè)通過搜索問答方式去使用,當然也可以用在第三方如智能客服、智能助手上,讓它們去回答現在難以回答和理解的問題。
這是一個更細的架構,更多面向復雜知識問答的場景。簡答的知識問答比如問天氣、訂機票則不太適合用這個知識圖譜。
舉個例子,構建產品說明書的知識圖譜,也有不少難點,每個產品說明書表格不太一樣,描述也不一樣,例如「加熱不停」跟「加熱無法停止」二者的描述就有差異,需要進行知識的處理。
比如構建一個家電維修的圖譜提供給用戶,當他們說到某個故障的時候,知識圖譜需要告訴他們該怎樣去維修,以及什么原因。
這是一個簡單的例子,大家可以在圖上看到各種故障,故障有各種原因,在問答的時候我們可以通過這個圖譜進行圖上的查詢及交互。
當然還有很多客戶他們的應用場景,需要導入各種業(yè)務相關的 FAQ、知識文檔、語料等,怎樣構建一個更加智能化的圖譜去進行問答呢?
基于此,我們打造了這樣一個平臺,做全流程的知識圖譜。
我們會根據用戶的反饋去做運維:通過數據采集以及系統(tǒng)自動報警,包括自動偵測以及讓專家去抽樣檢查,接著使用我們這個平臺做問答運維,以逐步優(yōu)化知識圖譜的質量。
我對智能問答技術進行了比較:
FAQ:針對常見簡單問題進行問答,適用于閑聊和客戶場景。
深度學習:輔助 FAQ 深度語義解析、問答泛化、多輪對話,需要大量語料,不可解釋。
而知識圖譜則有以下幾個方面的優(yōu)勢:
1. 帶語義的結構化知識,可擴展衍生應用;
2. 適用于復雜專業(yè)知識問答、精準知識推薦、知識點關聯;
3. 可與 FAQ 和深度學習結合,使 chatbot 更智能;
4. 可基于少量語料冷啟動,無需大量語料和配置相同問法;
5. 具有可解釋性。
我們的知識圖譜業(yè)務主要是這么一個流程:
第一步,梳理業(yè)務需求:根據業(yè)務戰(zhàn)略梳理業(yè)務需求及業(yè)務優(yōu)先級和數據源。
第二步,技術評估:根據業(yè)務需求和數據源進行技術可行性評估;根據場景確定是否需要智能問答?是否必須要多輪對話?(不是每個場景都需要多輪對話,多輪對話的實現也有較大難度);對技術方案、數據質量、需要參與的人員以及技術要求進行評估;對業(yè)務需求的工作量和難易程度進行評估。
第三步,方案確定:從工作量和效益產出綜合評估進行優(yōu)先級排列;分期實施、快速迭代。
第四步,知識圖譜構建:包括數據清洗、本體知識模型構建、數據集成導入、知識圖譜建模等環(huán)節(jié)。我們這個平臺將整套技術融合在一起,形成全周期性的技術平臺,讓用戶不需要熟練掌握技術就能使用這個平臺。
第五步,智能問答應用開發(fā):從小做起;閉環(huán)反饋,逐步實現自學習。
第六步,運維:實現本體、知識圖譜半自動運維,根據數據和用戶反饋持續(xù)迭代優(yōu)化。
知識圖譜的構建流程大概是這樣:通過對半結構化、非結構化數據進行自動提取,構建結構化語義模型,形成一個個小的知識圖譜,再進行知識融合,這個過程中,人工也會參與進來,包括專家會錄入數據,做知識的校正,形成一個業(yè)務層級的知識圖譜,再通過智能應用反饋回來,逐步迭代,最終形成全量業(yè)務知識圖譜。
做知識圖譜應用落地還面臨著一些挑戰(zhàn):
一是數據層面。現在知識圖譜行業(yè)面臨部門數據壁壘高,高質量知識獲取困難,結構化數據少,這意味著非結構化數據比較多,知識處理就會變難。另外 nlp 現在還沒有到達到非常高的質量,需要不少人工的標注。
二是平臺工具層面。知識圖譜的技術棧比較長,圖譜構建和運維成本高,可復制性不強。
三是專業(yè)知識層面。知識圖譜的知識專業(yè)性強,和行業(yè)結合十分緊密,因而需要與行業(yè)專家技術團隊合作,來建立知識模型,在這個過程中,雙方的磨合也是一個挑戰(zhàn)。
四是閉環(huán)系統(tǒng)層面。我們必須將知識圖譜做成一個半自動化學習、人機互動,可持續(xù)低成本迭代優(yōu)化的平臺,才能讓用戶實現低成本的運營。
最后介紹一下知識圖譜的趨勢:
第一,知識圖譜與深度學習、語音識別、圖像識別等技術深度結合。比如通過深度學習去識別一個片子,如果有知識圖譜作為背景支撐,能實現效果更佳的識別,還能增強可解釋性。
第二,其也內外部數據打通,企業(yè)從數字化到智能化的轉型,企業(yè)知識圖譜應用場景模式交叉融合,來逐步沉淀高質量行業(yè)知識圖譜。
第三,全生命周期知識圖譜開放平臺化,構建與運維成本大大降低人機結合,閉環(huán)反饋迭代,集成領域知識模型,自學習。
分享結束后,嘉賓還對同學們提出的問題進行了回答,大家可以移步社區(qū)(http://www.gair.link/page/blogDetail/8626)進行詳細了解。
以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 研習社社區(qū)(https://club.leiphone.com/)觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。
1. 是否和咨詢行業(yè)有 overlap?
我認為是有 overlap 的,我們做的一些知識圖譜會替代咨詢行業(yè)的某些工作。實際上,咨詢行業(yè)本身也意識到了這個問題,像麥肯錫這樣的公司也會使用知識圖譜自動化、智能化的一些產品。此外,我們遇到的一些客戶如 IBM、微軟這些技術型的公司也在逐步利用知識圖譜技術去做一些職能化的運用,給客戶一套解決方案。當然,我們現在在做的知識圖譜本質上相當于專家系統(tǒng),能幫助咨詢行業(yè)去沉淀咨詢經驗。
2. 知識圖譜和客戶畫像的關系?
因為知識圖譜本身的定義也不是很清晰,我們有時候也可將用戶視為客戶畫像,知識圖譜會比傳統(tǒng)畫像更加立體。傳統(tǒng)的畫像相對比較平面化,包括用戶的基本屬性,年齡,購買類別等等,但是知識圖譜能做到非常深層的關聯,比如可以對企業(yè)的上下層關系,挖掘出一個很長的鏈條;對個人,則會涉及到他是哪個公司的高管,參與了其他哪些公司,從哪個學校畢業(yè)的以及發(fā)表了什么專利論文(跟誰一起發(fā)表的),相比較而言,知識圖譜所呈現出來的客戶畫像會更加全面,更注重深層關系的挖掘和關聯,而不僅僅是個人屬性。
3. 知識圖譜目前和區(qū)塊鏈這類分布式技術有結合嗎?
就我來看,二者目前沒什么結合。區(qū)塊鏈的技術我不是太熟悉,但目前結合場景比較少。而區(qū)塊鏈本身落地場景的探索現在也還不是很清晰,不過知識圖譜現在的落地場景比較明確,技術實現也比較難,很難進行復制。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。