0
本文作者: 劉海濤 | 2020-09-08 15:54 |
雷鋒網(wǎng)消息,近日,雷鋒網(wǎng)「醫(yī)健AI掘金志」邀請(qǐng)眾安保險(xiǎn)智能中心負(fù)責(zé)人孫谷飛,以“數(shù)據(jù)中臺(tái)賦能未來(lái)保險(xiǎn)生態(tài)”為題,對(duì)險(xiǎn)企內(nèi)部數(shù)據(jù)管理、流通、價(jià)值挖掘技術(shù)邏輯進(jìn)行了解析。
過(guò)去,由于技術(shù)手段和數(shù)據(jù)安全的限制,保險(xiǎn)公司的各個(gè)系統(tǒng)間無(wú)法完成高效的數(shù)據(jù)交換和溝通,系統(tǒng)間就像一個(gè)個(gè)孤島。由于擔(dān)心部門(mén)內(nèi)部信息共享不當(dāng),即便是大型保險(xiǎn)公司,內(nèi)部很多部門(mén)仍處于“信息獨(dú)立”的運(yùn)營(yíng)狀態(tài)中。
孫谷飛曾在世界人工智能大會(huì)上呼吁,“保險(xiǎn)公司不僅要豐富自身結(jié)構(gòu)化場(chǎng)景數(shù)據(jù),更需要加強(qiáng)保險(xiǎn)公司間和其他行業(yè)的數(shù)據(jù)交流。數(shù)據(jù)開(kāi)放和隱私安全并非悖論,運(yùn)用聯(lián)邦學(xué)習(xí)技術(shù)的數(shù)據(jù)隔離特性和加密機(jī)制,能夠有效解決不同公司間數(shù)據(jù)共享和聯(lián)合建模問(wèn)題,解決隱私泄露風(fēng)險(xiǎn)?!?/p>
目前,為了實(shí)現(xiàn)數(shù)據(jù)價(jià)值,眾安在內(nèi)部實(shí)行了包含數(shù)據(jù)管理體系、數(shù)據(jù)流通體系以及數(shù)據(jù)價(jià)值體系的數(shù)據(jù)中臺(tái)戰(zhàn)略。
在數(shù)據(jù)管理層面,數(shù)據(jù)中臺(tái)可以對(duì)每張數(shù)據(jù)表進(jìn)行自動(dòng)掃描,并和過(guò)去積累的近3000多種規(guī)則進(jìn)行比較,自動(dòng)預(yù)警出哪一張表或哪一事業(yè)部的數(shù)據(jù)質(zhì)量問(wèn)題,自動(dòng)發(fā)郵件提醒業(yè)務(wù)部門(mén)改正。
在數(shù)據(jù)流通層面,針對(duì)過(guò)去把數(shù)據(jù)安全重心都放在審批中,審批流程非常嚴(yán),拿到審批特征之后,數(shù)據(jù)流通風(fēng)險(xiǎn)急劇增高的情況,眾安通過(guò)數(shù)據(jù)分發(fā)超市,將數(shù)據(jù)獲取、挖掘、分析等流程完全集中在系統(tǒng)之內(nèi),提高數(shù)據(jù)流通的基礎(chǔ)上,降低流失風(fēng)險(xiǎn)。
以下為孫谷飛演講全文內(nèi)容,醫(yī)健AI掘金志做了不改變?cè)獾木庉嫞?/strong>
大家晚上好,非常榮幸接受雷鋒網(wǎng)邀請(qǐng),今晚給大家做一次分享。我來(lái)自于眾安保險(xiǎn),目前主要從事眾安保險(xiǎn)AI、大數(shù)據(jù)的研究和落地。
數(shù)據(jù)中臺(tái)這兩年非?;?,我今天跟大家分享下我們對(duì)這個(gè)概念的理解,以及數(shù)據(jù)中臺(tái)在眾安的實(shí)際落地經(jīng)驗(yàn),在眾安我們是如何保障數(shù)據(jù)管理、加速數(shù)據(jù)流通,促進(jìn)數(shù)據(jù)價(jià)值挖掘。
首先跟大家分享一本書(shū)《思考,快與慢》,來(lái)自2002年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者丹尼爾·卡尼曼。
這本書(shū)把人的思維模式分為兩種類(lèi)型:
第一種是意識(shí)快速的自主思維模式,普通人幾秒鐘就完成的一些判斷,比如看一張照片,立馬識(shí)別照片內(nèi)容;看一張人臉,立馬識(shí)別出是誰(shuí)。
另外一種方式是慢思考,需要數(shù)年知識(shí)積累,花一定時(shí)間去思考。例如工作流程中決策、用戶(hù)增長(zhǎng)、用戶(hù)營(yíng)銷(xiāo)等行為。
為什么會(huì)舉這本書(shū)作為例子?
主要因?yàn)榻鼉赡甏蠹叶荚谡劥髷?shù)據(jù)、AI,而其中比較成功的AI應(yīng)用都屬于快思考范疇,比如人臉識(shí)別和語(yǔ)音識(shí)別等
為什么正常業(yè)務(wù)中需要花精力思考的智能場(chǎng)景,沒(méi)有快思考智能發(fā)展快?有人覺(jué)得背后技術(shù)不一樣,所以快思考技術(shù)發(fā)展比慢思考更加成熟,但兩者背后都是常見(jiàn)的機(jī)器學(xué)習(xí)算法,產(chǎn)生這種差異的本質(zhì)問(wèn)題還是數(shù)據(jù)。
例如AlphaGo下圍棋,機(jī)器通過(guò)慢思考已經(jīng)可以超越人類(lèi),原因在于圍棋運(yùn)動(dòng)包括棋盤(pán)、棋譜等都已經(jīng)進(jìn)行很好地?cái)?shù)據(jù)化。
但現(xiàn)實(shí)中,特別是保險(xiǎn)業(yè)務(wù),數(shù)據(jù)并沒(méi)有被很好地管理起來(lái),背后因?yàn)閹状罄щy:
第一,數(shù)據(jù)資產(chǎn)不清晰。保險(xiǎn)業(yè)務(wù),本身數(shù)據(jù)來(lái)源非常多樣,比如財(cái)險(xiǎn)數(shù)據(jù),從健康到車(chē)險(xiǎn)、從金融到電商,涉及的數(shù)據(jù)隨著保障的內(nèi)容不斷變化。
另外保險(xiǎn)的流程也很多,咨詢(xún)、承保、理賠、服務(wù)等,各個(gè)環(huán)節(jié)都會(huì)產(chǎn)生結(jié)構(gòu)不同的數(shù)據(jù)。另外隨著互聯(lián)網(wǎng)化業(yè)務(wù)的發(fā)展,數(shù)據(jù)來(lái)源多樣性和復(fù)雜度也在加大,從最早的業(yè)務(wù)數(shù)據(jù),到社交分享數(shù)據(jù),用戶(hù)營(yíng)銷(xiāo)數(shù)據(jù),甚至可穿戴數(shù)據(jù)等,結(jié)構(gòu)化程度非常不一樣,既包括傳統(tǒng)業(yè)務(wù)數(shù)據(jù),也包含圖片、聲音等客服數(shù)據(jù)。
第二,數(shù)據(jù)孤島問(wèn)題。每家公司壯大之后,都可能出現(xiàn)各部門(mén)之間數(shù)據(jù)成煙囪式發(fā)展。數(shù)據(jù)孤島產(chǎn)生之后,就會(huì)忽略數(shù)據(jù)流通建設(shè)。
第三,數(shù)據(jù)價(jià)值挖掘鏈路較長(zhǎng)。例如數(shù)據(jù)采集,業(yè)務(wù)系統(tǒng)采集、生成都離不開(kāi)數(shù)據(jù)工程師,而數(shù)據(jù)報(bào)表又需要依賴(lài)BI同事,價(jià)值挖掘由算法同事完成,參與角色非常多、價(jià)值鏈路非常長(zhǎng)。
另外,處理數(shù)據(jù)門(mén)檻越來(lái)越高,以前數(shù)據(jù)量在小的時(shí)候,對(duì)于分析的技術(shù)沒(méi)有要求,下載下來(lái),用Excel也可以完成?,F(xiàn)在很多公司每天可能要面對(duì)幾T、甚至幾百T的新增數(shù)據(jù),如果想對(duì)如此大體量的數(shù)據(jù)進(jìn)行分析,就需要非常強(qiáng)大的數(shù)據(jù)處理能力,相應(yīng)的技術(shù)門(mén)檻越來(lái)越高,造成數(shù)據(jù)價(jià)值困難重重。
這是眾安數(shù)據(jù)中臺(tái)總體架構(gòu),主要分為兩大塊,應(yīng)用層和平臺(tái)工具層:
應(yīng)用層主要包含兩大方向,1.如何利用技術(shù)去幫助業(yè)務(wù)自動(dòng)化、降低人力依賴(lài),比如智能客服、自動(dòng)核身等;2.如何利用數(shù)據(jù)去幫助業(yè)務(wù)去實(shí)時(shí)洞悉業(yè)務(wù)進(jìn)展、并提供關(guān)鍵決策支持,BI、異常監(jiān)控、用戶(hù)畫(huà)像等等。
接下來(lái),我會(huì)重點(diǎn)講下平臺(tái)層的內(nèi)容,通過(guò)數(shù)據(jù)管理體系、流通體系、價(jià)值體系三個(gè)方面,分享眾安內(nèi)部數(shù)據(jù)中臺(tái)經(jīng)驗(yàn)。
數(shù)據(jù)管理體系里面,首先重要就是質(zhì)量問(wèn)題,任何人,不管是業(yè)務(wù)還是技術(shù)人員,拿到數(shù)據(jù)之后思考的第一件事情,肯定是拿到的數(shù)據(jù)準(zhǔn)不準(zhǔn),就需要思考數(shù)據(jù)質(zhì)量好與壞,如果數(shù)據(jù)質(zhì)量差,就會(huì)導(dǎo)致垃圾數(shù)據(jù)進(jìn)垃圾產(chǎn)品出,不能給業(yè)務(wù)提供可靠的支持。
眾安在數(shù)據(jù)質(zhì)量方面怎么做的呢?
第一,眾安作為一家金融公司,首先需要滿(mǎn)足監(jiān)管要求,需要把監(jiān)管對(duì)保險(xiǎn)行業(yè)的數(shù)據(jù)要求整理成規(guī)則。
第二,注意技術(shù)維度規(guī)范,例如數(shù)據(jù)命名是否規(guī)范,是否符合技術(shù)規(guī)范要求。
第三,業(yè)務(wù)需求層面也需要規(guī)范,通過(guò)業(yè)務(wù)需求反推現(xiàn)有數(shù)據(jù)是否滿(mǎn)足要求,比如關(guān)鍵字段是否缺失等。
基于以上三個(gè)維度,眾安內(nèi)部已經(jīng)積累3000多個(gè)規(guī)則,此外這個(gè)規(guī)則庫(kù)還在不斷的豐富。
但光建立規(guī)則還不夠,像眾安這樣數(shù)據(jù)體量,人工已經(jīng)很難判斷每條數(shù)據(jù)情況,還需一個(gè)平臺(tái)去幫助我們每天自動(dòng)去監(jiān)控?cái)?shù)據(jù)的質(zhì)量——數(shù)據(jù)質(zhì)量管理平臺(tái)。平臺(tái)會(huì)對(duì)數(shù)據(jù)中每張表自動(dòng)掃描,判斷是否符合上面規(guī)則庫(kù)中的3000多條規(guī)則,并自動(dòng)統(tǒng)計(jì)和預(yù)警哪一張表或哪一事業(yè)部出現(xiàn)了數(shù)據(jù)質(zhì)量問(wèn)題。
另外,數(shù)據(jù)質(zhì)量問(wèn)題,不光是數(shù)據(jù)部門(mén)的問(wèn)題,數(shù)據(jù)部門(mén)的主要職責(zé)是發(fā)現(xiàn)和警示數(shù)據(jù)問(wèn)題,但數(shù)據(jù)產(chǎn)生的源頭其實(shí)是在業(yè)務(wù)生產(chǎn)系統(tǒng)中,需要有一個(gè)強(qiáng)有力的合作組織去推動(dòng)數(shù)據(jù)的治理。
為此,目前眾安建立了數(shù)據(jù)治理委員會(huì),委員會(huì)既包括數(shù)據(jù)部門(mén)、也包括業(yè)務(wù)部門(mén),以及公司的的一些職能部門(mén),比如發(fā)展規(guī)劃部、內(nèi)審部等。。
數(shù)據(jù)委員會(huì)需要制定一系列公司的規(guī)章制度,去保障數(shù)據(jù)質(zhì)量問(wèn)題的治理推進(jìn);另外也需要牽頭舉辦定期和不定期的會(huì)議,去牽頭解決目前難點(diǎn)或者重點(diǎn)數(shù)據(jù)的問(wèn)題。
數(shù)據(jù)質(zhì)量是一個(gè)不斷發(fā)展,需要不斷跟進(jìn)的問(wèn)題,具體的解決之道就是,一把尺子(數(shù)據(jù)質(zhì)量規(guī)則庫(kù))、一個(gè)平臺(tái)(數(shù)據(jù)質(zhì)量管理平臺(tái))、一個(gè)組織(數(shù)據(jù)治理委員會(huì))。
數(shù)據(jù)管理體系——數(shù)據(jù)資產(chǎn)盤(pán)點(diǎn)(數(shù)據(jù)地圖)
數(shù)據(jù)管理體系里,第二大內(nèi)容就是數(shù)據(jù)資產(chǎn)盤(pán)點(diǎn)。
眾安數(shù)據(jù)地圖基于眾安數(shù)據(jù)倉(cāng)庫(kù)和從各系統(tǒng)獲取的的異構(gòu)數(shù)據(jù),分析其中執(zhí)行關(guān)系,做了一個(gè)數(shù)據(jù)管理平臺(tái),用一張全景圖把每張圖血緣關(guān)系都羅列出來(lái)。
眾安通過(guò)這樣一個(gè)平臺(tái),將管理累計(jì)超過(guò)5萬(wàn)多張表,涉及萬(wàn)億級(jí)數(shù)據(jù)量。其中各張表、各個(gè)字段之間的血緣關(guān)系通過(guò)自動(dòng)化的方式進(jìn)行監(jiān)測(cè)維護(hù),將原本散落在不同事業(yè)部的所有數(shù)據(jù)都以資產(chǎn)的形式非常低成本地維護(hù)起來(lái)。
使得每天報(bào)表需求、數(shù)據(jù)加工需求,從凌晨開(kāi)始,在數(shù)小時(shí)之內(nèi)就可加工完成,在業(yè)務(wù)上班之前就可以給到一些移動(dòng)報(bào)表或分析報(bào)告支持。
數(shù)據(jù)管理體系——數(shù)據(jù)資產(chǎn)盤(pán)點(diǎn)(指標(biāo)字典)
數(shù)據(jù)管理體系第二塊是指標(biāo)字典。
業(yè)務(wù)一般看數(shù)據(jù)主要是關(guān)鍵指標(biāo),所以指標(biāo)定義對(duì)整個(gè)數(shù)據(jù)管理非常重要。
但是以往大家都是按需出發(fā)管理報(bào)表,接到一個(gè)業(yè)務(wù)需求,把報(bào)表做出來(lái),具體意義并沒(méi)有統(tǒng)一管理,只有做的人知道,一旦這個(gè)人離職,或者報(bào)表更新迭代、既往報(bào)表基本作廢。
如果沒(méi)有對(duì)指標(biāo)字典進(jìn)行準(zhǔn)確定義,就一定會(huì)導(dǎo)致管理層次、業(yè)務(wù)層次,每個(gè)人對(duì)業(yè)務(wù)出現(xiàn)不同解釋和定義,指標(biāo)如果不能統(tǒng)一,報(bào)表也就沒(méi)有任何價(jià)值。
目前眾安把業(yè)務(wù)、管理層、BI分析師等所有指標(biāo)都進(jìn)行統(tǒng)一管理,搭建平臺(tái)對(duì)所有指標(biāo)進(jìn)行溯源,發(fā)掘哪些表屬于基礎(chǔ)指標(biāo)、哪些屬于衍生指標(biāo)、哪些屬于計(jì)算指標(biāo)。
把這些指標(biāo)在系統(tǒng)里面進(jìn)行完整記錄,從名稱(chēng)到定義,再到來(lái)源都管理起來(lái)。此外指標(biāo)還可以動(dòng)態(tài)跟報(bào)表聯(lián)動(dòng),改變過(guò)去報(bào)表是報(bào)表,指標(biāo)是指標(biāo),兩套系統(tǒng)的情況。
眾安在做完指標(biāo)字典之后,可以自動(dòng)把字典關(guān)聯(lián)到BI分析報(bào)表上,業(yè)務(wù)看報(bào)表過(guò)程中可以立馬查看背后指標(biāo)順序定義方式,把指標(biāo)系統(tǒng)設(shè)置成外鏈,嵌入到報(bào)表系統(tǒng)里。
數(shù)據(jù)管理體系——數(shù)據(jù)資產(chǎn)盤(pán)點(diǎn)(數(shù)據(jù)超市)
數(shù)據(jù)服務(wù)資產(chǎn),還需要統(tǒng)一地方進(jìn)行管理。
現(xiàn)在數(shù)據(jù)人員積累了很多數(shù)據(jù)服務(wù)、數(shù)據(jù)接口,各事業(yè)部數(shù)據(jù)團(tuán)隊(duì)之間并不相通,可能造成重復(fù)對(duì)接以及接口數(shù)據(jù)的孤島。因此整個(gè)體系需要一個(gè)平臺(tái)或工具,把數(shù)據(jù)服務(wù)化統(tǒng)一管理起來(lái),在眾安,整套系統(tǒng)叫做“數(shù)據(jù)超市”這樣做主要有幾個(gè)好處:
第一,確??梢越y(tǒng)一查詢(xún),降低成本。例如在安全合規(guī)的情況下,事業(yè)部可以直接利用其他部門(mén)已對(duì)接的數(shù)據(jù)接口,這就不需要重復(fù)采購(gòu)、重復(fù)調(diào)用,大大降低外部數(shù)據(jù)接口調(diào)用成本。
第二,平臺(tái)可以提供一些已經(jīng)開(kāi)發(fā)好的數(shù)據(jù)服務(wù),別人不需要重復(fù)性開(kāi)發(fā),而且可以統(tǒng)一進(jìn)行服務(wù)擴(kuò)容、降級(jí)、以及多供應(yīng)商接入,通過(guò)簡(jiǎn)單接口配置就可以將服務(wù)接入到新應(yīng)用場(chǎng)景當(dāng)中。
每家公司都會(huì)接入大量的數(shù)據(jù)服務(wù),也會(huì)積累很多有價(jià)值的數(shù)據(jù)。數(shù)據(jù)超市就是數(shù)據(jù)接口服務(wù)的一站式服務(wù)平臺(tái),通過(guò)這個(gè)接口平臺(tái)對(duì)接的數(shù)據(jù)服務(wù),平臺(tái)也會(huì)自動(dòng)幫助各事業(yè)部進(jìn)行自動(dòng)分賬。從而達(dá)到減少接口的重復(fù)性開(kāi)發(fā),也最大化地把存量數(shù)據(jù)協(xié)同利用起來(lái),達(dá)到降本提效的目的。
數(shù)據(jù)流通體系——安全流通
流通的最大困難是什么?
假如A事業(yè)部,想利用B事業(yè)部的數(shù)據(jù),第一個(gè)問(wèn)題就是怎么保障數(shù)據(jù)安全,整個(gè)過(guò)程需要大量申請(qǐng),其他事業(yè)部也會(huì)用安全理由,拒絕這些數(shù)據(jù)使用。
數(shù)據(jù)流通體系最重要的就是安全,眾安數(shù)據(jù)安全體系主要包括兩方面:數(shù)據(jù)安全分級(jí)和集成數(shù)據(jù)應(yīng)用。
眾安在數(shù)據(jù)安全方面,主要做了兩件事情:
第一,把已有數(shù)據(jù)表和數(shù)據(jù)資產(chǎn)按照監(jiān)管以及公司的規(guī)范,進(jìn)行安全分級(jí)。目前眾安有幾萬(wàn)張表,每一張表根據(jù)數(shù)據(jù)敏感程度都進(jìn)行分級(jí),可以分為內(nèi)部公開(kāi)或不公開(kāi),外部公開(kāi)不公開(kāi)等等,根據(jù)數(shù)據(jù)安全等級(jí)在權(quán)限管理、數(shù)據(jù)訪(fǎng)問(wèn),下載也可以進(jìn)行相應(yīng)OA流程制定,保證敏感數(shù)據(jù)進(jìn)行嚴(yán)格流程審批,安全等級(jí)清晰,最大化縮小審批流程路徑。
第二,加強(qiáng)數(shù)據(jù)安全管理,我們以集成系統(tǒng)應(yīng)用的形式,盡量讓數(shù)據(jù)不要出安全的環(huán)境。使得數(shù)據(jù)在封閉的環(huán)境中,就能完成數(shù)據(jù)的消費(fèi)。數(shù)據(jù)審批通過(guò)之后,并不是把數(shù)據(jù)下載下來(lái)開(kāi)放使用,如果這樣,前面所有安全措施都會(huì)形同虛設(shè),眾安以集成系統(tǒng)方式提供數(shù)據(jù)訪(fǎng)問(wèn),減少不可控的數(shù)據(jù)分發(fā)。
過(guò)去數(shù)據(jù)審批,往往都是前面審批流程非常嚴(yán),拿到審批批準(zhǔn)之后,數(shù)據(jù)流通就會(huì)變得非常不可控,如果員工主動(dòng)或者無(wú)意操控失誤,就一定會(huì)造成數(shù)據(jù)流失,需要保證所有數(shù)據(jù)都在可控環(huán)境之內(nèi)。
這種可控主要分為幾類(lèi):
第一,單純數(shù)據(jù)服務(wù),可以通過(guò)集成數(shù)據(jù)服務(wù),利用“數(shù)據(jù)超市”進(jìn)行發(fā)布。例如客服想選擇一部分經(jīng)授權(quán)的用戶(hù)群體進(jìn)行營(yíng)銷(xiāo),就可以在名單不出系統(tǒng)的情況下,通過(guò)加密等技術(shù),直接由系統(tǒng)數(shù)據(jù)服務(wù)打通營(yíng)銷(xiāo)系統(tǒng)。
第二,如果僅僅拿一份數(shù)據(jù)做報(bào)表,可以在數(shù)據(jù)不出系統(tǒng)的情況下,建立分析建模可視化環(huán)境,而不需要把數(shù)據(jù)直接導(dǎo)出去。
另外,我們也支持通過(guò)接口的方式,對(duì)接各類(lèi)應(yīng)用系統(tǒng)。比如,如果我們想進(jìn)行客戶(hù)的圈選和投放,可以直接打通數(shù)據(jù)服務(wù)和投放系統(tǒng),數(shù)據(jù)不會(huì)脫離管控環(huán)境。所以說(shuō),整個(gè)數(shù)據(jù)加工和消費(fèi)是在一個(gè)受安全管控的閉環(huán)環(huán)境。
數(shù)據(jù)流通體系——眾相(用戶(hù)標(biāo)簽系統(tǒng))
眾安2019年我們就承保了70億張保單,我們?nèi)绾未?lián)這些保單數(shù)據(jù)?這些保單數(shù)據(jù)屬于不同產(chǎn)品和不同的險(xiǎn)種。其實(shí)無(wú)論險(xiǎn)企內(nèi)部車(chē)險(xiǎn)、健康險(xiǎn)等各個(gè)部門(mén),真正需要流通的就是用戶(hù)數(shù)據(jù),現(xiàn)在互聯(lián)網(wǎng)化就是從以往產(chǎn)品為中心,轉(zhuǎn)化成用戶(hù)為中心。
保證用戶(hù)數(shù)據(jù)的流通,就要建立用戶(hù)標(biāo)簽系統(tǒng),這個(gè)用戶(hù)標(biāo)簽系統(tǒng)主要包括幾件事:
第一,從用戶(hù)層次把不同事業(yè)部的用戶(hù)數(shù)據(jù)打通,從用戶(hù)層面把整個(gè)公司的操作行為,購(gòu)買(mǎi)行為打通,沉淀成標(biāo)簽,目前眾安內(nèi)部已經(jīng)有1000多個(gè)標(biāo)簽。我們支持離線(xiàn)和實(shí)時(shí)標(biāo)簽的圈選,并且能立馬得出客戶(hù)的洞察分析,從而支撐我們基于用戶(hù)的業(yè)務(wù)交叉營(yíng)銷(xiāo)和聯(lián)合風(fēng)控。
第二,交叉風(fēng)控。這部分眾安也有很好的案例,例如在信用保證保險(xiǎn)和健康險(xiǎn)之間進(jìn)行風(fēng)控,當(dāng)金融事業(yè)部出現(xiàn)一些逾期的客戶(hù),又突然來(lái)買(mǎi)非常高額的健康險(xiǎn)、意外險(xiǎn),這就可能存在欺詐風(fēng)險(xiǎn)。通過(guò)類(lèi)似這樣交叉風(fēng)控手段,每年減少的損失可以達(dá)到近千萬(wàn)。
第三,通過(guò)用戶(hù)標(biāo)簽打通客戶(hù)數(shù)據(jù),眾安將包括在線(xiàn)、電話(huà)、APP、短信等全渠道客戶(hù)營(yíng)銷(xiāo)數(shù)據(jù)打通之后,可以做到實(shí)時(shí)感知,觸達(dá)用戶(hù)之前,就可以知道有什么樣的訴求。比如在線(xiàn)客服這邊,客戶(hù)問(wèn)你一個(gè)問(wèn)題,客戶(hù)又從電話(huà)渠道過(guò)來(lái)的時(shí)候,眾安能立刻知道他買(mǎi)了什么保單,之前有什么問(wèn)題,從而可以整體提升服務(wù)質(zhì)量。
這是眾安內(nèi)部眾相用戶(hù)關(guān)系系統(tǒng),可以從用戶(hù)信息、保險(xiǎn)行為、行為偏好、資產(chǎn)狀況等標(biāo)簽維度對(duì)用戶(hù)進(jìn)行刻畫(huà),在營(yíng)銷(xiāo)或風(fēng)控之前,就可以通過(guò)標(biāo)簽找到相應(yīng)客戶(hù)。
數(shù)據(jù)價(jià)值體系——價(jià)值路徑
圖中所示,這是典型的數(shù)據(jù)價(jià)值的挖掘路徑,包括從源數(shù)據(jù)、清洗報(bào)表、到OLAP分析、BI機(jī)器建模,最終人工智能優(yōu)化?;旧戏譃樗膫€(gè)步驟點(diǎn),
首先通過(guò)數(shù)據(jù)去了解“發(fā)生了什么”;
第二,通過(guò)數(shù)據(jù)的分析和洞察,多維分析,就了解“為什么會(huì)發(fā)生”;
第三,借助算法的力量,如何在未來(lái)幫助我們?nèi)ヮA(yù)測(cè)和做提前預(yù)警,做到了解“什么時(shí)候回發(fā)生”;
最后,借助機(jī)器學(xué)習(xí)等算法,幫助我們做到優(yōu)化,告訴我們“什么是最佳決策”。
一套流程下來(lái),可以發(fā)現(xiàn)現(xiàn)有業(yè)務(wù)問(wèn)題;BI分析可以知道問(wèn)題為什么會(huì)發(fā)生;通過(guò)預(yù)測(cè)建??梢粤私鈫?wèn)題還會(huì)不會(huì)發(fā)生;通過(guò)優(yōu)化算法,可以知道這些問(wèn)題需要什么動(dòng)作解決。
一般在市場(chǎng)上,數(shù)據(jù)分析平臺(tái)的產(chǎn)品都是按照數(shù)據(jù)處理的流程或者某一數(shù)據(jù)形態(tài)來(lái)區(qū)分的,比如ETL工具、流數(shù)據(jù)處理、OLAP引擎、報(bào)表系統(tǒng)、機(jī)器學(xué)習(xí)系統(tǒng)等,這是一個(gè)十分自然的挖掘數(shù)據(jù)價(jià)值的步驟,但是直接采用這些組件的一個(gè)缺點(diǎn)就是數(shù)據(jù)在銜接流轉(zhuǎn)會(huì)變得異常復(fù)雜與難于管理,比如權(quán)限,上下游變動(dòng)等等。
另一方面,開(kāi)源社區(qū)雖然推出了許多優(yōu)秀的項(xiàng)目,但是百家爭(zhēng)鳴,連一個(gè)OLAP分析引擎可能就有若干個(gè),各有特色,沒(méi)有“silver bullet”(銀彈)。
對(duì)于眾安來(lái)說(shuō),我們基于開(kāi)源優(yōu)秀的組件以及我們?cè)诨ヂ?lián)網(wǎng)保險(xiǎn)與金融科技的最佳實(shí)踐,自研了一套覆蓋整個(gè)數(shù)據(jù)價(jià)值挖掘鏈路的分析平臺(tái):集智平臺(tái)。
這套平臺(tái)的最大優(yōu)勢(shì)就是在一個(gè)平臺(tái)中囊括了數(shù)據(jù)從數(shù)倉(cāng)到分析產(chǎn)出結(jié)果的所有步驟,數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家在一個(gè)統(tǒng)一的平臺(tái)上對(duì)于數(shù)據(jù)進(jìn)行加工、分析、建模、可視化。具體來(lái)說(shuō),集智平臺(tái)分為2個(gè)模塊,數(shù)據(jù)洞察平臺(tái)與機(jī)器學(xué)習(xí)平臺(tái)。
數(shù)據(jù)洞察平臺(tái)
數(shù)據(jù)洞察平臺(tái)主要解決發(fā)生什么、為什么發(fā)生這兩件事情。
傳統(tǒng)數(shù)據(jù)都是看報(bào)表,眾安已經(jīng)有這么多報(bào)表平臺(tái)的情況下,為什么還要做數(shù)據(jù)洞察平臺(tái)?
首先是為了解決大數(shù)據(jù)處理速度問(wèn)題,千萬(wàn)行數(shù)據(jù)集在業(yè)務(wù)中是很常見(jiàn)的現(xiàn)象,報(bào)表響應(yīng)可能需要幾分鐘或幾個(gè)小時(shí),對(duì)業(yè)務(wù)分析影響非常大,如果可以達(dá)到秒級(jí)響應(yīng),對(duì)整個(gè)分析思路都是很好的幫助,也是為什么需要大數(shù)據(jù)處理能力的原因。
此外,現(xiàn)在大數(shù)據(jù)平臺(tái)越來(lái)越多,隔幾個(gè)月就會(huì)出現(xiàn)一個(gè)新的大數(shù)據(jù)平臺(tái),使用門(mén)檻越來(lái)越高,他們的使用方,業(yè)務(wù)或BI很難理解大數(shù)據(jù)平臺(tái)本身的復(fù)雜性,造成使用屏障,需要有一個(gè)平臺(tái)把所有復(fù)雜性都封裝起來(lái)。
數(shù)據(jù)洞察平臺(tái)是眾安數(shù)據(jù)分析的基礎(chǔ)工具。其最主要的功能有3點(diǎn)。
第一,洞察平臺(tái)是一個(gè)對(duì)數(shù)據(jù)分析師透明的數(shù)據(jù)查詢(xún)加速引擎,分析師可以自助式地將數(shù)據(jù)導(dǎo)入洞察平臺(tái),對(duì)于億級(jí)的數(shù)據(jù)進(jìn)行即席的查詢(xún)與多維下鉆,在技術(shù)上我們針對(duì)不同的數(shù)據(jù)形態(tài),采用了不同的數(shù)據(jù)加速引擎,做了一個(gè)可插拔式的架構(gòu),可以很快地適應(yīng)新的開(kāi)源工具而不需要改造上游數(shù)據(jù)消費(fèi)的應(yīng)用。
第二,我們?cè)诙床炱脚_(tái)同時(shí)支持了流處理與批處理,并且抽象出了統(tǒng)一的數(shù)據(jù)模型層,對(duì)于分析師來(lái)說(shuō),不論是近1分鐘的數(shù)據(jù)還是平均30天的數(shù)據(jù),都可以在一個(gè)模型里進(jìn)行可視化或者分析。
第三,洞察平臺(tái)也是一個(gè)可視化的系統(tǒng),可以非常高效地搭建出各種大屏、報(bào)表與移動(dòng)端應(yīng)用,與業(yè)務(wù)系統(tǒng)非常簡(jiǎn)單地進(jìn)行對(duì)接與嵌入。
搭建高效可視化系統(tǒng)
數(shù)據(jù)洞察平臺(tái)也是一個(gè)可視化的系統(tǒng)。
數(shù)據(jù)除了輔助提供決策價(jià)值以外,還要讓業(yè)務(wù)看到數(shù)據(jù)?,F(xiàn)在業(yè)務(wù)對(duì)數(shù)據(jù)的需求變得越來(lái)越多,搭建這些可視化、實(shí)時(shí)、離線(xiàn)報(bào)表,需要把大型報(bào)表嵌入到系統(tǒng)里面,讓業(yè)務(wù)決策可以立馬獲得數(shù)據(jù)支持。
現(xiàn)在很少有業(yè)務(wù)打開(kāi)報(bào)表系統(tǒng)看數(shù)據(jù),報(bào)表都是BI分析師在看,業(yè)務(wù)更加關(guān)心操縱系統(tǒng)怎樣進(jìn)行業(yè)務(wù)操作,需要把報(bào)表嵌入到他的業(yè)務(wù)系統(tǒng)當(dāng)中。
這是眾安內(nèi)部主推的可視化系統(tǒng)案例。這個(gè)車(chē)點(diǎn)通可視化系統(tǒng),主要有四點(diǎn)好處:
第一,增加數(shù)據(jù)可視化程度。不同角色可以通過(guò)系統(tǒng)實(shí)時(shí)看到自己現(xiàn)在保費(fèi)收入、業(yè)務(wù)指標(biāo)、每生成一張保單,數(shù)據(jù)就會(huì)發(fā)生變化,所有系統(tǒng)都是移動(dòng)端,可以做到完全脫離以前報(bào)表系統(tǒng),打開(kāi)手機(jī)查看。
這樣的實(shí)時(shí)展示可以讓車(chē)險(xiǎn)業(yè)務(wù)部使用人數(shù)得到很大擴(kuò)展,覆蓋率達(dá)到97%,每天業(yè)務(wù)看數(shù)據(jù)的次數(shù)也大范圍增加,以前一天看一次,現(xiàn)在次數(shù)可以增加4次以上。
第二,支持業(yè)務(wù)多維度實(shí)時(shí)透視。在全量數(shù)據(jù)上如何進(jìn)行任意維度的查詢(xún)?cè)谝话愕碾x線(xiàn)數(shù)倉(cāng)中是很難做到的,往往需要業(yè)務(wù)重復(fù)地提出取數(shù)需求。在車(chē)點(diǎn)通,業(yè)務(wù)可以自主地進(jìn)行透視,這里面整個(gè)流程最重要的就是大數(shù)據(jù)引擎支持,如果一個(gè)維度就需要幾分鐘,就會(huì)嚴(yán)重影響用戶(hù)使用積極性。
第三,把數(shù)據(jù)問(wèn)題融入到運(yùn)營(yíng)當(dāng)中。在車(chē)點(diǎn)通中,系統(tǒng)會(huì)自動(dòng)把相關(guān)問(wèn)題發(fā)送給相關(guān)負(fù)責(zé)人,按照時(shí)間點(diǎn)把所有問(wèn)題變化、改進(jìn)情況發(fā)送給業(yè)務(wù)進(jìn)行比較。系統(tǒng)可以對(duì)每個(gè)問(wèn)題進(jìn)行追蹤,避免出現(xiàn)遺漏、沒(méi)有解決的情況。
第四,刪除將數(shù)據(jù)融入到輔助決策。系統(tǒng)可以為業(yè)務(wù)變化,提供一些趨勢(shì)分析,適時(shí)給業(yè)務(wù)一些費(fèi)用調(diào)整或預(yù)測(cè)建議。上線(xiàn)車(chē)點(diǎn)通車(chē)險(xiǎn)業(yè)務(wù)一站式智慧經(jīng)營(yíng)及管控中心,半年時(shí)間一線(xiàn)業(yè)務(wù)人員在車(chē)點(diǎn)通內(nèi)追蹤了193個(gè)(建議虛化具體數(shù)字)目標(biāo)業(yè)務(wù)模式,邊際成本平均下降建議虛化具體數(shù)字
整套流程可以使業(yè)務(wù)部門(mén)通過(guò)數(shù)據(jù)更加了解業(yè)務(wù),進(jìn)行多維度技術(shù)分析,通過(guò)數(shù)據(jù)溝通幫助解決業(yè)務(wù)問(wèn)題。
機(jī)器學(xué)習(xí)平臺(tái)
集智平臺(tái)秉持著B(niǎo)I與AI同一個(gè)系統(tǒng)的理念,當(dāng)我們從數(shù)據(jù)中知道了歷史的狀況,我們很自然地就想知道未來(lái)的情況并相對(duì)應(yīng)地進(jìn)行策略地改變,為此眾安搭建了機(jī)器學(xué)習(xí)平臺(tái)。
這個(gè)平臺(tái)主要讓機(jī)器學(xué)習(xí)模型落地更加簡(jiǎn)單。
傳統(tǒng)路徑需要數(shù)據(jù)人員和算法工程師先去數(shù)倉(cāng)中找到數(shù)據(jù),再編輯到Python環(huán)境下運(yùn)行。經(jīng)過(guò)一系列建模工作之后,再進(jìn)行封裝。
而且算法人員寫(xiě)的代碼往往達(dá)不到生產(chǎn)級(jí)別,需要配備相應(yīng)開(kāi)發(fā)工程師幫助輔助優(yōu)化。優(yōu)化包括DOCKER、做鏡像、上線(xiàn)做A\Btest,上線(xiàn)之后還需要定期到生產(chǎn)系統(tǒng)中撈數(shù)據(jù),整個(gè)流程風(fēng)險(xiǎn)點(diǎn)非常多,過(guò)程也非常長(zhǎng)。
一套模型從訓(xùn)練到上線(xiàn),往往需要數(shù)據(jù)工程師、算法人員、數(shù)據(jù)開(kāi)發(fā)工程師至少三個(gè)角色,約兩周時(shí)間。
有了機(jī)器學(xué)習(xí)平臺(tái)之后,算法工程師可以直接在數(shù)據(jù)應(yīng)用空間中獲取數(shù)據(jù),平臺(tái)自動(dòng)幫助分配DOCKER資源,保證DOCKER資源最終上線(xiàn)后的一致性,同時(shí)保證模型測(cè)試階段和模型上線(xiàn)階段環(huán)境以及數(shù)據(jù)的一致性。
在整個(gè)過(guò)程中,平臺(tái)主要解決幾個(gè)問(wèn)題:
第一,幫助算法工程師快速申請(qǐng)資源,快速進(jìn)行服務(wù)化,快速上線(xiàn),進(jìn)行數(shù)據(jù)回流,彌補(bǔ)算法工程師與應(yīng)用工程師的開(kāi)發(fā)鴻溝;
第二,把建模數(shù)據(jù)和算法過(guò)程保存下來(lái)。以往數(shù)據(jù)資產(chǎn)可能只有數(shù)據(jù)表,隨著算法模型應(yīng)用和落地越來(lái)越多,模型資產(chǎn)也非常重要。包括用了什么算法,使用什么樣數(shù)據(jù),整個(gè)機(jī)器學(xué)習(xí)平臺(tái)可以起到快速上線(xiàn)和管理模型的作用。
最后總結(jié)一下,眾安數(shù)據(jù)中臺(tái)三大體系——數(shù)據(jù)管理體系、數(shù)據(jù)流通體系以及數(shù)據(jù)價(jià)值體系。
數(shù)據(jù)中臺(tái)是什么?他不是單一的系統(tǒng)或平臺(tái),實(shí)際是一整套管理體系。每家公司進(jìn)行數(shù)據(jù)中臺(tái)建設(shè)的時(shí)候,也都有不一樣的矩陣選擇,但本質(zhì)上都符合一個(gè)邏輯,怎樣最大化把數(shù)據(jù)資產(chǎn)管理起來(lái),讓數(shù)據(jù)更好流通,讓數(shù)據(jù)發(fā)揮價(jià)值。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。