0
雷鋒網(wǎng)AI金融評論按:銀行的業(yè)務(wù)領(lǐng)導(dǎo)看不懂?dāng)?shù)據(jù)報表,用戶的照片和聲紋注冊難以通過,人工智能的運用到底誰是基礎(chǔ)和關(guān)鍵,對于這些新技術(shù)的應(yīng)用問題,平安銀行零售科技CTO儲量通過分享其團隊的研發(fā)經(jīng)驗給出了答案。正如他所言,很多技術(shù)“還在路上”,那么在傳統(tǒng)銀行的技術(shù)化道路上,有哪些問題值得從業(yè)者們關(guān)注和深思呢?
在12月8日第一屆“平安集團SMART科技大會—科技金融Fin Tech論壇”上,儲量分享了平安銀行在新技術(shù)方面的經(jīng)驗,為我們細(xì)述了從數(shù)據(jù)基礎(chǔ)、關(guān)鍵技術(shù)再到實際應(yīng)用的環(huán)環(huán)相扣。
以下為儲量演講全文,雷鋒網(wǎng)AI金融評論做了不改變原意的編輯:
大數(shù)據(jù):算力、基礎(chǔ)設(shè)施、數(shù)據(jù)、場景、產(chǎn)品和渠道端的閉環(huán)
建立整個銀行的大數(shù)據(jù)平臺,過程相當(dāng)痛苦——盡管絕大多數(shù)金融機構(gòu),很早就會建立自己的數(shù)據(jù)平臺,但大數(shù)據(jù)+金融應(yīng)用的細(xì)分領(lǐng)域相當(dāng)復(fù)雜,每一類業(yè)務(wù)場景中會有很多不同的子項目要研究。平安銀行在此方面已建設(shè)12種主要應(yīng)用場景,譬如風(fēng)險控制,有與欺詐相關(guān)的,有確認(rèn)客戶身份的,還有很多真正意義上研究市場態(tài)勢和風(fēng)險變化的部分。
在平安銀行的大數(shù)據(jù)應(yīng)用上,儲量舉例了幾個典型應(yīng)用場景:
(從上至下、從左至右分別為:B+報表平臺、指標(biāo)平臺、風(fēng)險偵測平臺和數(shù)據(jù)探索)
B+報表平臺
一些會議經(jīng)常出現(xiàn)如下情況:在討論未來的業(yè)務(wù)發(fā)展設(shè)想和規(guī)劃時,一旦試圖以歷史經(jīng)驗來預(yù)測事件走向和客群規(guī)模,卻卡死在數(shù)據(jù)一環(huán),命題缺乏支撐。傳統(tǒng)金融行業(yè)原有的數(shù)據(jù)工具和平臺,普及不夠、自動化不夠、時效性不夠。
在數(shù)據(jù)指標(biāo)應(yīng)用方面,比如傳統(tǒng)金融組織會把工作交給一個單獨的數(shù)據(jù)團隊同事來做。數(shù)據(jù)團隊可能很熟悉業(yè)務(wù)的指標(biāo)定義和理解,但大部分業(yè)務(wù)領(lǐng)導(dǎo)對細(xì)節(jié)并不清楚,導(dǎo)致上下溝通時脫節(jié),只好讓下屬以需求的形式實現(xiàn)報表再做決策。
B+報表最重要是解放實際上業(yè)務(wù)高層領(lǐng)導(dǎo)的生產(chǎn)力,讓他們自己通過手工自助工具直接看到他需要的數(shù)據(jù),決策更加高效。儲量稱,從今年年初到8月份,他們一直致力于研究B+報表,目前已在行內(nèi)有所推廣。如果要做到更高的時效性,T+1甚至T+0,并且隨時組合不同的條件,把數(shù)據(jù)帶出來,需要花更多精力打磨。
指標(biāo)平臺
這一平臺主要是市場營銷?,F(xiàn)在平安主推線上,這部分營銷對于傳統(tǒng)業(yè)務(wù)而言,需要一套成體系的營銷平臺支持。其中很重要的是,如何通過指標(biāo)體系將不同的客戶實時篩選出來。而這些指標(biāo)體系的建設(shè)需要花時間把基礎(chǔ)能力和指標(biāo)定義出來:客群畫像、客戶類型,做到基本以秒級篩選出幾萬、幾十萬甚至幾百萬客戶的列表。這需要大數(shù)據(jù)作支撐的,傳統(tǒng)數(shù)據(jù)庫架構(gòu)系統(tǒng)無法完成這一點。
風(fēng)險偵測平臺
每天系統(tǒng)處理的客戶交易有幾百萬甚至上千萬,所有的刷卡、轉(zhuǎn)帳記錄、登陸記錄,會變成可能存在風(fēng)險的點,需要非常強的實時運算能力,建立風(fēng)險偵測體系平臺。這一平臺是毫秒級全天后監(jiān)控,累計做了八億筆交易記錄風(fēng)險決策,以及6500萬的比對。這些東西的業(yè)務(wù)價值,背后需要非常強的實時的風(fēng)險決策引擎來實現(xiàn)。
目前平安銀行的引擎還不算最高效的——美國運通公司的風(fēng)險模型和引擎,可以在兩毫秒之內(nèi)完成12000個決策數(shù)的模型運算。其單個服務(wù)器節(jié)點,每秒可以接受64000筆這樣的請求,這對基礎(chǔ)平臺及其應(yīng)用架構(gòu)能力要求極高。平安銀行目前風(fēng)險偵測還不夠強,基礎(chǔ)開源框架在風(fēng)險高維運算能力方面是偏弱的。盡管當(dāng)前業(yè)務(wù)尚無如此復(fù)雜的規(guī)則需求,但未來用AI、機器學(xué)習(xí)訓(xùn)練算法,真正實時運行時,最終產(chǎn)生的引擎對運行資源的消耗會越來越大,沒有基礎(chǔ)平臺支撐是做不到的。
數(shù)據(jù)探索
我們正在做知識圖譜,金融的結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)怎么形成圖片,以高緯度方式關(guān)聯(lián)查找。
現(xiàn)在金融行業(yè)許多欺詐均為團伙作案,業(yè)內(nèi)有灰色產(chǎn)業(yè)和黑色產(chǎn)業(yè)鏈條。他舉例北京分行的盜刷團伙,作案時會把好幾個不同的被盜客戶信息輸入到系統(tǒng)里,看他的資金被盜在行內(nèi)甚至到行外其他行的帳戶鏈路,會發(fā)現(xiàn)幾個關(guān)鍵任務(wù),它可能就是被拿來洗臟錢的黑色帳戶。找到這個帳戶,再讓公安介入調(diào)查,順藤摸瓜把人抓到。我們利用數(shù)據(jù)探索知識圖譜,快速定位可疑行為較為密集的帳戶。
平安銀行零售的大數(shù)據(jù)應(yīng)用體系架構(gòu),是從最基礎(chǔ)的大數(shù)據(jù)運算能力開始,從下往上是基礎(chǔ)設(shè)施、基礎(chǔ)數(shù)據(jù)匯聚、數(shù)據(jù)產(chǎn)品,再往上是應(yīng)用場景和應(yīng)用產(chǎn)品,最終到渠道端可以真正實現(xiàn)閉環(huán)。
經(jīng)驗分享:技術(shù)+業(yè)務(wù)雙管齊下,平臺支撐和數(shù)據(jù)治理并行
第一,戰(zhàn)略清晰。對于一家組織來說,到底需要投入多大的資源來完成大數(shù)據(jù)平臺建設(shè)。比如平安團隊年初開始建立平臺時,團隊至少要100人,運算節(jié)點服務(wù)器資源需要上千萬投入,當(dāng)時一次性采購接近5000、6000萬。其中牽扯之多需要上層領(lǐng)導(dǎo)決策,所以要有清晰戰(zhàn)略。團隊內(nèi)部會按能力相應(yīng)細(xì)分,每一個小組會專注負(fù)責(zé)一個領(lǐng)域的產(chǎn)品或者技術(shù)的孵化。大數(shù)據(jù)要在業(yè)務(wù)領(lǐng)域發(fā)揮價值,如果光靠技術(shù)是不夠的,還需要有人對業(yè)務(wù)的基礎(chǔ)數(shù)據(jù)比較了解。大數(shù)據(jù)技術(shù)團隊可以通過招聘很快獲取,但需要有傳統(tǒng)團隊加入進去幫助一起做孵化。我們把傳統(tǒng)零售報表團隊并到大數(shù)據(jù)團隊,快速讓新招聘的同事對業(yè)務(wù)有所了解,把基礎(chǔ)數(shù)據(jù)治理做起來。
第二,較強平臺能力支撐。這方面投入一開始可能會比較巨大,儲量團隊所構(gòu)建的開源Hadoop基本上是全戰(zhàn)術(shù)的基礎(chǔ)框架。每日新增數(shù)據(jù)量大概100T,包括金融數(shù)據(jù)、非金融數(shù)據(jù)、客戶行為數(shù)據(jù)還有生產(chǎn)環(huán)境的各種日志。每日任務(wù)數(shù)大概7萬多,有300多個用戶,進行相關(guān)數(shù)據(jù)探索工作。每秒鐘有20萬筆日志匯集到系統(tǒng)里,把所有客戶行為日志加上所有系統(tǒng)日志都進入到數(shù)據(jù)平臺以備分析。這一能力建設(shè)對基礎(chǔ)架構(gòu)壓力較大,目前團隊仍在擴容。
第三,元數(shù)據(jù)治理。一家金融機構(gòu)的所有歷史數(shù)據(jù)結(jié)果,在建立之初,對于里面指標(biāo)的定義、每一個記錄怎么產(chǎn)生的,基本邏輯是不清晰的。那時大數(shù)據(jù)無法直接幫助業(yè)務(wù),必須有一個團隊專門把數(shù)據(jù)清理出來。企業(yè)數(shù)據(jù)治理的一致性、準(zhǔn)確性、完整性都需要有人管,這樣大數(shù)據(jù)團隊深度參與業(yè)務(wù)才能清楚了解。像華為很早以前開始做全世界范圍內(nèi)的各種文檔、數(shù)據(jù)治理,就做得很好。
AI:50%數(shù)據(jù)準(zhǔn)備/業(yè)務(wù)場景+30%算法研發(fā)+20%工程化
儲量主要從圖像、語音、文本、圖譜幾部分進行介紹。圖譜在風(fēng)險和精準(zhǔn)營銷上,分成客群推薦和產(chǎn)品推薦兩方面。這是我們認(rèn)為未來,像智能算法實踐方面會經(jīng)歷的三個過程,是閉環(huán)的迭代的。
業(yè)務(wù)場景和數(shù)據(jù)準(zhǔn)備
這個50%實際上是以今天在這個時間過程中理解要做好這件事情,成功的基礎(chǔ)可能50%是來自于這個環(huán)節(jié)的?;A(chǔ)數(shù)據(jù)和應(yīng)用場景的發(fā)現(xiàn),對做智能算法實踐,有50%是靠這個成功的。如果沒有好的數(shù)據(jù)治理,沒有找到好的業(yè)務(wù)場景,光有技術(shù)或者算法是做不出結(jié)果的。
第一,AI的算法和東西要解決業(yè)務(wù)問題,需要業(yè)務(wù)深度參與。
第二,訓(xùn)練算法不能沒有基礎(chǔ)數(shù)據(jù)。后文將舉例說明聲紋的數(shù)據(jù)樣本對算法訓(xùn)練的影響?,F(xiàn)在所謂AI算法,大部分是針對某一個具體場景和具體問題建立算法。這種算法建立的能力是非常工程化的事情,需要專家參與,構(gòu)建真正具備能力的隊伍。
第三,工程化。工程化能力之重要,體現(xiàn)在算法能不能快速上線,上線之后能否快速跟運行中的業(yè)務(wù)并行,并行之后能不能把生產(chǎn)結(jié)果跟實際結(jié)果拿回數(shù)據(jù)源,進行下一步訓(xùn)練。如果沒有好的工程化過程,業(yè)務(wù)是不敢上這些算法的。因為這些算法都是代替原來人工流程,憑人的經(jīng)驗總結(jié)出來的業(yè)務(wù)規(guī)則。業(yè)務(wù)是會擔(dān)心出錯的,尤其是風(fēng)控,算法一旦產(chǎn)生波動,可能產(chǎn)生的(誤差)是幾億、幾十億的。如果好的工程化能力并行,維持傳統(tǒng)部分,算法路徑也同步進行,兩邊并行進行灰度認(rèn)證,把兩邊不一致的東西拿出來讓業(yè)務(wù)再做第三輪判斷到底哪邊是對的。這樣可以讓整個算法上線試運行加快。
當(dāng)你的算法越來越復(fù)雜,算法維度越來越高,條件越來越復(fù)雜時,工程化能力決定結(jié)果能不能跑出來。比如設(shè)置出12000個決策數(shù)的規(guī)則,如果在系統(tǒng)上要跑30秒,從線上化角度這個東西就不可用了。運通把工程化用到極致,他們在AI方面還在探索,但工程化能力太強,強到2毫秒120000的模型可以算出來。
儲量總結(jié)他在AI建設(shè)方面的經(jīng)驗,表示:
業(yè)務(wù)場景是AI的基礎(chǔ)和起點:一定要找業(yè)務(wù)談清楚這個場景到底是什么,解決什么問題;
強大的數(shù)據(jù)平臺能力是支撐AI訓(xùn)練的關(guān)鍵:需要用到海量、跨多業(yè)務(wù)線的數(shù)據(jù),以及強大的運算能力來構(gòu)建復(fù)雜模型;
專業(yè)的隊伍密切合作推進AI在業(yè)務(wù)中的應(yīng)用和迭代;
工程化能力不可缺失:業(yè)務(wù)場景的選擇,快速開發(fā)、測試和上線的能力,以及模型的持續(xù)學(xué)習(xí)和優(yōu)化。
人臉識別技術(shù)應(yīng)用的“那些坑”
基本所有的APP都在用人臉進行相應(yīng)識別。目前每月有1600萬的調(diào)用量,基本上每天有幾十萬次,包括開戶、貸款客戶核申,閾值大概在62.24。
對于金融行業(yè),最擔(dān)心的是不該開戶時給人家開了戶,引狼入室。平安的線上通過率在85%。大部分的算法都是96.8%。
大家以為身份證照片都應(yīng)該跟自己身份證長得一樣,但實際上所調(diào)用的公安部身份證照片是我大學(xué)時候申請的照片,差距比較大肯定不容易通過。后來再調(diào)用人行的版本,兩邊數(shù)據(jù)源一起做對比,兩種算法一起用,才能提升線上的比對成功率。
在人臉識別方面,分享如下幾點:
活體SDK的重要性:業(yè)務(wù)方最怕的是別人可以偽冒。生物識別技術(shù)的出現(xiàn)也催生了生物仿生這個對立學(xué)科,該學(xué)科的發(fā)展一定會對生物識別產(chǎn)生沖擊。對于使用生物識別的組織來說,要建立相應(yīng)的科學(xué)算法去解決,對立的對立是什么,要不要再訓(xùn)練下一代,判斷生物仿生算法與否,如何識別出所有業(yè)內(nèi)能仿生的技術(shù),以及合成解決方案的本身特征并加以排除。
客戶拍照本身的影響很大,在客戶端怎么引導(dǎo)客戶合理使用光線進行拍照,對成功率要求會提升很大。
合理閾值:這應(yīng)該由業(yè)務(wù)決定。到底誤時率達(dá)到什么樣的水平,接受什么樣的水平,接受什么樣的風(fēng)險。以前靠人工肉眼識別做生物判斷也是有誤差的,只是不曾數(shù)據(jù)化,風(fēng)險團隊因此認(rèn)為人工方法沒有問題,這判斷是不對的。風(fēng)險團隊要接受誤差是永遠(yuǎn)存在的,但控制在一定范圍內(nèi),符合業(yè)務(wù)需要即可。識別不成功的流程,需要有彌補機制。就算實際上成功率只有85%,剩下15%的客戶不能丟掉,尤其是銀行,要有其他應(yīng)對辦法。比如可能接到音視頻做二次彌補
需要有團隊專注在人臉的應(yīng)用團隊,將其工程化。
聲紋識別落地的困難與解決方案
目前平安在做相應(yīng)的信用卡孵化場景訓(xùn)練,正在考慮是否需要從800席擴到2000、3000席。該應(yīng)用8月底上線,真正通過聲紋注冊成功的客戶有157萬,驗證成功的40萬。
跟其他傳統(tǒng)聲紋供應(yīng)商不一樣的是,平安不是讓客戶念一串?dāng)?shù)字或者標(biāo)準(zhǔn)文本,而是在對話過程中采集聲紋,進行聲紋注冊。聲紋注冊受制于打電話進來時背景音的嘈雜程度決定能不能成功,如果是APP注冊過程,會建議顧客站在安靜的環(huán)境,直接采集客戶打電話進來的聲音。該服務(wù)的線上灰度并行測試(通過率)大概83%。如果是質(zhì)量達(dá)標(biāo)的語音驗證,通過率是92%??蛻舻恼f話時長和背景音也會影響通過率。
最開始做聲紋識別,受制于集團大部分語音樣本沒有做語音分離,為此做了額外的算法。語音分離對于未來電話平臺錄音,乃至所有使用語音應(yīng)用的場景十分重要——客戶和客服的聲音不要混在一起錄,分成兩個文件。
以前無論是錄音還是日志,大部分組織是出于合規(guī)性要求,用最簡單最低成本的方法做最好。但現(xiàn)在是大數(shù)據(jù)和算法時代,未來業(yè)務(wù)發(fā)展需要對它進行合規(guī)規(guī)劃。人臉有人民銀行公開的數(shù)據(jù)庫,聲紋沒有官方比對庫。注冊本身需要業(yè)務(wù)自己在場景里把客戶引導(dǎo)注冊進來,沒有比對庫很成問題。
考慮攻克的問題之一是,聲紋跨渠道的衰減比較大,現(xiàn)在的聲紋用在APP上不一定能用,電話語言的傳輸和APP文件傳輸保真程度不一樣。電話語音本身讓語音失真了,建立的語音模型沒法用。
另外,雷鋒網(wǎng)AI金融評論了解到,之所以平安會把音視頻作為重點場景,是因為它未來的發(fā)揮價值很大。社交直播越來越熱,未來很多社交,SAT可能真的會往音視頻社交轉(zhuǎn)移。
在這方面的嘗試,音視頻本身的應(yīng)用場景里出現(xiàn)的問題有:
掉線,跟通話時長、環(huán)境,密切相關(guān);
平臺上待處理任務(wù)排隊,如果處理不好音視頻能力會受影響。
未來要建立一個公共網(wǎng)關(guān)平臺,以便跟媒體第三方,尤其是做直播的客戶需要使用的APP進行合作。大家現(xiàn)在的音視頻技術(shù)方案都不太一樣,如果沒有公共平臺把不同音視頻接入,最終轉(zhuǎn)換成統(tǒng)一的方案,后臺的座席系統(tǒng)開發(fā)非常痛苦。儲量表示,現(xiàn)在已經(jīng)做到集團APP音視頻解決方案,和原來銀行引入另外一個廠商的解決方案,從客戶端、服務(wù)端不用變更,在中間做自己編解碼的轉(zhuǎn)換。
機器人“聽說看動”四難點
這部分在銀行內(nèi)部沒有真正大規(guī)模使用。業(yè)務(wù)認(rèn)為的機器人可以代替簡單的人工勞動,比如大堂經(jīng)理,可以做服務(wù)引導(dǎo)??梢杂脴?biāo)準(zhǔn)化方式接觸客戶,批量方式降低人力支持,通過軟件部署代替人員培訓(xùn)。這都是業(yè)務(wù)認(rèn)為真正意義上機器人可以達(dá)到的效果。但從實際技術(shù)角度出發(fā),目前機器人在能力方面還遠(yuǎn)達(dá)不到真正代替人的場景,它的體驗并不能真正做到我們希望業(yè)務(wù)做到的事。
這里面有幾個問題:
“聽”:人聽話知道誰在說什么,可以自己定位要跟誰說話,但機器人不一樣,它聽到各種各樣的聲音,所有的信號輸入進去,不知道誰在說什么。對于機器人來說怎么處理一對多的對話,是大的難題。
“說”:機器人要說什么或者需要表達(dá)什么東西,是需要在背后有一套很強的知識庫或者智能算法支持,但目前這個做得不是很好,我們還在做訓(xùn)練。
“看”:機器人有一個感知,看的能力也會受到環(huán)境的影響。
“動”:機器人現(xiàn)在越來越大,一不小心撞到凳子桌子就算了,萬一撞到人,安全上是很大的問題。因為工程化的問題,機器人的迭代會很慢。
最后總結(jié)幾點:
一,業(yè)務(wù)和IT團隊要共同協(xié)商,新技術(shù)引入時需要給到團隊一些靈活度,一旦限制很多KPI,大家的動作就走樣了,不一定能做出好的結(jié)果。
二,需要投入專屬團隊,投入多少,研究結(jié)果就有多深。
三,新技術(shù)本身不是一成不變的,需要花時間慢慢積累。不要想著今天什么東西用了,明天業(yè)務(wù)問題都解決了。新技術(shù)應(yīng)用不是一個IT的問題,是業(yè)務(wù)問題,一定要通過業(yè)務(wù)合作的方式完成。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。