0
本文作者: 周蕾 | 2019-06-22 22:57 |
近日,在上海交通大學(xué)上海高級(jí)金融學(xué)院主辦的2019國(guó)際金融科技會(huì)議上,氪信科技創(chuàng)始人兼CEO朱明杰博士結(jié)合企業(yè)自身一系列實(shí)踐經(jīng)驗(yàn),從技術(shù)角度對(duì)AI金融痛點(diǎn)和難點(diǎn)進(jìn)行了系統(tǒng)性梳理。
他表示,強(qiáng)金融數(shù)據(jù)以外的“另類數(shù)據(jù)”已經(jīng)遠(yuǎn)遠(yuǎn)超出評(píng)分卡的處理范圍,主要包括動(dòng)態(tài)時(shí)序類、文本類、網(wǎng)絡(luò)類三種,“總的思路是在金融場(chǎng)景下,將專家的經(jīng)驗(yàn)變成機(jī)器能夠理解的數(shù)據(jù),不斷訓(xùn)練機(jī)器,提高機(jī)器的學(xué)習(xí)能力,最后讓機(jī)器處理人力無法解決的問題?!?/p>
以下為演講全文,雷鋒網(wǎng)AI金融評(píng)論進(jìn)行了不改變?cè)獾木帯?/em>
今天大家講金融大數(shù)據(jù),主要都在說強(qiáng)金融數(shù)據(jù)之外的“另類數(shù)據(jù)”。我們這些做計(jì)算機(jī)工作的,能感受到風(fēng)控專家最痛苦的地方,是他們希望按照以前定規(guī)則的方式,把這些數(shù)據(jù)編碼到以往的評(píng)分體系里。比如以前你可以根據(jù)工資多少、納稅多少做評(píng)分卡,所以對(duì)那些金融概念之外的數(shù)據(jù),比如一個(gè)人一天和多少人打電話,他的互聯(lián)網(wǎng)行為、社交狀況等,風(fēng)控專家一開始也想根據(jù)傳統(tǒng)經(jīng)驗(yàn)把這些數(shù)據(jù)變成特征變量,結(jié)果發(fā)現(xiàn)它們遠(yuǎn)遠(yuǎn)超出了評(píng)分卡可處理的范圍。
以前我們?cè)诨ヂ?lián)網(wǎng)里面處理的就是這些數(shù)據(jù),我們訓(xùn)練機(jī)器在一堆照片里識(shí)別誰(shuí)是章子怡,不是告訴它誰(shuí)長(zhǎng)得美長(zhǎng)得白就是章子怡,不是這樣的。但是我們依然能做出識(shí)別率非常高的模型,這里面沒有什么神奇的單項(xiàng)技術(shù),它是一系列技術(shù)。同理,我們今天用AI技術(shù)去處理金融領(lǐng)域的另類數(shù)據(jù),也不是圍繞一個(gè)非常fancy的技術(shù),不是首先要遷就人的理解范疇,我們是為了達(dá)到實(shí)際效果才出發(fā)的。
氪信另類數(shù)據(jù)構(gòu)建強(qiáng)風(fēng)控體系工作總結(jié)圖
一般來說,難以做成評(píng)分卡的另類數(shù)據(jù)主要包括動(dòng)態(tài)時(shí)序類、文本類、網(wǎng)絡(luò)類三種,這些讓風(fēng)控專家束手無策的數(shù)據(jù)問題,機(jī)器都能解決??偟乃悸肥窃诮鹑趫?chǎng)景下,將專家的經(jīng)驗(yàn)變成機(jī)器能夠理解的數(shù)據(jù),不斷訓(xùn)練機(jī)器,提高機(jī)器的學(xué)習(xí)能力,最后讓機(jī)器處理人力無法解決的問題。
時(shí)序數(shù)據(jù)是基于時(shí)間的一系列數(shù)據(jù),如果風(fēng)控人員要用評(píng)分卡把這類數(shù)據(jù)歸類成一個(gè)一個(gè)特征變量會(huì)極其痛苦,但是機(jī)器不同,它可以存儲(chǔ)和處理大量的時(shí)序數(shù)據(jù),是一種關(guān)注總體而非個(gè)別節(jié)點(diǎn)的方式。
這是我們跟京東金融的一個(gè)合作成果,相關(guān)論文發(fā)表在2018年的KDD上,主要是處理發(fā)生在APP上面的序列化行為,比如個(gè)人注冊(cè)了一個(gè)頁(yè)面,輸入了一些信息,點(diǎn)擊的速度,從左邊滑還是右邊滑……這樣一些數(shù)據(jù),然后從中找出有欺詐嫌疑的一些人的特征,并提出了一套行為事件流時(shí)序模型框架。這套框架的提出基于一個(gè)很自然的想法:這些年大家多用深度學(xué)習(xí),尤其是LSTM(基于深度循環(huán)網(wǎng)絡(luò)的特征提取框架),它特別適合處理時(shí)序型數(shù)據(jù)。所以我們就把這類序列行為編碼到我們的LSTM模型里去。
做到這一步還不夠,我們還有一套框架是用CNN的模型對(duì)序列行為衍生特征。具體結(jié)果可以看我們?cè)贙DD 2018上面的paper。
文本類數(shù)據(jù)處理方式
在金融行業(yè),以前大家可能對(duì)文本數(shù)據(jù)束手無策,因?yàn)槟愫茈y將一系列的對(duì)話文本轉(zhuǎn)變成數(shù)字化變量,解釋給計(jì)算機(jī)聽,最后還能輸出結(jié)果。我們能做到的是在一個(gè)限定的場(chǎng)景里面,給出一個(gè)很好的結(jié)果。因?yàn)槟忝繉?duì)它多做一個(gè)限制,你的計(jì)算復(fù)雜度就會(huì)降低很多,在有限的計(jì)算資源和技術(shù)條件下,就能得到一個(gè)足夠好的效果。
第一篇論文主要講我們建了一套QA問答體系的特征,從一段文本最后變成數(shù)值化的向量,其實(shí)是有標(biāo)準(zhǔn)做法的。但是我們發(fā)現(xiàn),在一個(gè)限定的場(chǎng)景里,比如說客服場(chǎng)景是一問一答的方式,單單用X-Encoder(基于無監(jiān)督深度學(xué)習(xí)的特征提取框架)是不夠高效的,于是我們做了一套針對(duì)QA的基于X-Encoder的催收風(fēng)險(xiǎn)模型交互式特征提取框架,專門適合金融領(lǐng)域的一問一答。
第二篇論文是關(guān)于提取客戶標(biāo)簽的,通過對(duì)話把你的context提取成標(biāo)準(zhǔn)事件。這件事的關(guān)鍵點(diǎn)在于,今天金融機(jī)構(gòu)的客服人員,都是被訓(xùn)練成機(jī)器一樣在工作,一個(gè)新人招進(jìn)來以后,就用標(biāo)準(zhǔn)化的培訓(xùn)模板去教導(dǎo)他,告訴他比如客戶講了這句話以后,你要講哪些話,怎么給客戶打標(biāo)簽等等。所以我們的工作是構(gòu)建一個(gè)知識(shí)庫(kù),建立標(biāo)準(zhǔn)對(duì)話流程預(yù)測(cè)體系,讓這個(gè)新人可以更快地上手。我
第三類網(wǎng)絡(luò)數(shù)據(jù),因?yàn)閭€(gè)人數(shù)據(jù)非常有限,尤其在金融領(lǐng)域,大數(shù)據(jù)風(fēng)控其實(shí)需要大量的訓(xùn)練樣本,但金融場(chǎng)景里面的訓(xùn)練樣本是非常寶貴的,比如你想獲得一個(gè)人是壞人的樣本數(shù)據(jù),那么至少得有一筆幾萬塊的壞賬,這個(gè)成本非常高。這跟我們以前做互聯(lián)網(wǎng)預(yù)測(cè)分析不一樣,用戶喜不喜歡一部電影,一個(gè)廣告,或者一個(gè)手機(jī)殼,這件事情的成本沒那么高。
我們的做法是找到類似的人,從他的申請(qǐng)資料和社交關(guān)系上面去抽取知識(shí),做聚類。當(dāng)你發(fā)現(xiàn)了一個(gè)壞人,那么跟他類似的那群人是壞人的概率就非常高。也就是說,當(dāng)你找到有效的群體之間相似這種關(guān)系以后,是有助于對(duì)個(gè)體風(fēng)險(xiǎn)做識(shí)別的。當(dāng)然僅僅個(gè)人的大數(shù)據(jù)還不夠,我們還需要借助更多的大數(shù)據(jù),最后用集成模型把個(gè)人的風(fēng)險(xiǎn)特征和局部網(wǎng)絡(luò)、全局網(wǎng)絡(luò)上建立的風(fēng)險(xiǎn)特征結(jié)合在一起,提升風(fēng)險(xiǎn)預(yù)測(cè)效果。
剛才講的是幾類不同類型的另類數(shù)據(jù)處理辦法,這個(gè)過程中我們始終有個(gè)挑戰(zhàn),那就是你做的模型是一個(gè)黑盒,沒有辦法解釋。我不能告訴金融機(jī)構(gòu),誰(shuí)用了這種方法,效果很好,這對(duì)金融機(jī)構(gòu)來講是不能接受的,你一定要告訴他為什么。這其實(shí)也是整個(gè)AI領(lǐng)域最頭痛的事情,在業(yè)務(wù)場(chǎng)景特別明顯的地方,比如醫(yī)療領(lǐng)域,困難更加明顯,比如AI診斷說要切掉一條腿,為什么?你不能說是model預(yù)測(cè)的,或者最后說model出錯(cuò)了,那這個(gè)醫(yī)院肯定是會(huì)關(guān)門的。
所以模型的可解釋性是深度學(xué)習(xí)突破之后AI面臨的新挑戰(zhàn),在通用模型上目前我還沒有看到特別好的解決辦法。但是在具體的金融場(chǎng)景里,我們可以在某種程度上給出解釋。有兩個(gè)辦法:一個(gè)是局部的近似,用低維模型擬合高維模型,它參考了博弈論里面的東西,最后得到最優(yōu)的決策,是倒推博弈論的過程,這個(gè)我們有成型的產(chǎn)品,用在了我們的風(fēng)險(xiǎn)解決方案里面;第二個(gè)是把AI模型里最重要的幾個(gè)特征變量找出來,解釋給業(yè)務(wù)專家聽。
左邊第一個(gè)是帶有時(shí)間先后序列特征的實(shí)踐結(jié)果。指標(biāo)主要就是模型區(qū)分度,KS值和AUC。按照KNN的通常做法KS值是0.142,再用一個(gè)神經(jīng)網(wǎng)絡(luò)去做MLP,KS值達(dá)到0,167。加上這些特征以后,進(jìn)一步提升到0.203,在一個(gè)典型的場(chǎng)景上,加上行為數(shù)據(jù),KS值可以做到0.216,差不多提升了50%以上。
第二個(gè)是短文本信息提取模型效果,傳統(tǒng)做法和利用AI模型的做法在數(shù)值表現(xiàn)上效果差不多,但是后者的擴(kuò)展性更強(qiáng),因?yàn)樵瓉硪笕朔浅S薪?jīng)驗(yàn),時(shí)時(shí)想著應(yīng)對(duì)策略,有了這個(gè)框架以后就不用人費(fèi)力去調(diào)參了,機(jī)器會(huì)替代部分人力工作。
第三個(gè)是對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的使用效果,如果只是單純用個(gè)人的風(fēng)險(xiǎn)數(shù)據(jù),KS值是0.3;加上基于圖的特征以后,有類似于人群的特征,很明顯提升到0.38。
右邊是加入上述三種類型數(shù)據(jù)以后的綜合表現(xiàn),我們也可以看到KS值是不斷增長(zhǎng)的。
群體風(fēng)險(xiǎn)方面,這兩年監(jiān)管對(duì)反洗錢和可疑交易監(jiān)測(cè)要求很嚴(yán)格,以前國(guó)內(nèi)監(jiān)測(cè)個(gè)人的欺詐風(fēng)險(xiǎn),主要是基于規(guī)則和個(gè)人上報(bào),風(fēng)險(xiǎn)運(yùn)營(yíng)部門會(huì)用很多人工去找,效率很低,現(xiàn)在欺詐的手段層出不窮,就需要用人的規(guī)則和以前發(fā)生過的欺詐事件訓(xùn)練機(jī)器去抓。原來為了抓可疑交易,假設(shè)要雇一百個(gè)人人工去看,現(xiàn)在是一百個(gè)風(fēng)險(xiǎn)運(yùn)營(yíng)的人等著看機(jī)器提供的樣本是不是對(duì)的,再反饋給機(jī)器,讓機(jī)器訓(xùn)練得更加準(zhǔn)確。
這里的關(guān)鍵是使用圖算法。在互聯(lián)網(wǎng)行業(yè)專門有做圖算法、圖解決方案的公司,提出解決方案來,發(fā)現(xiàn)一直沒有成功的??偨Y(jié)起來是兩個(gè)點(diǎn),一定要根據(jù)行業(yè)知識(shí)來做降維;還需要一套有效的計(jì)算體系。我們的列式計(jì)算引擎能夠在15分鐘內(nèi)處理百億級(jí)別數(shù)據(jù),這在以前是很難想象的。
最下面是原始資金的交易流水。我們知道銀行的交易流水量非常大,不大得話,人工就可以解決了。交易流水形成兩個(gè)東西:
首先互相帳戶往來會(huì)建立起一個(gè)大的Graph,我們會(huì)給定以前的可疑種子結(jié)點(diǎn),經(jīng)過局部社區(qū)算法找到跟它關(guān)聯(lián)的可疑子社區(qū)。
比如說放進(jìn)去10萬個(gè)可疑種子,找到10萬個(gè)跟它相關(guān)的社區(qū)。這10萬個(gè)社區(qū)里一共是上億的帳戶。其中90%以上的都是好人,我們就對(duì)其余10%的人群進(jìn)行重點(diǎn)布控。
另外,我們基于風(fēng)險(xiǎn)專家的經(jīng)驗(yàn)形成風(fēng)險(xiǎn)知識(shí)圖譜,這是一般風(fēng)險(xiǎn)專家會(huì)去考慮一個(gè)交易往來的特征,從金額、模式、速度、場(chǎng)景方面考慮。
結(jié)合這兩個(gè)東西來做圖的深度學(xué)習(xí)預(yù)測(cè)模型。有了這個(gè)模型指導(dǎo)以后,由單個(gè)種子去觸發(fā)。使用ACL優(yōu)化的PPR算法,加上Sweep-cut算法,實(shí)現(xiàn)大規(guī)模的挖掘。最后做到一件事情:通過種子的節(jié)點(diǎn)去找密切的社區(qū),學(xué)到圖的結(jié)構(gòu),找到更可疑的人。
講完原理,舉個(gè)例子。比如一個(gè)大銀行的房貸系統(tǒng),發(fā)現(xiàn)幾十個(gè)帳戶,都和叫“X琴”的人有關(guān)系,和她的資金往來非常多, X琴可能是中介,或者專門職業(yè)給人提供首付、中間過橋的,這里面肯定不正常。如果純靠人工去找的話,很難從幾十億交易流水?dāng)?shù)據(jù)中找到這樣的東西,但是通過圖挖掘可以一目了然看到X琴的帳戶有問題。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。