0
本文作者: 周蕾 | 2019-06-22 22:57 |
近日,在上海交通大學(xué)上海高級金融學(xué)院主辦的2019國際金融科技會議上,氪信科技創(chuàng)始人兼CEO朱明杰博士結(jié)合企業(yè)自身一系列實踐經(jīng)驗,從技術(shù)角度對AI金融痛點和難點進行了系統(tǒng)性梳理。
他表示,強金融數(shù)據(jù)以外的“另類數(shù)據(jù)”已經(jīng)遠遠超出評分卡的處理范圍,主要包括動態(tài)時序類、文本類、網(wǎng)絡(luò)類三種,“總的思路是在金融場景下,將專家的經(jīng)驗變成機器能夠理解的數(shù)據(jù),不斷訓(xùn)練機器,提高機器的學(xué)習(xí)能力,最后讓機器處理人力無法解決的問題?!?/p>
以下為演講全文,雷鋒網(wǎng)AI金融評論進行了不改變原意的精編。
今天大家講金融大數(shù)據(jù),主要都在說強金融數(shù)據(jù)之外的“另類數(shù)據(jù)”。我們這些做計算機工作的,能感受到風(fēng)控專家最痛苦的地方,是他們希望按照以前定規(guī)則的方式,把這些數(shù)據(jù)編碼到以往的評分體系里。比如以前你可以根據(jù)工資多少、納稅多少做評分卡,所以對那些金融概念之外的數(shù)據(jù),比如一個人一天和多少人打電話,他的互聯(lián)網(wǎng)行為、社交狀況等,風(fēng)控專家一開始也想根據(jù)傳統(tǒng)經(jīng)驗把這些數(shù)據(jù)變成特征變量,結(jié)果發(fā)現(xiàn)它們遠遠超出了評分卡可處理的范圍。
以前我們在互聯(lián)網(wǎng)里面處理的就是這些數(shù)據(jù),我們訓(xùn)練機器在一堆照片里識別誰是章子怡,不是告訴它誰長得美長得白就是章子怡,不是這樣的。但是我們依然能做出識別率非常高的模型,這里面沒有什么神奇的單項技術(shù),它是一系列技術(shù)。同理,我們今天用AI技術(shù)去處理金融領(lǐng)域的另類數(shù)據(jù),也不是圍繞一個非常fancy的技術(shù),不是首先要遷就人的理解范疇,我們是為了達到實際效果才出發(fā)的。
氪信另類數(shù)據(jù)構(gòu)建強風(fēng)控體系工作總結(jié)圖
一般來說,難以做成評分卡的另類數(shù)據(jù)主要包括動態(tài)時序類、文本類、網(wǎng)絡(luò)類三種,這些讓風(fēng)控專家束手無策的數(shù)據(jù)問題,機器都能解決??偟乃悸肥窃诮鹑趫鼍跋?,將專家的經(jīng)驗變成機器能夠理解的數(shù)據(jù),不斷訓(xùn)練機器,提高機器的學(xué)習(xí)能力,最后讓機器處理人力無法解決的問題。
時序數(shù)據(jù)是基于時間的一系列數(shù)據(jù),如果風(fēng)控人員要用評分卡把這類數(shù)據(jù)歸類成一個一個特征變量會極其痛苦,但是機器不同,它可以存儲和處理大量的時序數(shù)據(jù),是一種關(guān)注總體而非個別節(jié)點的方式。
這是我們跟京東金融的一個合作成果,相關(guān)論文發(fā)表在2018年的KDD上,主要是處理發(fā)生在APP上面的序列化行為,比如個人注冊了一個頁面,輸入了一些信息,點擊的速度,從左邊滑還是右邊滑……這樣一些數(shù)據(jù),然后從中找出有欺詐嫌疑的一些人的特征,并提出了一套行為事件流時序模型框架。這套框架的提出基于一個很自然的想法:這些年大家多用深度學(xué)習(xí),尤其是LSTM(基于深度循環(huán)網(wǎng)絡(luò)的特征提取框架),它特別適合處理時序型數(shù)據(jù)。所以我們就把這類序列行為編碼到我們的LSTM模型里去。
做到這一步還不夠,我們還有一套框架是用CNN的模型對序列行為衍生特征。具體結(jié)果可以看我們在KDD 2018上面的paper。
文本類數(shù)據(jù)處理方式
在金融行業(yè),以前大家可能對文本數(shù)據(jù)束手無策,因為你很難將一系列的對話文本轉(zhuǎn)變成數(shù)字化變量,解釋給計算機聽,最后還能輸出結(jié)果。我們能做到的是在一個限定的場景里面,給出一個很好的結(jié)果。因為你每對它多做一個限制,你的計算復(fù)雜度就會降低很多,在有限的計算資源和技術(shù)條件下,就能得到一個足夠好的效果。
第一篇論文主要講我們建了一套QA問答體系的特征,從一段文本最后變成數(shù)值化的向量,其實是有標準做法的。但是我們發(fā)現(xiàn),在一個限定的場景里,比如說客服場景是一問一答的方式,單單用X-Encoder(基于無監(jiān)督深度學(xué)習(xí)的特征提取框架)是不夠高效的,于是我們做了一套針對QA的基于X-Encoder的催收風(fēng)險模型交互式特征提取框架,專門適合金融領(lǐng)域的一問一答。
第二篇論文是關(guān)于提取客戶標簽的,通過對話把你的context提取成標準事件。這件事的關(guān)鍵點在于,今天金融機構(gòu)的客服人員,都是被訓(xùn)練成機器一樣在工作,一個新人招進來以后,就用標準化的培訓(xùn)模板去教導(dǎo)他,告訴他比如客戶講了這句話以后,你要講哪些話,怎么給客戶打標簽等等。所以我們的工作是構(gòu)建一個知識庫,建立標準對話流程預(yù)測體系,讓這個新人可以更快地上手。我
第三類網(wǎng)絡(luò)數(shù)據(jù),因為個人數(shù)據(jù)非常有限,尤其在金融領(lǐng)域,大數(shù)據(jù)風(fēng)控其實需要大量的訓(xùn)練樣本,但金融場景里面的訓(xùn)練樣本是非常寶貴的,比如你想獲得一個人是壞人的樣本數(shù)據(jù),那么至少得有一筆幾萬塊的壞賬,這個成本非常高。這跟我們以前做互聯(lián)網(wǎng)預(yù)測分析不一樣,用戶喜不喜歡一部電影,一個廣告,或者一個手機殼,這件事情的成本沒那么高。
我們的做法是找到類似的人,從他的申請資料和社交關(guān)系上面去抽取知識,做聚類。當(dāng)你發(fā)現(xiàn)了一個壞人,那么跟他類似的那群人是壞人的概率就非常高。也就是說,當(dāng)你找到有效的群體之間相似這種關(guān)系以后,是有助于對個體風(fēng)險做識別的。當(dāng)然僅僅個人的大數(shù)據(jù)還不夠,我們還需要借助更多的大數(shù)據(jù),最后用集成模型把個人的風(fēng)險特征和局部網(wǎng)絡(luò)、全局網(wǎng)絡(luò)上建立的風(fēng)險特征結(jié)合在一起,提升風(fēng)險預(yù)測效果。
剛才講的是幾類不同類型的另類數(shù)據(jù)處理辦法,這個過程中我們始終有個挑戰(zhàn),那就是你做的模型是一個黑盒,沒有辦法解釋。我不能告訴金融機構(gòu),誰用了這種方法,效果很好,這對金融機構(gòu)來講是不能接受的,你一定要告訴他為什么。這其實也是整個AI領(lǐng)域最頭痛的事情,在業(yè)務(wù)場景特別明顯的地方,比如醫(yī)療領(lǐng)域,困難更加明顯,比如AI診斷說要切掉一條腿,為什么?你不能說是model預(yù)測的,或者最后說model出錯了,那這個醫(yī)院肯定是會關(guān)門的。
所以模型的可解釋性是深度學(xué)習(xí)突破之后AI面臨的新挑戰(zhàn),在通用模型上目前我還沒有看到特別好的解決辦法。但是在具體的金融場景里,我們可以在某種程度上給出解釋。有兩個辦法:一個是局部的近似,用低維模型擬合高維模型,它參考了博弈論里面的東西,最后得到最優(yōu)的決策,是倒推博弈論的過程,這個我們有成型的產(chǎn)品,用在了我們的風(fēng)險解決方案里面;第二個是把AI模型里最重要的幾個特征變量找出來,解釋給業(yè)務(wù)專家聽。
左邊第一個是帶有時間先后序列特征的實踐結(jié)果。指標主要就是模型區(qū)分度,KS值和AUC。按照KNN的通常做法KS值是0.142,再用一個神經(jīng)網(wǎng)絡(luò)去做MLP,KS值達到0,167。加上這些特征以后,進一步提升到0.203,在一個典型的場景上,加上行為數(shù)據(jù),KS值可以做到0.216,差不多提升了50%以上。
第二個是短文本信息提取模型效果,傳統(tǒng)做法和利用AI模型的做法在數(shù)值表現(xiàn)上效果差不多,但是后者的擴展性更強,因為原來要求人非常有經(jīng)驗,時時想著應(yīng)對策略,有了這個框架以后就不用人費力去調(diào)參了,機器會替代部分人力工作。
第三個是對社交網(wǎng)絡(luò)數(shù)據(jù)的使用效果,如果只是單純用個人的風(fēng)險數(shù)據(jù),KS值是0.3;加上基于圖的特征以后,有類似于人群的特征,很明顯提升到0.38。
右邊是加入上述三種類型數(shù)據(jù)以后的綜合表現(xiàn),我們也可以看到KS值是不斷增長的。
群體風(fēng)險方面,這兩年監(jiān)管對反洗錢和可疑交易監(jiān)測要求很嚴格,以前國內(nèi)監(jiān)測個人的欺詐風(fēng)險,主要是基于規(guī)則和個人上報,風(fēng)險運營部門會用很多人工去找,效率很低,現(xiàn)在欺詐的手段層出不窮,就需要用人的規(guī)則和以前發(fā)生過的欺詐事件訓(xùn)練機器去抓。原來為了抓可疑交易,假設(shè)要雇一百個人人工去看,現(xiàn)在是一百個風(fēng)險運營的人等著看機器提供的樣本是不是對的,再反饋給機器,讓機器訓(xùn)練得更加準確。
這里的關(guān)鍵是使用圖算法。在互聯(lián)網(wǎng)行業(yè)專門有做圖算法、圖解決方案的公司,提出解決方案來,發(fā)現(xiàn)一直沒有成功的。總結(jié)起來是兩個點,一定要根據(jù)行業(yè)知識來做降維;還需要一套有效的計算體系。我們的列式計算引擎能夠在15分鐘內(nèi)處理百億級別數(shù)據(jù),這在以前是很難想象的。
最下面是原始資金的交易流水。我們知道銀行的交易流水量非常大,不大得話,人工就可以解決了。交易流水形成兩個東西:
首先互相帳戶往來會建立起一個大的Graph,我們會給定以前的可疑種子結(jié)點,經(jīng)過局部社區(qū)算法找到跟它關(guān)聯(lián)的可疑子社區(qū)。
比如說放進去10萬個可疑種子,找到10萬個跟它相關(guān)的社區(qū)。這10萬個社區(qū)里一共是上億的帳戶。其中90%以上的都是好人,我們就對其余10%的人群進行重點布控。
另外,我們基于風(fēng)險專家的經(jīng)驗形成風(fēng)險知識圖譜,這是一般風(fēng)險專家會去考慮一個交易往來的特征,從金額、模式、速度、場景方面考慮。
結(jié)合這兩個東西來做圖的深度學(xué)習(xí)預(yù)測模型。有了這個模型指導(dǎo)以后,由單個種子去觸發(fā)。使用ACL優(yōu)化的PPR算法,加上Sweep-cut算法,實現(xiàn)大規(guī)模的挖掘。最后做到一件事情:通過種子的節(jié)點去找密切的社區(qū),學(xué)到圖的結(jié)構(gòu),找到更可疑的人。
講完原理,舉個例子。比如一個大銀行的房貸系統(tǒng),發(fā)現(xiàn)幾十個帳戶,都和叫“X琴”的人有關(guān)系,和她的資金往來非常多, X琴可能是中介,或者專門職業(yè)給人提供首付、中間過橋的,這里面肯定不正常。如果純靠人工去找的話,很難從幾十億交易流水?dāng)?shù)據(jù)中找到這樣的東西,但是通過圖挖掘可以一目了然看到X琴的帳戶有問題。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。