1
本文作者: 溫曉樺 | 2016-10-16 01:14 | 專題:雷峰網(wǎng)公開課 |
隨著金融科技、科技金融等概念的熱起,以及互聯(lián)網(wǎng)金融、無金融服務(wù)群體的剛性需求下,大數(shù)據(jù)風(fēng)控技術(shù)也獲得越來越廣泛地重視和應(yīng)用。但是,如何利用大數(shù)據(jù)、機(jī)器學(xué)習(xí)等前沿技術(shù)做金融風(fēng)控?如何通過海量數(shù)據(jù)與欺詐風(fēng)險(xiǎn)進(jìn)行博弈?本次硬創(chuàng)公開課我們邀請(qǐng)了同盾科技首席風(fēng)險(xiǎn)官董騮煥博士為我們解答。
董騮煥是南開大學(xué)概率統(tǒng)計(jì)博士,他博士畢業(yè)后加入中科院,2007年加入IBM/ ILOG從事決策模型在各種業(yè)務(wù)問題中的應(yīng)用。2010年至2013年先后在FICO和SAS支持金融反欺詐事業(yè)。2015年5月15日,董騮煥加入同盾科技,負(fù)責(zé)反欺詐以及數(shù)據(jù)分析。目前他仍擔(dān)任上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)管理學(xué)院兼職碩導(dǎo)和教育指導(dǎo)委員會(huì)成員。
以下是本次公開課要點(diǎn):
同盾提倡跨行業(yè)聯(lián)防聯(lián)控,一個(gè)維度是打破企業(yè)之間的數(shù)據(jù)孤島,即企業(yè)與企業(yè)、平臺(tái)之間的數(shù)據(jù)交通障礙。另一方面是行業(yè)與行業(yè)之間也存在一定的風(fēng)險(xiǎn)重合,比如信貸行業(yè)與電商行業(yè)、O2O行業(yè)之間,需要一定的機(jī)制來打破數(shù)據(jù)障礙。
整個(gè)風(fēng)控體系包括幾個(gè)環(huán)節(jié):
事前:在風(fēng)險(xiǎn)發(fā)生之前就要通過對(duì)風(fēng)險(xiǎn)輿情的監(jiān)控發(fā)現(xiàn)風(fēng)險(xiǎn),比如在某些惡意的欺詐團(tuán)伙即將發(fā)動(dòng)欺詐攻擊前就采取措施來提前防御,比如通過規(guī)則加緊,把模型閾值調(diào)高等方法。
事中:信貸借款申請(qǐng),在線上注冊(cè)激活的過程中,根據(jù)自動(dòng)風(fēng)險(xiǎn)評(píng)估,包括申請(qǐng)欺詐,信用風(fēng)險(xiǎn)等來選擇是否拒絕發(fā)放貸款。
事后:貸款發(fā)放以后的風(fēng)險(xiǎn)監(jiān)控,如果借款人會(huì)出現(xiàn)與其他平臺(tái)的新增申請(qǐng),或者長距離的位置轉(zhuǎn)移,或者手機(jī)號(hào)停機(jī)等信號(hào),可作為貸后風(fēng)險(xiǎn)預(yù)警。
在介紹整個(gè)風(fēng)控體系時(shí)我認(rèn)為,對(duì)于網(wǎng)絡(luò)行為或者線上借貸,最最基礎(chǔ)或者最最重要的技術(shù)是設(shè)備指紋。為什么呢?從上圖中我們可以看到,網(wǎng)絡(luò)上的設(shè)備模擬或攻擊,比如各種各樣的自動(dòng)機(jī)器人,實(shí)際上是對(duì)網(wǎng)絡(luò)環(huán)境造成極大的干擾,在信貸中會(huì)導(dǎo)致信用風(fēng)險(xiǎn)的誤判。這個(gè)是第一道。
網(wǎng)絡(luò)設(shè)備最關(guān)鍵的地方是要實(shí)現(xiàn)對(duì)設(shè)備唯一性的保證,第二是抗攻擊,抗篡改。網(wǎng)上有各種高手會(huì)進(jìn)行模擬器修改,修改設(shè)備的信息和干擾設(shè)備的定位等以各種手段來干擾設(shè)備的唯一性認(rèn)定。
所以對(duì)抗這樣的情況的技術(shù)要點(diǎn)在于:抗攻擊、抗干擾、抗篡改。另一方面能夠識(shí)別出絕大部分的模擬器。
接下來就是設(shè)備定位。
值得注意的是,在模擬器或者智能設(shè)備系統(tǒng)里面它可以把GPS定位功能關(guān)掉。而如果通過將基站的三角計(jì)算或者WIFI的三角計(jì)算定位結(jié)合起來,定位的精度較高,且不受GPS關(guān)閉的影響。
這可以應(yīng)用在信貸貸后管理,用來監(jiān)測借款人的大范圍位置偏移。
對(duì)于位置來講還有一個(gè)重要方面是地址的模糊匹配。在信用卡或者線下放貸中,地址匹配是一個(gè)重要的風(fēng)險(xiǎn)審核因素,但是地址審批過程存在一個(gè)問題:平臺(tái)與平臺(tái)之間因?yàn)檩斎敫袷讲煌蛘咻斎脲e(cuò)誤等問題造成難以匹配,那就需要模糊算法來進(jìn)行兩兩匹配,以及數(shù)個(gè)地址之間進(jìn)行比對(duì),或者在存量庫中搜索出歷史中的風(fēng)險(xiǎn)或者相關(guān)性名單來進(jìn)行比對(duì)。這其中涉及的技術(shù)包括模糊匹配算法和海量地址的管理和實(shí)時(shí)比對(duì)。
復(fù)雜網(wǎng)絡(luò)有時(shí)候大家稱之為知識(shí)圖譜,但這中間有點(diǎn)區(qū)別:復(fù)雜網(wǎng)絡(luò)更偏向于從圖論的角度進(jìn)行網(wǎng)絡(luò)構(gòu)建后進(jìn)行實(shí)體結(jié)構(gòu)算法分析,知識(shí)圖譜更偏重于是在關(guān)聯(lián)關(guān)系的展現(xiàn)。
網(wǎng)絡(luò)分析最重要的一點(diǎn)是具有足夠的數(shù)據(jù)量,能夠?qū)Υ蟛糠志W(wǎng)絡(luò)行為進(jìn)行監(jiān)控和掃描,同時(shí)形成相應(yīng)的關(guān)聯(lián)關(guān)系,這不僅是實(shí)體與實(shí)體之間、事件與事件的關(guān)系,并且體現(xiàn)出“小世界(7步之內(nèi)都是一家人)”、“冪分布”等特征。
舉個(gè)例子:團(tuán)伙性欺詐嫌疑識(shí)別。有一個(gè)被拒絕的用戶中,關(guān)聯(lián)出來了一個(gè)失信的身份證和設(shè)備,而且發(fā)現(xiàn)其設(shè)備有較多的申請(qǐng)行為,那么,這個(gè)被關(guān)聯(lián)出來的用戶或?qū)⑿枰獓?yán)格的人工審核,甚至可以直接拒絕。
通過對(duì)借款事件的深入挖掘,我們可以關(guān)聯(lián)出大量的借款事件。這個(gè)需要進(jìn)行一些算法分團(tuán),可以把相關(guān)的聯(lián)系人都分到一個(gè)地方,然后進(jìn)行關(guān)聯(lián)成團(tuán)的團(tuán)伙性分析,根據(jù)圖論上的屬性如團(tuán)的密集程度和某些路徑的關(guān)鍵程度等,比如介數(shù),圖直徑等角度來估計(jì)風(fēng)險(xiǎn)。
通過對(duì)內(nèi)部大量數(shù)據(jù)的抽樣分析,可以看到一些意思的現(xiàn)象:潛在的威脅者,出于惡意目的,他的行為會(huì)和正常的用戶有所不同。這里面有幾個(gè)例子可以分享:
其中一個(gè)是設(shè)備與關(guān)聯(lián)賬戶的數(shù)量與欺詐風(fēng)險(xiǎn)的關(guān)系。當(dāng)然這不僅包括了信貸行業(yè)的欺詐,還包括賬戶層面的盜取賬戶、作弊、交易等欺詐風(fēng)險(xiǎn)??梢钥吹?,當(dāng)設(shè)備關(guān)聯(lián)賬戶量大于3-5個(gè)時(shí),其風(fēng)險(xiǎn)系數(shù)明顯增高。此外,當(dāng)關(guān)聯(lián)數(shù)量大于五時(shí),風(fēng)險(xiǎn)率也是明顯偏高。
另外一個(gè)是對(duì)于多頭負(fù)責(zé)與不良率的比較:7天內(nèi)貸款平臺(tái)數(shù)高于5時(shí)其風(fēng)險(xiǎn)也是明顯偏高的。雖然這個(gè)數(shù)據(jù)還沒有做進(jìn)一步的清洗和交叉衍生新的變量,但也可以看出其中的風(fēng)險(xiǎn)相關(guān)程度。
另外是某個(gè)特定客群的建模抽樣分析。例如多次借款申請(qǐng)人如果180天內(nèi)夜間申請(qǐng)借款的比例——就是有借款行為的同時(shí),如果大于四分之一的借款申請(qǐng)是在夜間的,其風(fēng)險(xiǎn)明顯增加。
數(shù)據(jù)都是客觀的,取決于數(shù)據(jù)形成后對(duì)業(yè)務(wù)的分析和解讀。
優(yōu)秀的決策引擎是怎樣的?
一個(gè)優(yōu)秀的決策引擎包括以下幾點(diǎn):
靈活可配——不但可以配規(guī)則,還可以配規(guī)則的字段和權(quán)重。業(yè)務(wù)友好就不用說了。
快速部署——配置好的規(guī)則模型可以實(shí)時(shí)生效,當(dāng)然如果涉及一般規(guī)則修改時(shí),可以做一個(gè)灰度部署。
決策流——它可以把不同的規(guī)則和模型串到一起,形成一個(gè)決策流,實(shí)現(xiàn)貸前、貸中、貸后的全流程監(jiān)控。它要可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的按需調(diào)用,比如把成本低的數(shù)據(jù)放到前面,逐步把成本較高的數(shù)據(jù)放到后面。因?yàn)橛行Q策在前面成本較低的數(shù)據(jù)下已經(jīng)可以形成,就不必調(diào)用高成本的數(shù)據(jù)。
AB測試和冠軍挑戰(zhàn)——對(duì)于規(guī)則修改、調(diào)優(yōu)時(shí)尤其重要。兩套規(guī)則跑所有的數(shù)據(jù),最終來比較規(guī)則的效果。另一種是分流——10%跑新規(guī)則,90%跑老規(guī)則,隨著時(shí)間的推移來根據(jù)測試結(jié)果的有效性。
支持模型的部署——線性回歸、決策樹等簡單模型容易將其變成規(guī)則來部署,但支持向量機(jī)、深度學(xué)習(xí)等對(duì)模型支持的功能有更高的要求。
那經(jīng)過以上的手段,我們基本可以具有一個(gè)很強(qiáng)的力度來排除信用風(fēng)險(xiǎn),那么以下便是信用評(píng)估階段。
評(píng)分卡分為申請(qǐng)、行為、催收評(píng)分卡。申請(qǐng)?jiān)u分卡用于貸前審核;行為評(píng)分卡作為貸中貸后監(jiān)控,例如調(diào)額,提前預(yù)知逾期風(fēng)險(xiǎn)。它可以通過歷史的數(shù)據(jù)和個(gè)人屬性等角度來預(yù)測違約的概率。信用評(píng)分主要用于信用評(píng)分過程中的分段,高分段可以通過,低分段可以直接拒絕。
因?yàn)樾袠I(yè)不同,客群與業(yè)務(wù)不同,評(píng)分卡的標(biāo)準(zhǔn)也有所不同。對(duì)于有歷史表現(xiàn)的客戶,我們可以將雙方的XY變量拿出來,進(jìn)行一個(gè)模型共建,做定制化的評(píng)分。
構(gòu)建一個(gè)評(píng)分卡模型,目前傳統(tǒng)的方法是銀行體系中使用的:數(shù)據(jù)清洗、變量衍生、變量選擇然后進(jìn)行邏輯回歸這樣一個(gè)建模方式。
那么機(jī)器學(xué)習(xí)和傳統(tǒng)方法最主要的區(qū)別是變量選取過程的不同——如果還是基于傳統(tǒng)的變量選取方法,那通過機(jī)器學(xué)習(xí)訓(xùn)練出來的模型,其實(shí)還是傳統(tǒng)的模型,其模型雖然一個(gè)非線性模型,但是其背后體現(xiàn)不出機(jī)器學(xué)習(xí)的優(yōu)勢(shì)。
在目前圍繞大數(shù)據(jù)、大數(shù)據(jù)決策為核心的風(fēng)控技術(shù)體系中,整體的數(shù)據(jù)量達(dá)到一定水平,存在的挑戰(zhàn)將會(huì)是數(shù)據(jù)的稀疏化。隨著風(fēng)控業(yè)務(wù)覆蓋的行業(yè)越來越多,平臺(tái)間的數(shù)據(jù)稀疏問題就越明顯。(雷鋒網(wǎng)注:“稀疏數(shù)據(jù)”即矩陣中含零元素特別多,這意味著無益于增加數(shù)據(jù)信息量的無用元素很多,對(duì)于數(shù)據(jù)從存儲(chǔ),處理到建模都有挑戰(zhàn)。)
此外,其實(shí)對(duì)于大數(shù)據(jù)來說,即便具有數(shù)據(jù)和大數(shù)據(jù)決策,如果沒有一個(gè)很穩(wěn)定的落地平臺(tái)也是一個(gè)空中樓閣。大數(shù)據(jù)應(yīng)用要做到完整,還需要符合以下要求的平臺(tái):一是容納量,能夠容納特別多的數(shù)據(jù);一個(gè)是響應(yīng):任何決策都能實(shí)時(shí)響應(yīng);一個(gè)是并發(fā),在大量數(shù)據(jù)并發(fā)時(shí)也能保持調(diào)用。此外,安全性自不待言。
問:深度學(xué)習(xí)是怎么用于風(fēng)險(xiǎn)控制的呢?
董騮煥:深度學(xué)習(xí)本身個(gè)框架,是結(jié)合非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和部署的框架,只要有目標(biāo),有數(shù)據(jù)就可以衍生特征,就可以做目標(biāo)訓(xùn)練,可以當(dāng)成一般機(jī)器學(xué)習(xí)去用。當(dāng)然深度學(xué)習(xí)有些優(yōu)勢(shì),比如無監(jiān)督的特征選取方式,另外訓(xùn)練的過程中雖然計(jì)算量比較大,但也是可以接受的。
概括地說你可以認(rèn)為深度學(xué)習(xí)是模型的一種。因?yàn)樯疃葘W(xué)習(xí)有些特殊的優(yōu)勢(shì),比如特征選取的自動(dòng)產(chǎn)生,即無監(jiān)督方式。 另外,它可以實(shí)現(xiàn)稀疏數(shù)據(jù)結(jié)構(gòu)的特征生成,而且可以通過正則化的方式來控制特征的生成,這對(duì)于具有大量數(shù)據(jù),同時(shí)維度特別多,而且稀疏化的情況時(shí)就特別有用。
問:有一個(gè)問題,有沒有一種可能,對(duì)于用戶畫像,判斷的維度越多,得到的一些結(jié)論是沖突的。這個(gè)情況如果存在,是怎么協(xié)調(diào),看權(quán)重么?
董騮煥:如果傳統(tǒng)的方法,這些維度,比如幾千個(gè)維度經(jīng)過模型變量的篩選,有些變量是值越高越正面,有些是值越低越正面,就是WOE是不同的方向,這種情況下可以通過建模的方式來進(jìn)行權(quán)重的訓(xùn)練,來做一個(gè)協(xié)調(diào)。
問:根據(jù)最新關(guān)于互聯(lián)網(wǎng)金融平臺(tái)法規(guī)的實(shí)施,從數(shù)據(jù)平臺(tái)的角度分析下,大數(shù)據(jù)是否會(huì)取代以后的人工審核?您對(duì)互金風(fēng)控未來的發(fā)展趨勢(shì)認(rèn)為是什么樣的?
董騮煥:確實(shí)取決于不同信貸產(chǎn)品。比如小微的信貸產(chǎn)品,其立足點(diǎn)也許是經(jīng)營性的評(píng)估,甚至包括現(xiàn)場的實(shí)際調(diào)研——水、電、煤,以及稅務(wù)調(diào)查。而對(duì)于一些小額分散的信貸產(chǎn)品,比如信用卡代償,這些由于量太大金額又很小,人工審核的話成本會(huì)太高。當(dāng)然還有一些中間層面的,比如幾千到幾萬元的借貸,這種情況當(dāng)前更多還是互相并存的方式。
至于“未來互聯(lián)網(wǎng)審核取代人工審核”這個(gè)命題,我認(rèn)為更多取決于線上個(gè)人身份認(rèn)證問題的解決。也就是說,目前線上沒有真正能完全規(guī)避偽冒的風(fēng)險(xiǎn),包括活體認(rèn)證和手持拍照等措施,尤其是大金額,走線上途徑還是有一定風(fēng)險(xiǎn)的,因此需要從信貸流程的各個(gè)維度來控制。
對(duì)于未來的風(fēng)控我認(rèn)為是往風(fēng)險(xiǎn)經(jīng)營走,2個(gè)方向:一個(gè)是個(gè)人定制化,讓每個(gè)人都有不同的風(fēng)險(xiǎn)識(shí)別,以及對(duì)應(yīng)的信貸產(chǎn)品。另外是最優(yōu)化的授信,實(shí)現(xiàn)平臺(tái)的某個(gè)目標(biāo)的最大化,比如收入最大化、利潤最大化,此外還有市場占有最大化——對(duì)于低風(fēng)險(xiǎn)人群的容忍,這當(dāng)然取決于一個(gè)平臺(tái)的風(fēng)險(xiǎn)偏好,但這個(gè)風(fēng)險(xiǎn)偏好最大的基礎(chǔ)是對(duì)風(fēng)險(xiǎn)的準(zhǔn)確識(shí)別,這樣相應(yīng)的風(fēng)險(xiǎn)優(yōu)化才是有效的。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。