2
本文作者: 張馳 | 2016-07-21 18:30 |
去年P(guān)2P公司遇冷后,紛紛轉(zhuǎn)型稱會(huì)用大數(shù)據(jù)、機(jī)器學(xué)習(xí)等科技手段服務(wù)金融,搖身一變成為時(shí)髦的Fintech金融科技公司。但實(shí)現(xiàn)過程并不簡(jiǎn)單,讓機(jī)器代替人去處理數(shù)據(jù)做判斷,在國(guó)內(nèi)金融領(lǐng)域才剛剛起步。
CreditX氪信是雷鋒網(wǎng)接觸的一家用機(jī)器學(xué)習(xí)做風(fēng)投的公司,在金融領(lǐng)域擁有不少實(shí)驗(yàn)經(jīng)驗(yàn)和思考。最近氪信創(chuàng)始人朱明杰在朗迪中國(guó)峰會(huì)發(fā)表演講,談及了將機(jī)器學(xué)習(xí)應(yīng)用于金融的難點(diǎn),以及如何提升模型的可解釋性。下文編輯自演講內(nèi)容,有刪減。
我做了十多年的機(jī)器學(xué)習(xí),用機(jī)器代替人去處理數(shù)據(jù)做決策和判斷。過去十多年的機(jī)器學(xué)習(xí),成功的應(yīng)用都是在互聯(lián)網(wǎng)上,搜索,廣告,推薦,可以說互聯(lián)網(wǎng)率先達(dá)到了數(shù)據(jù)時(shí)代。而到金融創(chuàng)新這個(gè)領(lǐng)域,如何實(shí)現(xiàn)互聯(lián)網(wǎng)級(jí)別的機(jī)器學(xué)習(xí)和人工智能,大家都剛剛起步,我今天想講講我們CreditX在金融領(lǐng)域?qū)嵺`互聯(lián)網(wǎng)級(jí)別機(jī)器學(xué)習(xí)的一些經(jīng)驗(yàn)和思考。
我一直認(rèn)為,“科技進(jìn)步是被業(yè)務(wù)需求逼出來的”。過去我們?cè)诨ヂ?lián)網(wǎng)行業(yè)靠算法和機(jī)器,都是被逼的,為什么,因?yàn)閿?shù)據(jù)量實(shí)在太大了,你想去淘寶搜個(gè)手機(jī)殼,讓阿里的同學(xué)人肉從上億的商品里幫你找出最喜歡最合適的,那根本不可能。傳統(tǒng)金融場(chǎng)景里,一筆100萬的貸款主要靠風(fēng)控人員和關(guān)系,那是可行的;而到了銀行的信用卡中心,積壓的申請(qǐng)審核,讓審批人員每周加班,都批不完。
那現(xiàn)在互聯(lián)網(wǎng)金融要面臨更加普惠的場(chǎng)景,比如幾百塊錢一筆的手機(jī)貸,靠鋪人力一定是行不通的。所以,這已經(jīng)不單單是提升運(yùn)營(yíng)效率問題,而是必須要把活兒交給機(jī)器,讓機(jī)器來學(xué)習(xí)人的風(fēng)控經(jīng)驗(yàn),機(jī)器人變成風(fēng)控專家。
第一個(gè)問題是數(shù)據(jù)太少。因?yàn)榻鹑跀?shù)據(jù)非常稀疏,而且現(xiàn)在的很多金融產(chǎn)品形式在以前沒有發(fā)生過,所沒有十幾年的數(shù)據(jù)積累。換句話說就是缺少訓(xùn)練數(shù)據(jù),這又被稱為冷啟動(dòng),缺數(shù)據(jù)。另外,金融領(lǐng)域出現(xiàn)壞賬情況少則一個(gè)月多則數(shù)月,數(shù)據(jù)積累需要等很久,相比之下,互聯(lián)網(wǎng)搜索領(lǐng)域內(nèi)可以迅速拿到點(diǎn)擊反饋,兩者差別很大。所以數(shù)據(jù)缺失是阻礙機(jī)器來學(xué)習(xí)人類經(jīng)驗(yàn)的巨大障礙。
第二個(gè)是數(shù)據(jù)太多。這里指的是數(shù)據(jù)特征維度多,超過了人的處理能力。傳統(tǒng)金融只有十幾維度的特征變量,人工調(diào)公式即可應(yīng)對(duì)。但現(xiàn)在面臨這么多維度的數(shù)據(jù),大家也想了很多很好的愿景,討論很多數(shù)據(jù)都可以用。但為什么用不上呢?問題在于我們有什么辦法可以有一個(gè)很強(qiáng)的表達(dá)能力將這些很原始的,也可以叫弱變量的數(shù)據(jù)特征利用起來。將弱特征數(shù)據(jù)組合起來,與結(jié)果聯(lián)系起來,讓人的直觀經(jīng)驗(yàn)可以理解,讓風(fēng)控專家去反饋。
在金融場(chǎng)景內(nèi),不能像互聯(lián)網(wǎng)機(jī)器學(xué)習(xí)一樣是一個(gè)黑盒子,一堆數(shù)據(jù)扔進(jìn)去,等結(jié)果來反饋迭代。金融場(chǎng)景內(nèi),特別強(qiáng)調(diào)模型的可解釋性,這樣才能把人的風(fēng)控經(jīng)驗(yàn)和直觀感受跟數(shù)據(jù)表現(xiàn)結(jié)果關(guān)聯(lián)起來。在此基礎(chǔ)上,我們才能說把人的經(jīng)驗(yàn)介入到利用數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)建模的操作中去。做到特征要能夠追溯回去,尤其是金融的反饋結(jié)果要等很久,需要人能夠快速干預(yù)反饋。
如何解決金融風(fēng)控冷啟動(dòng)問題
對(duì)于數(shù)據(jù)太少和產(chǎn)生太慢的問題,冷啟動(dòng)問題是一個(gè)非常典型的case。我們?cè)诨ヂ?lián)網(wǎng)行業(yè)經(jīng)常面臨缺少數(shù)據(jù)的問題,也積累了成熟的經(jīng)驗(yàn),就是把人的因素疊加到機(jī)器學(xué)習(xí)過程中去。我們做搜索廣告時(shí),會(huì)請(qǐng)人標(biāo)注數(shù)據(jù),然后通過標(biāo)注數(shù)據(jù)的專家來指導(dǎo)算法工程師調(diào)優(yōu)算法,改進(jìn)排序結(jié)果。而在金融場(chǎng)景里,我們有很多現(xiàn)成的經(jīng)驗(yàn)以及經(jīng)驗(yàn)豐富的風(fēng)控人員,這些專家有很強(qiáng)的風(fēng)控知識(shí)。
理論上講,如果有幾百個(gè)風(fēng)控專家,不用發(fā)工資,我們做手機(jī)貸也可以做下去,但實(shí)際情況是我們必須靠機(jī)器去學(xué)習(xí)人的風(fēng)控經(jīng)驗(yàn)。所以我們通過半監(jiān)督學(xué)習(xí)的方法,把業(yè)務(wù)風(fēng)控專家和實(shí)際的信貸結(jié)果在online學(xué)習(xí)中做一個(gè)結(jié)合。在這個(gè)過程中,風(fēng)控人員可以實(shí)時(shí)的介入,不停地根據(jù)輸出結(jié)果做一些調(diào)整,然后非常實(shí)時(shí)地反饋到模型訓(xùn)練的迭代提升的過程當(dāng)中。
這就說我們特別重視人的因素?,F(xiàn)在大家都在講人工智能,人工智能的本質(zhì)是什么?在我的理解其實(shí)就是讓機(jī)器學(xué)習(xí)人的經(jīng)驗(yàn)。以前我們依賴幾個(gè)經(jīng)驗(yàn)豐富的風(fēng)控人員,現(xiàn)在我們可以讓機(jī)器把人的經(jīng)驗(yàn)學(xué)過來,然后讓機(jī)器來做一個(gè)自動(dòng)的決策。
金融的業(yè)務(wù)結(jié)果和樣本非常珍貴。比如,我之前在房貸業(yè)務(wù)上積累了一些樣本,然后換到一個(gè)新的消費(fèi)信貸業(yè)務(wù)上,或者從一個(gè)消費(fèi)信貸業(yè)務(wù)切換到另一個(gè)新的業(yè)務(wù)。這些珍貴的樣本數(shù)據(jù)不能丟掉,但怎么去用呢?我們可以做到盡可能利用已有的經(jīng)驗(yàn)和知識(shí),把generic的風(fēng)險(xiǎn)核心模型和domain knowledge分開,再去根據(jù)業(yè)務(wù)的場(chǎng)景信息,以及場(chǎng)景內(nèi)的先驗(yàn)知識(shí)結(jié)合起來,在此基礎(chǔ)上學(xué)習(xí)和復(fù)用跨領(lǐng)域跨場(chǎng)景的知識(shí),并且可以做到知識(shí)積累。
接下來我們來看“數(shù)據(jù)太多”。我將這個(gè)問題分為兩個(gè)部分來看。
首先是數(shù)據(jù)的特征維度很多。我們關(guān)心的是如何將大數(shù)據(jù)和金融風(fēng)控的問題掛鉤起來,這里面其實(shí)是需要非常強(qiáng)大的特征加工和表達(dá)能力。這是傳統(tǒng)的線性回歸統(tǒng)計(jì)建模方法很難去完成的。我們的辦法有很多,這里面包括大家現(xiàn)在熱度很高的“深度學(xué)習(xí)”。深度學(xué)習(xí)的本質(zhì)是通過數(shù)據(jù)特征的處理去學(xué)習(xí)人處理知識(shí)和數(shù)據(jù)的方式。為了解決數(shù)據(jù)太多的問題,讓人能看透浩瀚的原始數(shù)據(jù),在模型的前端,我們嘗試了不同的深度特征編碼方法,非監(jiān)督學(xué)習(xí)的方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,從而實(shí)現(xiàn)特征的降維,將浩瀚的原始數(shù)據(jù)和最后結(jié)果掛上鉤。
其次是模型的可解釋性。金融專家特別關(guān)心模型的可解釋性。這里面有兩個(gè)意義:
如果給信貸對(duì)象一個(gè)打分的結(jié)果,如果不能解釋,這個(gè)很難和申請(qǐng)人去溝通的;
另外,我們所面臨的是一個(gè)非常復(fù)雜的環(huán)境,如果對(duì)于風(fēng)控結(jié)果仍然是黑盒進(jìn)黑盒出的話,風(fēng)險(xiǎn)是很難去把控和估計(jì)的。
如果模型出了問題,造成的風(fēng)險(xiǎn)漏洞是我們不能承受的。在互聯(lián)網(wǎng)金融業(yè)務(wù)這么快速成長(zhǎng)的背景下,很有可能公司的業(yè)務(wù)都做不下去。所以,互聯(lián)網(wǎng)內(nèi)黑盒進(jìn)黑盒出的方法就不適用于金融場(chǎng)景,需要有一個(gè)可解釋的local模型去做到。我們的實(shí)踐經(jīng)驗(yàn)是,利用LIME去捕獲結(jié)果或者局部結(jié)果中的關(guān)鍵變量,然后讓風(fēng)控專家迅速的抓到是哪些特征導(dǎo)致結(jié)果的變化。
我們把互聯(lián)網(wǎng)的技術(shù)經(jīng)驗(yàn),在金融場(chǎng)景內(nèi)做了一些艱難的嘗試,并得到了一些實(shí)踐經(jīng)驗(yàn),包括從最開始的數(shù)據(jù)獲取處理,到人的介入?yún)⑴c,到對(duì)復(fù)雜模型的干預(yù)過程,最后形成我們的practice。
從效率上說,我們的一個(gè)合作伙伴得到了很好的效果。他們做了一個(gè)金融信貸場(chǎng)景,部署在氪信的系統(tǒng)和模型上跑,只需要3-4個(gè)業(yè)務(wù)風(fēng)控兼運(yùn)營(yíng)的人員,風(fēng)控的大部分工作交給機(jī)器去做。
另外從效果上看,我們利用DNN模型做出來一個(gè)結(jié)果,可以看到結(jié)果比傳統(tǒng)的LR模型ks值從0.19提升到0.43。數(shù)字和結(jié)果是我們做模型的人最直接的一個(gè)答案,這里面沒有什么可以講概念的。
大家之前對(duì)大數(shù)據(jù)期望值很高,又屢屢失望,現(xiàn)在其實(shí)對(duì)數(shù)據(jù)科技來說是一個(gè)很好的時(shí)機(jī)。因?yàn)榇蠹艺娴男枰軌蛴羞\(yùn)用數(shù)據(jù)的能力,用機(jī)器解決金融實(shí)際問題,這也是我們這個(gè)時(shí)代的機(jī)會(huì)和風(fēng)口,也是一個(gè)新的開始。
下個(gè)月的12、13號(hào),雷鋒網(wǎng)將在深圳舉辦一場(chǎng)盛況空前的人工智能與機(jī)器人峰會(huì),屆時(shí)我們將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單,為此我們?cè)谒鸭⒋_認(rèn)AI、機(jī)器人、自動(dòng)駕駛、無人機(jī)等幾個(gè)領(lǐng)域的優(yōu)質(zhì)項(xiàng)目。如果您的項(xiàng)目是相關(guān)領(lǐng)域的,且足夠有技術(shù)壁壘、足夠有成長(zhǎng)性,歡迎聯(lián)系2020@leiphone.com。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。