丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
金融科技 正文
發(fā)私信給陳伊莉
發(fā)送

0

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

本文作者: 陳伊莉 編輯:溫曉樺 2017-04-19 23:07 專(zhuān)題:雷峰網(wǎng)公開(kāi)課
導(dǎo)語(yǔ):金融大數(shù)據(jù)與人工智能算法紛繁復(fù)雜,如何基于海量高緯數(shù)據(jù)構(gòu)建精準(zhǔn)深度學(xué)習(xí)模型,有效識(shí)別、打擊欺詐黑產(chǎn)?

高風(fēng)險(xiǎn)、高收益是金融行業(yè)永恒的標(biāo)簽。也因如此,金融行業(yè)非常重視風(fēng)控。據(jù)多位資深金融人士表示,從事風(fēng)控后,他們總是處于戰(zhàn)戰(zhàn)兢兢的憂慮中。他們上一次大規(guī)模的憂慮發(fā)生在十幾年前。世紀(jì)之交的美國(guó)缺乏對(duì)于風(fēng)控意義的認(rèn)知,明明借著互聯(lián)網(wǎng)的東風(fēng)卻在半途摔了個(gè)七零八落。

新科技的出現(xiàn)必然會(huì)對(duì)原行業(yè)產(chǎn)生一定影響。技術(shù)無(wú)所謂利弊,問(wèn)題在于人的使用。在風(fēng)控得到足夠重視,AI成為最熱門(mén)科技的現(xiàn)在,諸多從業(yè)人士不由得開(kāi)始思考AI的應(yīng)用價(jià)值,如何將AI與風(fēng)控相結(jié)合并發(fā)揮出其積極作用?

本期雷鋒網(wǎng)公開(kāi)課邀請(qǐng)到氪信資深數(shù)據(jù)科學(xué)家朱敏來(lái)分享他的從業(yè)經(jīng)驗(yàn),深度講解如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng)。

嘉賓簡(jiǎn)介:

朱敏,氪信資深數(shù)據(jù)科學(xué)家,深耕應(yīng)用統(tǒng)計(jì)和數(shù)據(jù)挖掘領(lǐng)域。復(fù)旦大學(xué)生物統(tǒng)計(jì)學(xué)碩士,曾任職PayPal高級(jí)分析師,負(fù)責(zé)核心風(fēng)險(xiǎn)控制數(shù)據(jù)變量、排序策略、評(píng)價(jià)指標(biāo)的設(shè)計(jì)研發(fā),并在反欺詐策略、行為特征等方面擁有豐富的研究經(jīng)驗(yàn)。曾任職eBay數(shù)據(jù)分析師,負(fù)責(zé)AB測(cè)試與搜索算法的評(píng)估。多年以來(lái)專(zhuān)注金融統(tǒng)計(jì)和風(fēng)險(xiǎn)評(píng)估算法研究,在互聯(lián)網(wǎng)級(jí)別的機(jī)器學(xué)習(xí)算法和統(tǒng)計(jì)理論商業(yè)應(yīng)用領(lǐng)域有著豐富的理論研究和實(shí)踐經(jīng)驗(yàn)。

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

以下是本次公開(kāi)課實(shí)錄,雷鋒網(wǎng)做了不改變?cè)獾木庉嫞?/em>

今天給大家分享的主題是AI在金融風(fēng)控領(lǐng)域的工業(yè)應(yīng)用,我主要負(fù)責(zé)數(shù)據(jù)和模型,所以今天的公開(kāi)課除了分享宏觀想法,在具體實(shí)踐方面也會(huì)比較偏模型和數(shù)據(jù)。其實(shí)這個(gè)主題是非常大的topic,所以會(huì)聚焦到金融尤其是消費(fèi)金融領(lǐng)域,闡述我們氪信是怎樣利用互聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)和人工智能技術(shù)和經(jīng)驗(yàn)去解決實(shí)際問(wèn)題的。

金融AI時(shí)代已到來(lái)?

首先我想跟大家分享三個(gè)數(shù)字——40萬(wàn)億消費(fèi)信貸、35%征信覆蓋以及44ZB數(shù)據(jù)。

有資料顯示,2019年中國(guó)的消費(fèi)信貸市場(chǎng)會(huì)達(dá)到40萬(wàn)億,而在2015年這個(gè)數(shù)字還只是20萬(wàn)億,這幾年都保持著很高的增長(zhǎng)速度。我們可以看到市場(chǎng)規(guī)模很大,并且在不斷變大。 

而征信覆蓋率并沒(méi)有保持與市場(chǎng)規(guī)模的同步。第二個(gè)數(shù)字是35%,這是指消費(fèi)金融領(lǐng)域只有35%的客戶是有征信記錄的,剩下65%沒(méi)有信用記錄,所以并不能用傳統(tǒng)、成熟的風(fēng)險(xiǎn)評(píng)估方法去評(píng)估這些人的風(fēng)險(xiǎn)。

第三個(gè)要分享的數(shù)字是44ZB。對(duì)于65%沒(méi)有傳統(tǒng)征信數(shù)據(jù)的這類(lèi)人,我們可以收集其他相關(guān)數(shù)據(jù)去評(píng)估,這相關(guān)數(shù)據(jù)可能是申請(qǐng)資料、互聯(lián)網(wǎng)使用記錄、通信記錄等。而由于現(xiàn)在硬件的發(fā)展、數(shù)據(jù)收集的自動(dòng)化,我們是可以收集到很多數(shù)據(jù)的,這個(gè)數(shù)據(jù)量也很龐大。大數(shù)據(jù)一方面是好事,另一方面也是一個(gè)難題,例如怎么運(yùn)用一些技術(shù)手段從大量的數(shù)據(jù)中提取信息。而我們覺(jué)得消費(fèi)金融是切入AI商業(yè)場(chǎng)景一個(gè)很好的契機(jī)。

大數(shù)據(jù)時(shí)代金融風(fēng)控之痛

大數(shù)據(jù)時(shí)代金融風(fēng)控市場(chǎng)規(guī)模大,需求旺盛,但要解決的問(wèn)題很多。

從技術(shù)層面上來(lái)講,有三個(gè)問(wèn)題。

  • 第一是價(jià)值困境,雖然已經(jīng)意識(shí)到了大數(shù)據(jù)的價(jià)值,但不知如何實(shí)踐,怎樣從數(shù)據(jù)中挖掘出有用的信息。

  • 第二是高維困境,對(duì)于65%未被傳統(tǒng)征信覆蓋的人群來(lái)說(shuō),他們的特征維度非常高,往往會(huì)產(chǎn)生上千維變量,那么該如何處理高位特征,如何將其有效融合,形成1+1>2效果?

  • 第三,敏捷困境。在人工智能和風(fēng)險(xiǎn)評(píng)估不斷發(fā)展的同時(shí),我們的敵人的欺詐演變速度也非??臁R坏┌l(fā)現(xiàn)了業(yè)務(wù)上的一個(gè)漏洞,它就會(huì)去鉆模型的缺陷,利用缺陷來(lái)達(dá)到利益最大化。而單一的個(gè)體欺詐也正在演變成有組織、有規(guī)模的群體欺詐。

從戰(zhàn)略層面來(lái)說(shuō),以上問(wèn)題帶來(lái)的后果是風(fēng)控決策低效耗時(shí),員工成本會(huì)很高,壞賬率則更高。在金融場(chǎng)景里,一定需要人工智能、機(jī)器學(xué)習(xí)去幫助解決問(wèn)題。

構(gòu)建基于AI的金融風(fēng)控系統(tǒng)

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

上圖展示了一個(gè)理想的基于AI的金融風(fēng)控系統(tǒng)。從左往右講,我們一開(kāi)始會(huì)去收集各個(gè)層面的數(shù)據(jù)源,這些數(shù)據(jù)源里包括交易數(shù)據(jù)、高價(jià)值黑名單,這些都是比較常見(jiàn)的傳統(tǒng)信用數(shù)據(jù)。此外,我們也會(huì)搜集互聯(lián)網(wǎng)行為、運(yùn)營(yíng)商數(shù)據(jù)、信貸申請(qǐng)資料等。

不同的數(shù)據(jù)源融合到一起的時(shí)候也會(huì)借鑒知識(shí)圖譜技術(shù),在知識(shí)圖譜之上再去構(gòu)建高價(jià)值金融屬性的特征。

數(shù)據(jù)融合后有上千維度特征,接著我們會(huì)做一個(gè)基于深度學(xué)習(xí)的特征加工工程。再下一步是構(gòu)建模型,這里列出了一些非常主流的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型,像XGBoost或者是深度神經(jīng)網(wǎng)絡(luò),這些模型再加上已經(jīng)加工出的高價(jià)值金融特征,我們覺(jué)得這樣就可以解決實(shí)際金融風(fēng)控當(dāng)中會(huì)遇到的問(wèn)題。

而在解決問(wèn)題過(guò)程中,經(jīng)驗(yàn)會(huì)被抽象化,所以我們也會(huì)把這些經(jīng)驗(yàn)轉(zhuǎn)變成一個(gè)產(chǎn)品。上圖列出了幾個(gè)風(fēng)控引擎,包括把剛剛提到的金融特征做成特征引擎、模型引擎、規(guī)則引擎,這些產(chǎn)品會(huì)幫助我們更好地積累數(shù)據(jù),也更好地把已經(jīng)積累的經(jīng)驗(yàn)應(yīng)用到更多場(chǎng)景中去。

接下來(lái)的內(nèi)容也會(huì)按照這個(gè)模型來(lái)講,首先是數(shù)據(jù)管理,關(guān)鍵字就是金融的知識(shí)圖譜。第二部分是基于深度學(xué)習(xí)的特征工程。最后是集成模型,就是我們?cè)鯓影堰@些數(shù)據(jù)特征構(gòu)建成一個(gè)分類(lèi)模型來(lái)幫助我們判斷。

知識(shí)圖譜:重新定義金融數(shù)據(jù)架構(gòu)體系

首先看知識(shí)圖譜。知識(shí)圖譜是谷歌在2012年5月發(fā)展出來(lái)的可以將搜索結(jié)果進(jìn)行知識(shí)系統(tǒng)化,任何一個(gè)關(guān)鍵詞都能獲得完整的知識(shí)體系。本質(zhì)是一個(gè)語(yǔ)義網(wǎng)絡(luò),是一個(gè)基于圖的數(shù)據(jù)結(jié)構(gòu)。在知識(shí)圖譜當(dāng)中,實(shí)體會(huì)被表示成一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)和節(jié)點(diǎn)之間會(huì)用關(guān)系來(lái)連接,所以這個(gè)構(gòu)造方式和傳統(tǒng)關(guān)系型數(shù)據(jù)網(wǎng)絡(luò)是完全不同的。

在金融場(chǎng)景里,相比于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),它存在一些優(yōu)點(diǎn)。

首先,金融知識(shí)圖譜可擴(kuò)展性更強(qiáng)。我們收集到的數(shù)據(jù)源無(wú)論是從結(jié)構(gòu)上還是內(nèi)容上來(lái)說(shuō),其實(shí)都有很大差別。如何管理這些不同結(jié)構(gòu)和內(nèi)容的數(shù)據(jù)源從來(lái)就是關(guān)系數(shù)據(jù)庫(kù)一個(gè)大問(wèn)題。

但是如果把所有的數(shù)據(jù)和知識(shí)都表示成知識(shí)圖譜可以接受的結(jié)構(gòu),我們就可以把異質(zhì)異構(gòu)的數(shù)據(jù)統(tǒng)一融合在一起。無(wú)論是新的數(shù)據(jù)源變化,還是原有數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)發(fā)生變動(dòng),都可以靈活地調(diào)整。這個(gè)靈活也是基于知識(shí)圖譜的特點(diǎn),無(wú)論是對(duì)于節(jié)點(diǎn)還是對(duì)于關(guān)系而言,增加或者更改它的屬性都是非常靈活的。

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

從上圖中,我們可以看到在金融風(fēng)控中用到的數(shù)據(jù)還是很多的,包括歷史積累數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)、第三方數(shù)據(jù)。分類(lèi)方法當(dāng)然有很多,但無(wú)論是怎么去看數(shù)據(jù)格式、結(jié)構(gòu)都會(huì)完全不一樣。

如果構(gòu)建到統(tǒng)一的金融圖譜當(dāng)中去,對(duì)于下游的特征加工和模型其實(shí)會(huì)有很大幫助。對(duì)于數(shù)據(jù)庫(kù)某一個(gè)數(shù)據(jù)結(jié)構(gòu)的依賴就不是那么強(qiáng),我們只要優(yōu)化金融知識(shí)圖譜的知識(shí)結(jié)構(gòu),工作中的相關(guān)問(wèn)題都可以得到解決。

基于知識(shí)圖譜的社交網(wǎng)絡(luò)分析

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

金融知識(shí)圖譜的第二個(gè)優(yōu)點(diǎn)從上圖中就可以看出來(lái),知識(shí)圖譜比較直接。用戶面對(duì)的關(guān)系型數(shù)據(jù)庫(kù)主要是表。而知識(shí)圖譜可以將這些關(guān)系構(gòu)建成圖,更加可視化。 

反欺詐是很重要的一點(diǎn),在反欺詐中我們經(jīng)常會(huì)做交叉驗(yàn)證。一個(gè)用戶有來(lái)自不同數(shù)據(jù)源的特征,如果它們描述的是同一件事情,那我可以去對(duì)它們做一個(gè)驗(yàn)證。如果這個(gè)進(jìn)程中出現(xiàn)了矛盾,我們會(huì)覺(jué)得這個(gè)人的風(fēng)險(xiǎn)等級(jí)偏高。我們?cè)O(shè)想了一個(gè)場(chǎng)景,在這個(gè)場(chǎng)景下單獨(dú)個(gè)體的數(shù)據(jù)源比較單一,在這種情況下,交叉驗(yàn)證是根本沒(méi)有辦法發(fā)現(xiàn)矛盾的。而知識(shí)圖譜可以幫助我們。

上圖兩個(gè)例子印證了知識(shí)圖譜的可視化和表現(xiàn)力。先看左邊,我們要去判斷這幅圖中藍(lán)點(diǎn)這個(gè)人的風(fēng)險(xiǎn)等級(jí),我們能夠拿到此人相關(guān)的信息有手機(jī)號(hào)、郵箱等。從這個(gè)個(gè)體的單一信息上面來(lái)看,其實(shí)很難判斷他的風(fēng)險(xiǎn)等級(jí)的高低,但是如果我們把他置于一個(gè)網(wǎng)絡(luò),比較個(gè)體和個(gè)體的話,我們會(huì)發(fā)現(xiàn)一個(gè)有意思的地方——他的郵箱和好幾個(gè)其他個(gè)體的郵箱是相同的,并且這幾個(gè)人在我們的判斷中已經(jīng)是壞人,那么對(duì)于這個(gè)申請(qǐng)用戶風(fēng)險(xiǎn)等級(jí)也就有了一個(gè)判斷。

右邊還有一個(gè)判斷用戶風(fēng)險(xiǎn)的例子。如果只看他的手機(jī)號(hào)或者郵箱,目前比較成熟的方法是去看郵箱是不是亂碼注冊(cè)的或者其他。而把他置于網(wǎng)絡(luò)中后,我們會(huì)發(fā)現(xiàn)他的手機(jī)號(hào)和很多用戶的手機(jī)號(hào)都有聯(lián)系,并且都是單向的聯(lián)系。那這個(gè)其實(shí)是很明顯的特征——騷擾電話,類(lèi)似中介或者是廣告騷擾?;谶@一點(diǎn),也可以形成對(duì)于這個(gè)人的風(fēng)險(xiǎn)等級(jí)判斷。

這兩個(gè)例子都很好展示了知識(shí)圖譜能夠包含更多的信息量。這個(gè)信息量是可視化的,如果有專(zhuān)家人工去看這些案例的話,會(huì)從中找到一些特征來(lái)判斷這個(gè)人的風(fēng)險(xiǎn)等級(jí)高低。而在一些先進(jìn)算法的作用下,可以自動(dòng)地從社交網(wǎng)絡(luò)中發(fā)現(xiàn)一些特征,自動(dòng)判斷哪些是好人哪些是壞人。

深度學(xué)習(xí):超越人工定義的深度以窮盡風(fēng)險(xiǎn)

接下來(lái)討論一下特征。數(shù)據(jù)量大,維度很高是消費(fèi)金融風(fēng)控必然會(huì)遇到的實(shí)際問(wèn)題。此外,還會(huì)遇到很多非結(jié)構(gòu)化數(shù)據(jù),例如文本、圖像等。這些都不是傳統(tǒng)征信會(huì)遇到的問(wèn)題,而這在深度學(xué)習(xí)領(lǐng)域會(huì)有一些很成熟的應(yīng)用。

深度學(xué)習(xí)的本質(zhì)是特征學(xué)習(xí)的過(guò)程。對(duì)于人工難以加工的海量非結(jié)構(gòu)化數(shù)據(jù),基于深度學(xué)習(xí)的特征生成框架自動(dòng)生成特征,能夠彌補(bǔ)人工定義特征的局限性。

DNN文本類(lèi)數(shù)據(jù)特征提取框架

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

首先說(shuō)文本類(lèi)數(shù)據(jù)特征提取框架。 金融風(fēng)控過(guò)程中其實(shí)會(huì)遇到很多這樣的非結(jié)構(gòu)化數(shù)據(jù),比方說(shuō)申請(qǐng)資料的文本信息,或者是經(jīng)過(guò)授信和合規(guī)要求的通訊文本。對(duì)于這些文本的分析,NLP領(lǐng)域其實(shí)已經(jīng)有一些很成熟的技術(shù),比如說(shuō)CNN。而在金融場(chǎng)景中也能提取一些特征。如果這些特征能進(jìn)入接下來(lái)的分類(lèi)網(wǎng)絡(luò)中去,它也可以去學(xué)習(xí)到好人或者壞人的特征。

實(shí)踐的第一步是文本數(shù)據(jù)預(yù)處理,提取分詞或者是關(guān)鍵詞,并將每一個(gè)詞做向量化的表示,然后這些向量化表示會(huì)進(jìn)入一個(gè)卷積神經(jīng)網(wǎng)絡(luò),并從這個(gè)卷積神經(jīng)網(wǎng)絡(luò)中去提取特征。下一步,這些特征會(huì)進(jìn)入一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)分類(lèi),做成分類(lèi)器。 

此外,嵌入學(xué)習(xí)在其中也展現(xiàn)了很大作用。雖然我們用小規(guī)模文本庫(kù)去學(xué)習(xí)詞向量來(lái)做特征也不是不可以,但是我們發(fā)現(xiàn)如果使用業(yè)界比較成熟的大規(guī)模語(yǔ)料庫(kù),能提升特征提取的性能。

DNN時(shí)序類(lèi)數(shù)據(jù)特征提取框架

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

另一個(gè)例子是時(shí)序類(lèi)數(shù)據(jù)特征提取框架,一句話來(lái)說(shuō)就是,合并學(xué)習(xí)不同周期和時(shí)序模式的循環(huán)神經(jīng)子網(wǎng)絡(luò),有效捕捉時(shí)序數(shù)據(jù)的特征隱含信息及不同時(shí)序模式下的協(xié)同影響 。

在實(shí)際中我們會(huì)遇到一些問(wèn)題,比如并沒(méi)有那么大的工作量去了解每一塊的數(shù)據(jù)具體是什么樣子的,分布是什么樣的, 特征可以怎么提取。所以時(shí)序類(lèi)的特征其實(shí)可以借鑒深度學(xué)習(xí)里的長(zhǎng)短時(shí)記憶技術(shù)來(lái)做相同的事情,去做時(shí)間序列的分析。它主要考慮就在NLP里,用在文本比較多,就是說(shuō)上下文之間是有關(guān)系的,根據(jù)這樣的關(guān)系來(lái)構(gòu)建一個(gè)提取特征的網(wǎng)絡(luò),我們把這樣的思路借鑒到了通訊記錄或者是交易記錄當(dāng)中。

在實(shí)際應(yīng)用中,時(shí)序類(lèi)特征可能是通話記錄或者交易記錄,所以它的特征不只是在一個(gè)階段面上去提取,還在時(shí)間軸上去提取。金融場(chǎng)景中,我們把通話記錄分成了不同的周期,按照不同的周期構(gòu)建了三個(gè)LSTM子網(wǎng)絡(luò),并且會(huì)對(duì)這三個(gè)時(shí)序模式LSTM子網(wǎng)絡(luò)做一個(gè)混合, 這樣能大大減少時(shí)序數(shù)據(jù)分析和提取特征的工作量。

融合機(jī)器和專(zhuān)家經(jīng)驗(yàn),實(shí)現(xiàn)全量?jī)r(jià)值提取

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

這里還要提到一點(diǎn),雖然剛才一直提深度學(xué)習(xí)特征,但是專(zhuān)家的特征也很重要。我們會(huì)融合機(jī)器和專(zhuān)家經(jīng)驗(yàn),實(shí)現(xiàn)全量?jī)r(jià)值提取。因?yàn)槲覀兿嘈艑?zhuān)家多年積累下來(lái)的成熟的風(fēng)險(xiǎn)評(píng)估方法也很有效?;谏疃葘W(xué)習(xí)的特征智能生成框架,使用不同網(wǎng)絡(luò)結(jié)構(gòu)擬合不同的數(shù)據(jù)類(lèi)型,自動(dòng)從龐雜、非結(jié)構(gòu)化的數(shù)據(jù)中生成高質(zhì)量的深度學(xué)習(xí)特征,并且與專(zhuān)家人工特征結(jié)合共同融入模型。融合特征才會(huì)交給下一步模型去學(xué)習(xí)。

集成模型:最大化AI與現(xiàn)有業(yè)務(wù)的結(jié)合深度

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

前面已經(jīng)說(shuō)了數(shù)據(jù)和特征,現(xiàn)在說(shuō)集成模型。

集成學(xué)習(xí)模型的優(yōu)勢(shì)表現(xiàn)在兩點(diǎn):

  • 不同維度/領(lǐng)域的數(shù)據(jù)具有不同的特點(diǎn) ,需要使用不同的建模方法,集成學(xué)習(xí)框架可以支持不同類(lèi)型模型算法作為子模型。集成模型成果已經(jīng)很多,所以用集成模型會(huì)幫助提高模型的性能是毋庸置疑的。

  • 此外,在實(shí)際做金融風(fēng)控的時(shí)候,從一個(gè)用戶的角度來(lái)講,我們能看到很多金融產(chǎn)品,例如分期產(chǎn)品或者消費(fèi)金融產(chǎn)品,不同產(chǎn)品額度上也會(huì)不同,客群不同,獲客渠道也不同(線上獲客、地推獲客)。面對(duì)不同的業(yè)務(wù)方式時(shí),我們最終要抓住的壞人也是完全不同的,所以這要求我們構(gòu)建不同的模型。那么這是不是要求我們面對(duì)不同業(yè)務(wù)場(chǎng)景都要從零開(kāi)始去做數(shù)據(jù)、特征、建模呢?

    并非如此。單獨(dú)領(lǐng)域的子模型可以快速遷移應(yīng)用到新業(yè)務(wù)領(lǐng)域,實(shí)現(xiàn)快速成型和持續(xù)優(yōu)化。

這在實(shí)踐中最好的應(yīng)用就是冷啟動(dòng),對(duì)于一個(gè)新上的業(yè)務(wù),所遇的壞人與以往的業(yè)務(wù)是完全不一樣的,壞人所采取的欺詐手段也是完全不同,但是因?yàn)橛昧思赡P?,有些特征、?shù)據(jù)、模型經(jīng)驗(yàn)都是可以借鑒的,這會(huì)有很大的幫助。

集成學(xué)習(xí)模型在大型現(xiàn)金貸場(chǎng)景的實(shí)際應(yīng)用

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

上圖對(duì)之前的內(nèi)容做了一個(gè)匯總。數(shù)據(jù)有結(jié)構(gòu)化、非結(jié)構(gòu)化之分,并根據(jù)不同數(shù)據(jù)的特點(diǎn)進(jìn)入不同的特征提取框架。和關(guān)系比較近的數(shù)據(jù),用網(wǎng)絡(luò)關(guān)聯(lián)特征的方法去提取;有些數(shù)據(jù)是文本、圖像,用卷積神經(jīng)網(wǎng)絡(luò)的方法去提?。粫r(shí)序類(lèi)的數(shù)據(jù),用LSTM方法去提取特征 ;還有專(zhuān)家人工特征提取框架。

綜合特征提取框架,綜合評(píng)估產(chǎn)生三種風(fēng)險(xiǎn)評(píng)分:行為風(fēng)險(xiǎn)、社交風(fēng)險(xiǎn)、語(yǔ)義風(fēng)險(xiǎn)。 

  • 社交風(fēng)險(xiǎn)其實(shí)主要是從網(wǎng)絡(luò)關(guān)聯(lián)特征體系框架這一塊延伸上來(lái)的。

  • 行為風(fēng)險(xiǎn)主要從互聯(lián)網(wǎng)的行為、運(yùn)營(yíng)商這一塊延伸上來(lái)。

  • 語(yǔ)義風(fēng)險(xiǎn)主要從申請(qǐng)資料、通訊文本兩方面來(lái)評(píng)估。

最后根據(jù)這三塊風(fēng)險(xiǎn)做一個(gè)集成模型,然后給出違約概率。

集成模型能提高性能,氪信之前將集成模型應(yīng)用到大型消費(fèi)金融場(chǎng)景中。他們之前的風(fēng)控用到的特征也不多,判斷模型的分類(lèi)性能的 KS值指標(biāo)也比較一般。在和我們合作后,運(yùn)用了剛才提到的技術(shù)和框架,模型的性能提升還是非常明顯的,KS值從0.19提升到0.35。從業(yè)務(wù)來(lái)看,他們的壞賬率直接下降了46%。

基于網(wǎng)絡(luò)的反欺詐應(yīng)對(duì)線上群體欺詐

氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

接下來(lái)再說(shuō)說(shuō)基于網(wǎng)絡(luò)的反欺詐。舉個(gè)虛假申請(qǐng)的例子。

某個(gè)人通過(guò)篡改個(gè)人資料,提出貸款的申請(qǐng),這個(gè)可以通過(guò)交叉驗(yàn)證來(lái)判斷此人的風(fēng)險(xiǎn)等級(jí)。

但是在另一個(gè)場(chǎng)景,比如有人申請(qǐng)資料時(shí),用的完全是張三的資料,因?yàn)閺埲娘L(fēng)險(xiǎn)評(píng)級(jí)很安全。這種情況下對(duì)于金融這風(fēng)控機(jī)構(gòu)而言,評(píng)估是比較困難的。如果沒(méi)有人工介入,這個(gè)人的風(fēng)險(xiǎn)評(píng)估都是基于張三的信息來(lái)做的。對(duì)于這種虛假的申請(qǐng),若只根據(jù)個(gè)體的資料去判斷,難度是相當(dāng)大的。但是把他放到社交網(wǎng)絡(luò)中情況會(huì)不同。不同的人共享了相同的屬性或者相同的資料,那么我們就會(huì)有風(fēng)險(xiǎn)的疑慮。

還有群體欺詐。這主要是說(shuō)在時(shí)間或者空間上的高頻率焦點(diǎn),或是高頻率申請(qǐng)。一個(gè)簡(jiǎn)單的例子,我們發(fā)現(xiàn)申請(qǐng)資料的數(shù)量大得超出歷史,然后這些申請(qǐng)資料,比方說(shuō)手機(jī)定位的位置都來(lái)自于同一個(gè)地區(qū),如果能排除線下獲客的可能,這會(huì)是很奇怪的一件事情,存在很高的群體欺詐風(fēng)險(xiǎn)。

 氪信資深數(shù)據(jù)科學(xué)家主講:如何構(gòu)建基于AI的金融風(fēng)控系統(tǒng) | 雷鋒網(wǎng)公開(kāi)課

前面也已經(jīng)提及了兩個(gè)社交網(wǎng)絡(luò)中交叉驗(yàn)證的例子。這里展示的是網(wǎng)絡(luò)反欺詐流程。

首先收集數(shù)據(jù),然后構(gòu)建網(wǎng)絡(luò),基于這樣的特征進(jìn)行社交網(wǎng)絡(luò)分析,構(gòu)建反欺詐的規(guī)則。當(dāng)然也會(huì)把這樣的可視化展示給專(zhuān)家,專(zhuān)家會(huì)從可視化的社交網(wǎng)絡(luò)中發(fā)現(xiàn)一些規(guī)則,然后利用這些規(guī)則去做早期反欺詐預(yù)警,包括把這些規(guī)則當(dāng)作一個(gè)特征放到反欺詐模型當(dāng)中。 

一方面,社交網(wǎng)絡(luò)分析可以去做規(guī)則、模型,另一方面是它的可視化可以幫助我們?nèi)谌雽?zhuān)家的力量。所以這將構(gòu)成一個(gè)閉環(huán)。我們從網(wǎng)絡(luò)當(dāng)中學(xué)習(xí)到了特征、運(yùn)用的規(guī)則,專(zhuān)家會(huì)從規(guī)則當(dāng)中獲得啟發(fā),并提出新的規(guī)則,規(guī)則反饋給網(wǎng)絡(luò),告訴網(wǎng)絡(luò)什么關(guān)系是值得懷疑的,這會(huì)是一個(gè)良性的循環(huán)。

我的分享就到這里,謝謝大家。

雷鋒網(wǎng)公開(kāi)課視頻實(shí)錄    

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

數(shù)據(jù)漫游天地間。 聯(lián)系可通過(guò)上方郵箱或WeChat(請(qǐng)注明身份、姓名、來(lái)意,thx)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄