丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
金融科技 正文
發(fā)私信給陳伊莉
發(fā)送

0

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

本文作者: 陳伊莉 編輯:溫曉樺 2017-04-19 23:07 專題:雷峰網公開課
導語:金融大數(shù)據(jù)與人工智能算法紛繁復雜,如何基于海量高緯數(shù)據(jù)構建精準深度學習模型,有效識別、打擊欺詐黑產?

高風險、高收益是金融行業(yè)永恒的標簽。也因如此,金融行業(yè)非常重視風控。據(jù)多位資深金融人士表示,從事風控后,他們總是處于戰(zhàn)戰(zhàn)兢兢的憂慮中。他們上一次大規(guī)模的憂慮發(fā)生在十幾年前。世紀之交的美國缺乏對于風控意義的認知,明明借著互聯(lián)網的東風卻在半途摔了個七零八落。

新科技的出現(xiàn)必然會對原行業(yè)產生一定影響。技術無所謂利弊,問題在于人的使用。在風控得到足夠重視,AI成為最熱門科技的現(xiàn)在,諸多從業(yè)人士不由得開始思考AI的應用價值,如何將AI與風控相結合并發(fā)揮出其積極作用?

本期雷鋒網公開課邀請到氪信資深數(shù)據(jù)科學家朱敏來分享他的從業(yè)經驗,深度講解如何構建基于AI的金融風控系統(tǒng)。

嘉賓簡介:

朱敏,氪信資深數(shù)據(jù)科學家,深耕應用統(tǒng)計和數(shù)據(jù)挖掘領域。復旦大學生物統(tǒng)計學碩士,曾任職PayPal高級分析師,負責核心風險控制數(shù)據(jù)變量、排序策略、評價指標的設計研發(fā),并在反欺詐策略、行為特征等方面擁有豐富的研究經驗。曾任職eBay數(shù)據(jù)分析師,負責AB測試與搜索算法的評估。多年以來專注金融統(tǒng)計和風險評估算法研究,在互聯(lián)網級別的機器學習算法和統(tǒng)計理論商業(yè)應用領域有著豐富的理論研究和實踐經驗。

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

以下是本次公開課實錄,雷鋒網做了不改變原意的編輯:

今天給大家分享的主題是AI在金融風控領域的工業(yè)應用,我主要負責數(shù)據(jù)和模型,所以今天的公開課除了分享宏觀想法,在具體實踐方面也會比較偏模型和數(shù)據(jù)。其實這個主題是非常大的topic,所以會聚焦到金融尤其是消費金融領域,闡述我們氪信是怎樣利用互聯(lián)網、機器學習和人工智能技術和經驗去解決實際問題的。

金融AI時代已到來?

首先我想跟大家分享三個數(shù)字——40萬億消費信貸、35%征信覆蓋以及44ZB數(shù)據(jù)。

有資料顯示,2019年中國的消費信貸市場會達到40萬億,而在2015年這個數(shù)字還只是20萬億,這幾年都保持著很高的增長速度。我們可以看到市場規(guī)模很大,并且在不斷變大。 

而征信覆蓋率并沒有保持與市場規(guī)模的同步。第二個數(shù)字是35%,這是指消費金融領域只有35%的客戶是有征信記錄的,剩下65%沒有信用記錄,所以并不能用傳統(tǒng)、成熟的風險評估方法去評估這些人的風險。

第三個要分享的數(shù)字是44ZB。對于65%沒有傳統(tǒng)征信數(shù)據(jù)的這類人,我們可以收集其他相關數(shù)據(jù)去評估,這相關數(shù)據(jù)可能是申請資料、互聯(lián)網使用記錄、通信記錄等。而由于現(xiàn)在硬件的發(fā)展、數(shù)據(jù)收集的自動化,我們是可以收集到很多數(shù)據(jù)的,這個數(shù)據(jù)量也很龐大。大數(shù)據(jù)一方面是好事,另一方面也是一個難題,例如怎么運用一些技術手段從大量的數(shù)據(jù)中提取信息。而我們覺得消費金融是切入AI商業(yè)場景一個很好的契機。

大數(shù)據(jù)時代金融風控之痛

大數(shù)據(jù)時代金融風控市場規(guī)模大,需求旺盛,但要解決的問題很多。

從技術層面上來講,有三個問題。

  • 第一是價值困境,雖然已經意識到了大數(shù)據(jù)的價值,但不知如何實踐,怎樣從數(shù)據(jù)中挖掘出有用的信息。

  • 第二是高維困境,對于65%未被傳統(tǒng)征信覆蓋的人群來說,他們的特征維度非常高,往往會產生上千維變量,那么該如何處理高位特征,如何將其有效融合,形成1+1>2效果?

  • 第三,敏捷困境。在人工智能和風險評估不斷發(fā)展的同時,我們的敵人的欺詐演變速度也非???。一旦發(fā)現(xiàn)了業(yè)務上的一個漏洞,它就會去鉆模型的缺陷,利用缺陷來達到利益最大化。而單一的個體欺詐也正在演變成有組織、有規(guī)模的群體欺詐。

從戰(zhàn)略層面來說,以上問題帶來的后果是風控決策低效耗時,員工成本會很高,壞賬率則更高。在金融場景里,一定需要人工智能、機器學習去幫助解決問題。

構建基于AI的金融風控系統(tǒng)

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

上圖展示了一個理想的基于AI的金融風控系統(tǒng)。從左往右講,我們一開始會去收集各個層面的數(shù)據(jù)源,這些數(shù)據(jù)源里包括交易數(shù)據(jù)、高價值黑名單,這些都是比較常見的傳統(tǒng)信用數(shù)據(jù)。此外,我們也會搜集互聯(lián)網行為、運營商數(shù)據(jù)、信貸申請資料等。

不同的數(shù)據(jù)源融合到一起的時候也會借鑒知識圖譜技術,在知識圖譜之上再去構建高價值金融屬性的特征。

數(shù)據(jù)融合后有上千維度特征,接著我們會做一個基于深度學習的特征加工工程。再下一步是構建模型,這里列出了一些非常主流的機器學習、深度學習模型,像XGBoost或者是深度神經網絡,這些模型再加上已經加工出的高價值金融特征,我們覺得這樣就可以解決實際金融風控當中會遇到的問題。

而在解決問題過程中,經驗會被抽象化,所以我們也會把這些經驗轉變成一個產品。上圖列出了幾個風控引擎,包括把剛剛提到的金融特征做成特征引擎、模型引擎、規(guī)則引擎,這些產品會幫助我們更好地積累數(shù)據(jù),也更好地把已經積累的經驗應用到更多場景中去。

接下來的內容也會按照這個模型來講,首先是數(shù)據(jù)管理,關鍵字就是金融的知識圖譜。第二部分是基于深度學習的特征工程。最后是集成模型,就是我們怎樣把這些數(shù)據(jù)特征構建成一個分類模型來幫助我們判斷。

知識圖譜:重新定義金融數(shù)據(jù)架構體系

首先看知識圖譜。知識圖譜是谷歌在2012年5月發(fā)展出來的可以將搜索結果進行知識系統(tǒng)化,任何一個關鍵詞都能獲得完整的知識體系。本質是一個語義網絡,是一個基于圖的數(shù)據(jù)結構。在知識圖譜當中,實體會被表示成一個節(jié)點,節(jié)點和節(jié)點之間會用關系來連接,所以這個構造方式和傳統(tǒng)關系型數(shù)據(jù)網絡是完全不同的。

在金融場景里,相比于傳統(tǒng)的關系型數(shù)據(jù)庫,它存在一些優(yōu)點。

首先,金融知識圖譜可擴展性更強。我們收集到的數(shù)據(jù)源無論是從結構上還是內容上來說,其實都有很大差別。如何管理這些不同結構和內容的數(shù)據(jù)源從來就是關系數(shù)據(jù)庫一個大問題。

但是如果把所有的數(shù)據(jù)和知識都表示成知識圖譜可以接受的結構,我們就可以把異質異構的數(shù)據(jù)統(tǒng)一融合在一起。無論是新的數(shù)據(jù)源變化,還是原有數(shù)據(jù)源的數(shù)據(jù)結構發(fā)生變動,都可以靈活地調整。這個靈活也是基于知識圖譜的特點,無論是對于節(jié)點還是對于關系而言,增加或者更改它的屬性都是非常靈活的。

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

從上圖中,我們可以看到在金融風控中用到的數(shù)據(jù)還是很多的,包括歷史積累數(shù)據(jù)、實時數(shù)據(jù)、第三方數(shù)據(jù)。分類方法當然有很多,但無論是怎么去看數(shù)據(jù)格式、結構都會完全不一樣。

如果構建到統(tǒng)一的金融圖譜當中去,對于下游的特征加工和模型其實會有很大幫助。對于數(shù)據(jù)庫某一個數(shù)據(jù)結構的依賴就不是那么強,我們只要優(yōu)化金融知識圖譜的知識結構,工作中的相關問題都可以得到解決。

基于知識圖譜的社交網絡分析

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

金融知識圖譜的第二個優(yōu)點從上圖中就可以看出來,知識圖譜比較直接。用戶面對的關系型數(shù)據(jù)庫主要是表。而知識圖譜可以將這些關系構建成圖,更加可視化。 

反欺詐是很重要的一點,在反欺詐中我們經常會做交叉驗證。一個用戶有來自不同數(shù)據(jù)源的特征,如果它們描述的是同一件事情,那我可以去對它們做一個驗證。如果這個進程中出現(xiàn)了矛盾,我們會覺得這個人的風險等級偏高。我們設想了一個場景,在這個場景下單獨個體的數(shù)據(jù)源比較單一,在這種情況下,交叉驗證是根本沒有辦法發(fā)現(xiàn)矛盾的。而知識圖譜可以幫助我們。

上圖兩個例子印證了知識圖譜的可視化和表現(xiàn)力。先看左邊,我們要去判斷這幅圖中藍點這個人的風險等級,我們能夠拿到此人相關的信息有手機號、郵箱等。從這個個體的單一信息上面來看,其實很難判斷他的風險等級的高低,但是如果我們把他置于一個網絡,比較個體和個體的話,我們會發(fā)現(xiàn)一個有意思的地方——他的郵箱和好幾個其他個體的郵箱是相同的,并且這幾個人在我們的判斷中已經是壞人,那么對于這個申請用戶風險等級也就有了一個判斷。

右邊還有一個判斷用戶風險的例子。如果只看他的手機號或者郵箱,目前比較成熟的方法是去看郵箱是不是亂碼注冊的或者其他。而把他置于網絡中后,我們會發(fā)現(xiàn)他的手機號和很多用戶的手機號都有聯(lián)系,并且都是單向的聯(lián)系。那這個其實是很明顯的特征——騷擾電話,類似中介或者是廣告騷擾?;谶@一點,也可以形成對于這個人的風險等級判斷。

這兩個例子都很好展示了知識圖譜能夠包含更多的信息量。這個信息量是可視化的,如果有專家人工去看這些案例的話,會從中找到一些特征來判斷這個人的風險等級高低。而在一些先進算法的作用下,可以自動地從社交網絡中發(fā)現(xiàn)一些特征,自動判斷哪些是好人哪些是壞人。

深度學習:超越人工定義的深度以窮盡風險

接下來討論一下特征。數(shù)據(jù)量大,維度很高是消費金融風控必然會遇到的實際問題。此外,還會遇到很多非結構化數(shù)據(jù),例如文本、圖像等。這些都不是傳統(tǒng)征信會遇到的問題,而這在深度學習領域會有一些很成熟的應用。

深度學習的本質是特征學習的過程。對于人工難以加工的海量非結構化數(shù)據(jù),基于深度學習的特征生成框架自動生成特征,能夠彌補人工定義特征的局限性。

DNN文本類數(shù)據(jù)特征提取框架

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

首先說文本類數(shù)據(jù)特征提取框架。 金融風控過程中其實會遇到很多這樣的非結構化數(shù)據(jù),比方說申請資料的文本信息,或者是經過授信和合規(guī)要求的通訊文本。對于這些文本的分析,NLP領域其實已經有一些很成熟的技術,比如說CNN。而在金融場景中也能提取一些特征。如果這些特征能進入接下來的分類網絡中去,它也可以去學習到好人或者壞人的特征。

實踐的第一步是文本數(shù)據(jù)預處理,提取分詞或者是關鍵詞,并將每一個詞做向量化的表示,然后這些向量化表示會進入一個卷積神經網絡,并從這個卷積神經網絡中去提取特征。下一步,這些特征會進入一個全連接的神經網絡去學習分類,做成分類器。 

此外,嵌入學習在其中也展現(xiàn)了很大作用。雖然我們用小規(guī)模文本庫去學習詞向量來做特征也不是不可以,但是我們發(fā)現(xiàn)如果使用業(yè)界比較成熟的大規(guī)模語料庫,能提升特征提取的性能。

DNN時序類數(shù)據(jù)特征提取框架

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

另一個例子是時序類數(shù)據(jù)特征提取框架,一句話來說就是,合并學習不同周期和時序模式的循環(huán)神經子網絡,有效捕捉時序數(shù)據(jù)的特征隱含信息及不同時序模式下的協(xié)同影響 。

在實際中我們會遇到一些問題,比如并沒有那么大的工作量去了解每一塊的數(shù)據(jù)具體是什么樣子的,分布是什么樣的, 特征可以怎么提取。所以時序類的特征其實可以借鑒深度學習里的長短時記憶技術來做相同的事情,去做時間序列的分析。它主要考慮就在NLP里,用在文本比較多,就是說上下文之間是有關系的,根據(jù)這樣的關系來構建一個提取特征的網絡,我們把這樣的思路借鑒到了通訊記錄或者是交易記錄當中。

在實際應用中,時序類特征可能是通話記錄或者交易記錄,所以它的特征不只是在一個階段面上去提取,還在時間軸上去提取。金融場景中,我們把通話記錄分成了不同的周期,按照不同的周期構建了三個LSTM子網絡,并且會對這三個時序模式LSTM子網絡做一個混合, 這樣能大大減少時序數(shù)據(jù)分析和提取特征的工作量。

融合機器和專家經驗,實現(xiàn)全量價值提取

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

這里還要提到一點,雖然剛才一直提深度學習特征,但是專家的特征也很重要。我們會融合機器和專家經驗,實現(xiàn)全量價值提取。因為我們相信專家多年積累下來的成熟的風險評估方法也很有效?;谏疃葘W習的特征智能生成框架,使用不同網絡結構擬合不同的數(shù)據(jù)類型,自動從龐雜、非結構化的數(shù)據(jù)中生成高質量的深度學習特征,并且與專家人工特征結合共同融入模型。融合特征才會交給下一步模型去學習。

集成模型:最大化AI與現(xiàn)有業(yè)務的結合深度

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

前面已經說了數(shù)據(jù)和特征,現(xiàn)在說集成模型。

集成學習模型的優(yōu)勢表現(xiàn)在兩點:

  • 不同維度/領域的數(shù)據(jù)具有不同的特點 ,需要使用不同的建模方法,集成學習框架可以支持不同類型模型算法作為子模型。集成模型成果已經很多,所以用集成模型會幫助提高模型的性能是毋庸置疑的。

  • 此外,在實際做金融風控的時候,從一個用戶的角度來講,我們能看到很多金融產品,例如分期產品或者消費金融產品,不同產品額度上也會不同,客群不同,獲客渠道也不同(線上獲客、地推獲客)。面對不同的業(yè)務方式時,我們最終要抓住的壞人也是完全不同的,所以這要求我們構建不同的模型。那么這是不是要求我們面對不同業(yè)務場景都要從零開始去做數(shù)據(jù)、特征、建模呢?

    并非如此。單獨領域的子模型可以快速遷移應用到新業(yè)務領域,實現(xiàn)快速成型和持續(xù)優(yōu)化。

這在實踐中最好的應用就是冷啟動,對于一個新上的業(yè)務,所遇的壞人與以往的業(yè)務是完全不一樣的,壞人所采取的欺詐手段也是完全不同,但是因為用了集成模型,有些特征、數(shù)據(jù)、模型經驗都是可以借鑒的,這會有很大的幫助。

集成學習模型在大型現(xiàn)金貸場景的實際應用

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

上圖對之前的內容做了一個匯總。數(shù)據(jù)有結構化、非結構化之分,并根據(jù)不同數(shù)據(jù)的特點進入不同的特征提取框架。和關系比較近的數(shù)據(jù),用網絡關聯(lián)特征的方法去提??;有些數(shù)據(jù)是文本、圖像,用卷積神經網絡的方法去提??;時序類的數(shù)據(jù),用LSTM方法去提取特征 ;還有專家人工特征提取框架。

綜合特征提取框架,綜合評估產生三種風險評分:行為風險、社交風險、語義風險。 

  • 社交風險其實主要是從網絡關聯(lián)特征體系框架這一塊延伸上來的。

  • 行為風險主要從互聯(lián)網的行為、運營商這一塊延伸上來。

  • 語義風險主要從申請資料、通訊文本兩方面來評估。

最后根據(jù)這三塊風險做一個集成模型,然后給出違約概率。

集成模型能提高性能,氪信之前將集成模型應用到大型消費金融場景中。他們之前的風控用到的特征也不多,判斷模型的分類性能的 KS值指標也比較一般。在和我們合作后,運用了剛才提到的技術和框架,模型的性能提升還是非常明顯的,KS值從0.19提升到0.35。從業(yè)務來看,他們的壞賬率直接下降了46%。

基于網絡的反欺詐應對線上群體欺詐

氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

接下來再說說基于網絡的反欺詐。舉個虛假申請的例子。

某個人通過篡改個人資料,提出貸款的申請,這個可以通過交叉驗證來判斷此人的風險等級。

但是在另一個場景,比如有人申請資料時,用的完全是張三的資料,因為張三的風險評級很安全。這種情況下對于金融這風控機構而言,評估是比較困難的。如果沒有人工介入,這個人的風險評估都是基于張三的信息來做的。對于這種虛假的申請,若只根據(jù)個體的資料去判斷,難度是相當大的。但是把他放到社交網絡中情況會不同。不同的人共享了相同的屬性或者相同的資料,那么我們就會有風險的疑慮。

還有群體欺詐。這主要是說在時間或者空間上的高頻率焦點,或是高頻率申請。一個簡單的例子,我們發(fā)現(xiàn)申請資料的數(shù)量大得超出歷史,然后這些申請資料,比方說手機定位的位置都來自于同一個地區(qū),如果能排除線下獲客的可能,這會是很奇怪的一件事情,存在很高的群體欺詐風險。

 氪信資深數(shù)據(jù)科學家主講:如何構建基于AI的金融風控系統(tǒng) | 雷鋒網公開課

前面也已經提及了兩個社交網絡中交叉驗證的例子。這里展示的是網絡反欺詐流程。

首先收集數(shù)據(jù),然后構建網絡,基于這樣的特征進行社交網絡分析,構建反欺詐的規(guī)則。當然也會把這樣的可視化展示給專家,專家會從可視化的社交網絡中發(fā)現(xiàn)一些規(guī)則,然后利用這些規(guī)則去做早期反欺詐預警,包括把這些規(guī)則當作一個特征放到反欺詐模型當中。 

一方面,社交網絡分析可以去做規(guī)則、模型,另一方面是它的可視化可以幫助我們融入專家的力量。所以這將構成一個閉環(huán)。我們從網絡當中學習到了特征、運用的規(guī)則,專家會從規(guī)則當中獲得啟發(fā),并提出新的規(guī)則,規(guī)則反饋給網絡,告訴網絡什么關系是值得懷疑的,這會是一個良性的循環(huán)。

我的分享就到這里,謝謝大家。

雷鋒網公開課視頻實錄    

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章

編輯

數(shù)據(jù)漫游天地間。 聯(lián)系可通過上方郵箱或WeChat(請注明身份、姓名、來意,thx)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說