0
| 本文作者: 張馳 | 2016-11-03 19:06 | 專題:雷峰網(wǎng)公開課 |

一個普遍的看法是,機器學習等人工智能技術會最先在金融領域落地。金融行業(yè)是最早實現(xiàn)信息化的行業(yè),有豐富的數(shù)據(jù)積累,且對于用技術提升效率有更多的需求。
現(xiàn)在也有越來越多的公司開始使用機器學習技術實現(xiàn)自動風險管理與放貸。但機器學習在風控中的作用究竟如何,有哪些關鍵技術,其優(yōu)勢與缺點又有哪些呢?本期硬創(chuàng)公開課,雷鋒網(wǎng)邀請百融金服風險總監(jiān)鄭宏洲,來講講機器學習與大數(shù)據(jù)風控的那些事。
鄭宏洲,百融金服風險總監(jiān)。國內商業(yè)銀行模型團隊多年管理經(jīng)驗,專注于大數(shù)據(jù)機器學習、信貸風險策略、模型評分管理等風控領域。從事大數(shù)據(jù)分析和信貸風險管理近十年,在金融行業(yè)的數(shù)據(jù)分析、平臺架構、模型研究和風險策略等方面有深刻的理解。帶領團隊搭建多家銀行風控體系,負責風控量化管理和風險策略優(yōu)化多年。

雷鋒網(wǎng):今年人工智能很火,機器學習與深度學習等詞甚至被很多非業(yè)內人熟知,那金融行業(yè)對機器學習的態(tài)度是怎么樣的?
鄭宏洲:講這個話題之前,我覺得我們需要先把一些名詞稍微界定一下。我們今天討論的金融行業(yè),主要討論的是零售信貸行業(yè)。機器學習這個概念也比較大,簡單的說是利用計算機模擬或實現(xiàn)人類的學習行為,解決實際決策問題的方法論。深度學習屬于機器學習中的一種,廣義來說,像信貸評分中的邏輯回歸等統(tǒng)計方法,也可認為是機器學習中的一種。而我們今天談的機器學習主要是狹義的概念,即基于非統(tǒng)計原理的數(shù)據(jù)挖掘方法。
那么信貸行業(yè)對機器學習的態(tài)度可以說既擁護又謹慎?,F(xiàn)代成熟的信貸企業(yè),更多是依賴自動化的方式。例如:信貸風險管理,其核心是量化風險。在量化風險過程中,實際采用了相當多的統(tǒng)計分析技術。以信貸評分卡為例,方法論上和今天討論的機器學習有很多共通之處,它都是解決分類問題。只是金融信貸行業(yè)可能會從業(yè)務的角度去出發(fā),關鍵是尋找解決問題的方法,對新方法和理論有很多期待,因此金融信貸行業(yè)從來對機器學習是擁護的態(tài)度。另外一方面,因為金融和貨幣掛鉤,在很多關鍵技術上的使用上會比較謹慎,對安全性和規(guī)范性要求更高,因此從這個角度上看,會表現(xiàn)為對新技術上的謹慎態(tài)度。
雷鋒網(wǎng):機器學習在金融中的應用有哪些?
鄭宏洲:機器學習在金融中的應用很廣,例如:投資領域會用來做量化投資、高頻交易;保險行業(yè)做營銷獲客和精算定損;信貸信用管理做信貸評分卡、風險策略等等;信貸反欺詐用它做人臉識別和語音識別等等。機器學習幾乎在每一個有數(shù)據(jù)的場景都有應用。它主要是區(qū)別于純粹人工經(jīng)驗去做決策。
雷鋒網(wǎng):目前來說,機器學習在大數(shù)據(jù)風控中是怎么樣的地位?作用多大?
鄭宏洲:我們知道,風控是信貸管理業(yè)務中的重要組成部分。風控按形式,可以分為傳統(tǒng)人工風控和量化風控。大數(shù)據(jù)風控是量化風控的一種新形式,出現(xiàn)主要的條件是,現(xiàn)代社會是一個信息社會,在信息和數(shù)據(jù)上極大的膨脹,這給我們有更全面衡量個體風險的機會。
大數(shù)據(jù)風控,這是依托于海量的數(shù)據(jù)去判斷借款人的信貸風險,這就決定了它比傳統(tǒng)方法更依賴于技術方法去處理,同時大數(shù)據(jù)時常伴隨著高維度稀疏性等特點,這決定了機器學習是實現(xiàn)這一場景的核心方法。
區(qū)別于傳統(tǒng)風控技術,大數(shù)據(jù)風控是在方法論上做了相應的革新。風險,即不確定性。風險管理實際上就是做量化風險。大數(shù)據(jù)風控是將貸款主體各個方面的屬性維度做全面風險的量化。它的主流技術滲透到量化風險的整個流程中去,包括貸前、貸中、貸后以及營銷獲客等全生命周期的管理。機器學習作為大數(shù)據(jù)風控的顯著特征出現(xiàn),充當著重要的技術更新角色。通過它去解決傳統(tǒng)方法無法解決的問題,它是大數(shù)據(jù)價值變現(xiàn)的重要工具,機器學習的技術水平在某種程度上是一家大數(shù)據(jù)公司的核心競爭力。
雷鋒網(wǎng):機器學習用于風控,有哪些較為成熟的技術方案嗎,主流的技術途徑又有哪些?
鄭宏洲: 機器學習按大類分監(jiān)督學習和非監(jiān)督學習。用于風控領域,實際上這兩種都用到了,其中監(jiān)督學習通常作為主要手段解決問題,非監(jiān)督學習主要作為輔助方法。對于監(jiān)督學習中,根據(jù)分類器選擇不同又形成不同的方法,監(jiān)督學習中目前比較成熟的,包含決策樹、支持向量機、隨機森林、adaboost、gbdt等技術方案。而主流的技術,像隨機森林、gbdt,目前被業(yè)內廣泛應用。它們各自適用于不同的具體數(shù)據(jù)情況,在特定的業(yè)務場景上會發(fā)揮獨特的效果。
雷鋒網(wǎng):您個人比較看好哪些機器學習技術(用于金融領域)嗎?
鄭宏洲:機器學習仍在發(fā)展中,個人比較看好深度學習。目前深度學習主要還是應用在解決非結構數(shù)據(jù)的分類問題上。例如圖像識別、語音識別等領域,包括像我們熟悉的人工智能領域的AlphaGo。深度學習比其它機器學習能構造出更多的特征層,更有效地發(fā)現(xiàn)模式和規(guī)律。
每項技術都伴隨業(yè)務發(fā)展需要而體現(xiàn)自身的價值。對應到信貸領域,人臉識別、語音識別被廣泛用在反欺詐驗真環(huán)節(jié)。在金融領域,反欺詐實際上有更多機器學習發(fā)揮的空間。這是因為反欺詐的特點在于行為的隱蔽性、稀釋性。群體壞樣本小量但聚集,對傳統(tǒng)方法提出了很多挑戰(zhàn),除了驗真環(huán)節(jié),反欺詐模型上也更適合使用機器學習方法。它對模型的精準度和誤判率都有相當?shù)囊螅诜€(wěn)定性上有挑戰(zhàn)。
雷鋒網(wǎng):在考慮使用機器學習做風控時,有哪些評判指標及技術指標?
鄭宏洲:機器學習的方法有很多,在風控管理上的應用也有很多種場景。對于每一種機器學習技術,其評判的指標和技術標準都不一樣。我們下面來舉一個常見的應用場景,風險評分,它預測一個事件在未來是否會發(fā)生。像這樣的場景,無論是機器學習還是傳統(tǒng)統(tǒng)計方法,評判指標并沒有太大的差別。主要差異是分類器的差別(在分類問題上),區(qū)別的是變量,對于結果來講是類似的判斷標準。
這里要講常見的一些誤區(qū),比如凡是風險模型都看KS,AUC等指標。經(jīng)常有人說,某模型KS達到50或60,而你的模型KS可能才40,并因此說你的模型不如別人。模型的區(qū)分度首先是和樣本很有關系,它很容易偽造效果。比如我將模型區(qū)分不準的樣本做剔除,那么它可能突然可以從很低的KS提升到很高。又比如說將業(yè)務上的靜止客戶做剔除,KS也會有很大的變化。
舉這個例子是說,技術指標首先需要在相同的樣本下比較才有意義。另外一方面,KS并不是衡量一個模型好壞的關鍵要素,只是因為它最直觀,可以粗略知道模型的區(qū)分度,它的意義類似于變量IV值的作用。很多時候模型的穩(wěn)定性要比KS這些指標更為重要,同時還看你業(yè)務應用的范圍上群體的效果。
雷鋒網(wǎng):機器學習應用于風控,優(yōu)勢與弊端是什么?
鄭宏洲:機器學習對于風控來說,優(yōu)勢是帶來了新的技術革命。在自動化審批、區(qū)分精準度、開發(fā)效率等方面都比傳統(tǒng)的風控方法有更多的可能性,這是它的優(yōu)勢。而弊端是,新技術在完備性上很多時候還不成熟,很多方法論仍處于探索階段,在解決方案上沒有形成完整的閉環(huán)。例如:風控模型的可解釋性。傳統(tǒng)模型入選若干變量,每個要求有很好的解釋性,而機器學習會入選成百上千的變量,這些變量不是很直觀。這是任何新技術都會類似產(chǎn)生的問題,它需要時間去探索和修正,可以說道路是曲折的,前景是光明的。
雷鋒網(wǎng):您對機器學習應用于風控模型時缺乏可解釋性怎么看?這一問題又該如何解決?
鄭宏洲:機器學習應用于風控模型時,缺乏可解釋性是一個普遍的問題。
首先,為什么會出現(xiàn)缺乏可解釋性?我們說了機器學習風控模型區(qū)分度上往往有更好的表現(xiàn),然而它的問題是復雜度遠要高于傳統(tǒng)方法,因為機器學習擬合進去更多非線性關系,人類去理解很多非線性規(guī)律交織在一起是有難度的,這就造成了我們說的缺乏可解釋性的現(xiàn)象。
其次,這種缺乏可解釋性可不可???這里面實際可以再細分為兩種情況。非線性關系其中一種可能只是噪音,而另外一種實際的非線性規(guī)律。我們在做機器學習時,如果太迷信技術方法的本身,處理太粗糙可能會將更多的噪音擬合進來,這個問題也是很多統(tǒng)計學家通過很多算法不斷去調優(yōu)機器學習算法的初衷之一,并且隨著新技術的不斷更新會越來越優(yōu)化。另外一種是實際的非線性規(guī)律,這就是某些機器學習方法在特定場景下會比傳統(tǒng)統(tǒng)計方法效果更優(yōu)的主要原因。邏輯回歸本身是一種廣義的線性模型,它放棄了很多非線性的關系。傳統(tǒng)統(tǒng)計方法并不是不如機器學習,而是對建模的人水平要求更高,一個建模大師,他也許要費比機器學習更多的精力去做這件事情,但結果仍然可以和最好的機器學習分類方法媲美,并且具備機器學習不具備的優(yōu)點。
那么既然機器學習好像更容易更快的解決問題,傳統(tǒng)統(tǒng)計方法的意義又在哪里?傳統(tǒng)統(tǒng)計方法通過犧牲掉一小部分的區(qū)分度效果,換取數(shù)據(jù)的可解釋性。實際上是將復雜問題簡單化,將復雜的現(xiàn)實世界分解為更為容易理解的模式,這和人理解復雜的現(xiàn)實世界方法是相符的。這種處理方式的好處是業(yè)務更容易調整和監(jiān)控,并且容易避免數(shù)據(jù)噪音干擾。
部分技術專業(yè)人士會覺得把技術做得很好就行了,但如果能把模型做得特別好,一定是技術與業(yè)務兼顧。模型實際上是整個風險應用線條上的一個節(jié)點,所有的規(guī)律和發(fā)現(xiàn)是服務于業(yè)務的,這導致不可解釋性會沒被采用,而會用更容易理解的特征去把握風險。
機器學習的不可解釋性實際上無法根本的解決,一般會有兩種變通的方式:第一種,將機器學習作為傳統(tǒng)方法的輔助,幫忙人去發(fā)現(xiàn)數(shù)據(jù)上難以發(fā)現(xiàn)的非線性規(guī)律;第二種,分解到單一維度去理解非線性關系。
雷鋒網(wǎng):機器學習做風控中,人工的地位與作用是怎么樣的?
鄭宏洲:目前一些傳統(tǒng)的信貸企業(yè),在規(guī)模還較小的階段,仍存在很多通過人工審批和風控經(jīng)驗去完成整個風控管理。然而當信貸規(guī)模龐大的情況下,特別是額度較小的信貸業(yè)務,純粹靠人工去做風控變得很艱難。一方面是成本效率上的問題,進件量大的時候要付出相當多人力成本和時間成本;另外一方面是人工匹配和主觀判斷容易導致出錯,并且在業(yè)務優(yōu)化和積累難以傳承。
這些方面都會導致純人工的方式難以支撐現(xiàn)代的信貸管理模式。另外一個角度,人工的方式實際上也有它的優(yōu)點,它能在業(yè)務開展過程中實現(xiàn)很多感性認識和經(jīng)驗積累,是很多業(yè)務特征和模式的發(fā)現(xiàn)來源。很多場景下,仍然需要人工去主導做決策。
雷鋒網(wǎng):機器學習能在多大程度上替代人工的思考,在風控中是否會出現(xiàn)機器與人相沖突的情況?
鄭宏洲:機器學習在未來能夠在很多方面替代人工,但無法全面替代。機器學習是一種技術,是對人工的一部分工作進行優(yōu)化,這種優(yōu)化會融合和促進很多人工搭配機器一起工作的方式。
風控管理中可能會存在機器和人相沖突的情況,這種情況需要分開去討論。在實際業(yè)務開展中,機器做的是發(fā)現(xiàn)歷史的規(guī)律,它有很多的適用范圍和噪音處理等問題,這時候就需要人去干預,不斷優(yōu)化機器學習的方法和彌補其不足,所以說我們要求做風控的人才既要懂技術又要懂業(yè)務,是一種綜合的人才。
而另外一方面,人的行為本身有很多主觀的判斷,會受情緒等非理性的因素影響,使決策結果失真,這時候機器又能理性地協(xié)助人的決策。所以這兩者是相輔相成的作用,而不是簡單的沖突。當機器和人不一致的情況發(fā)生時,往往是發(fā)現(xiàn)業(yè)務價值的時刻。因此要求風控專家對數(shù)據(jù)和特征有敏感度。
雷鋒網(wǎng):從機器學習算法到真正應用到產(chǎn)品中,其中需要跨越的挑戰(zhàn)會是什么?
鄭宏洲:實際上目前很多機器學習已經(jīng)應用到真正的產(chǎn)品中,而且被大家廣泛的使用。比如說人臉識別,比如說推薦算法。而在信貸風控領域,非統(tǒng)計方法的機器學習真正深入人心和被人所接收,則還需要時間。主要的挑戰(zhàn)有以下幾點:
1、傳統(tǒng)統(tǒng)計方法仍然是主流的風控方法,業(yè)務應用模式適應業(yè)務發(fā)展,變更意愿不強。
2、新技術的不成熟性,新方法可能帶來的新問題需要完整的體系去解決。
推動技術更新和應用永遠是業(yè)務發(fā)展,傳統(tǒng)的很多方式可能無法滿足業(yè)務發(fā)展,就自然而然會被新方法所代替。例如像傳統(tǒng)方法建模時間長,對經(jīng)驗依賴更多等問題,可能會被更高效的機器學習所替代。
雷鋒網(wǎng):百融金服在機器學習的應用上,有哪些實踐經(jīng)驗可以分享?
鄭宏洲:百融是一家金融大數(shù)據(jù)信息服務公司,其服務的對象是金融企業(yè)。這就決定了在技術探索和業(yè)務分析上會有很多的嘗試。百融在很多前沿技術上都做過探索和創(chuàng)新,百融有自己的聯(lián)合建模實驗室和機器學習團隊。開發(fā)了百融100brain機器學習平臺,它是一個分布式的純R平臺,在這個平臺上做機器學習知識的傳承和分享。我們內部還舉辦了各種技術大賽,去驗證傳統(tǒng)統(tǒng)計方法和機器學習方法的效果優(yōu)劣。百融在反欺詐領域,我們也采用機器學習的方法,去識別特征異常的群體和規(guī)律。同時,我們信用風險領域構建完整的風險評分生態(tài),全面去量化個體在各項信貸業(yè)務中的表現(xiàn)。應該說,探索一直在路上,保持不斷技術創(chuàng)新的初心。
邏輯回歸可以實現(xiàn)評分分布的好壞比校準,機器學習如何實現(xiàn)?
邏輯回歸評分的好壞比校準是一個調整準確性問題,回歸輸出的內容是預測概率,機器學習同樣是有預測概率,方法論上是類似的。兩個都可以將預測概率階段轉換成評分,因為校準是在評分刻度校準時實現(xiàn)的,兩者是同樣的方法論。
如果評分做得比較準,好壞的校準是不頻繁的,頻繁的校準可能是存在過擬和的問題,這需要在機器學習在分析初期,做變量的預處理和調整,再用機器學習去做。
關于模型冷啟動,一般在還沒有不良數(shù)據(jù)的時候,如何設置模型的初始參數(shù)?
這種情況下,一般依賴專家評分卡,較好的選擇是評分卡有一個類似模式經(jīng)過驗證,如果是完全沒經(jīng)過驗證,初始參數(shù)比較難以調整到符合業(yè)務。這種情況下,初始參數(shù)的絕對值沒那么重要,因為模型的準確性是很難滿足的,但可以關注的是變量維度是否符合業(yè)務場景,讓初始冷啟動模型整體具有排序性,它需要一個不斷迭代的過程去實現(xiàn)模型的準確性。
對于風控團隊來說,模型人員和策略人員,哪個更重要呢?策略需要經(jīng)常調整,而模型可以外包出去很久不更新,策略人員不需懂太多復雜高深的算法等等,就可以完成審批、授信、反欺詐等日常業(yè)務,是不是風控團隊中只需策略人員就可以了呢?
實際上兩個角色都很重要。這兩種角色分工一般在架構上有兩種情況,一種是問題中提到的方式是分開的兩個完全獨立的團隊,另一種是按業(yè)務流程搭配在一起。但業(yè)務模式和群體沒有太大變動的階段,模型的排序性持續(xù)保持,那策略人員不需要太去了解算法,可以完成審批和授信。
但現(xiàn)實中,很多業(yè)務發(fā)展中,模型會因為模式的變化而波動很大,這時調整策略是不夠的,需要兩者的整合。這個問題分不同的階段,跟公司運營模式與所處階段有關。當整體風險表現(xiàn)穩(wěn)定時模型沒那么重要,而在外包模式下,一旦發(fā)生模型變化,很難及時對業(yè)務很好的調整銜接。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。