0
本文作者: 周舟 | 2020-08-19 09:57 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
2020年8月7日-9日,第五屆CCF-GAIR全球人工智能與機器人峰會,于深圳隆重舉辦。
此次峰會由中國計算機學(xué)會主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。
在大會第三日的「AI金融專場」中,《AI金融評論》邀請了6位最具代表性的頂尖AI金融專家,分享能夠代表未來10年風(fēng)向的智能技術(shù)方法論、產(chǎn)品邏輯和風(fēng)險管理理念;也在2020這個特別的時間節(jié)點上,展望他們眼中的「AI金融新十年」。
華爾街知名建模和風(fēng)控專家黃又鋼參加了此次會議,他曾任摩根大通執(zhí)行董事和花旗銀行高級副總裁,擁有數(shù)十年的海外零售銀行數(shù)據(jù)分析經(jīng)驗和前沿算法思維,今年回國與金融界頂尖技術(shù)大牛王強博士聯(lián)合創(chuàng)立了弘犀智能科技有限公司,出任首席風(fēng)控官。
以《小微貸款風(fēng)控模型中的算法探索》為主題,黃又鋼和嘉賓及與會朋友們分享了自己在風(fēng)控實踐中的一些心得體會。
黃又鋼認(rèn)為,中小微企業(yè)解決了國家80%的就業(yè),這些企業(yè)的生存和貸款需求問題是需要關(guān)心和全力解決。但和上市的公司相比,這類企業(yè)信息透露不夠充分,數(shù)據(jù)來源紛雜,數(shù)據(jù)格式不標(biāo)準(zhǔn),數(shù)據(jù)更新周期不穩(wěn)定,導(dǎo)致面向中小微企業(yè)的信貸產(chǎn)品難度更高。中小微企業(yè)信用貸款是一個世界性的難題,除了有國家層面的政策扶助,更需要頂尖人才的智慧和付出。
在現(xiàn)場,黃又鋼主要介紹了集成算法,降維算法、聚類算法和決策樹算法。他指出,現(xiàn)在弘犀智能建任何模型一定是“雙軌模型”, 即兩個算法同時進行。
此外,黃又鋼還解釋了實操“雙軌”建模中的幾大過程,詳細(xì)講述了人群分類在建模中的重要性,分享了算法探索與創(chuàng)新方面的兩個思路。
以下為黃又鋼演講全文,雷鋒網(wǎng)AI金融評論做了不改變原意的整理(關(guān)注《AI金融評論》公眾號,發(fā)送關(guān)鍵詞“黃又鋼”,獲取他的演講PPT。):
首先,感謝雷鋒網(wǎng)提供這樣的平臺。
在美國,這樣的機會不是很多,各行業(yè)封閉得很厲害。能夠有平臺互相交流,特別是看到有這么多年輕的朋友在這里聽,真的很好。
我今天的主題是《小微貸款風(fēng)險模型中的算法探索》。首先,我想談?wù)劰墒泻托刨J誰更難這個問題。
股市VS信貸,誰更難?
從人才角度,信貸行業(yè)急需人才。
股票市場比較容易吸引人眼球,高大上的人都選擇去那兒。不光是中國,美國更是如此,華爾街吸引了全球最高端的人才。
但是,如果有人選擇信用貸款,特別是到小微貸款這個行業(yè),給大家的感覺像是無奈之舉。
而且,兩者都是在處理非常復(fù)雜的問題,股票市場需要需要考慮幾千家上市公司和幾千萬散戶的博弈,而小微貸款也需要考慮到幾千萬家企業(yè)。
如何判斷一家企業(yè)的信用、以什么樣的利率貸款給企業(yè)、如何貸款后收到還款,這些都是非常復(fù)雜的問題,需要人才,尤其是頂尖人才去分析。
從數(shù)據(jù)層面,信貸比股票市場更難,信貸行業(yè)更需要標(biāo)準(zhǔn)和規(guī)范和確切的數(shù)據(jù)。
股票市場上,每家公司必須有財報,它的格式和框架是一致的。財報的數(shù)據(jù)是標(biāo)準(zhǔn)的、業(yè)績等信息發(fā)布的時間和周期是確定的,我們可以確切的得到股票市場里的許多重要信息。
和上市的公司相比,小微企業(yè)的信息透露不夠充分,數(shù)據(jù)來源紛雜,數(shù)據(jù)格式不標(biāo)準(zhǔn),數(shù)據(jù)更新周期不穩(wěn)定,導(dǎo)致面向中小微企業(yè)的信貸產(chǎn)品難度更高。中小微企業(yè)信用貸款是一個世界性的難題。
在股票市場,我們要關(guān)注兩件事:價格和數(shù)量。什么價格買?高價買,還是低價買?買多少數(shù)量?1千股還是1萬股?
而在信用貸款行業(yè)中,我們需要關(guān)注它的四個維度:
一是風(fēng)險程度,我要判斷你這個人是否靠譜;二是給你放貸,我給你多少利息,價格是高是低;三是我給你多少錢,借你1000元、1萬元還是300萬元;四是期限,我是按天、按月計算還是按年計算?
在我國,中小微企業(yè)解決了國家80%的就業(yè),這些企業(yè)的生存和貸款需求問題是需要持續(xù)關(guān)心和全力解決的。
2006年,諾貝爾和平獎給了孟加拉國的經(jīng)濟學(xué)家,當(dāng)時我在花旗銀行,聽到這個故事非常感動。經(jīng)濟學(xué)家真正去底層考察和生活,把27美元借給40多人,每人幾毛錢、幾美分地貸,這很難得。
當(dāng)時花旗銀行沒有小微貸款,也沒有普惠的概念。我直接找到我老板,我問他看和平獎了嗎?他說看了。我問他花旗銀行怎么沒有普惠性的東西?他聳了聳肩,沒搭理我。我問我們能否做這樣的事情,他回答我“做好你的工作就行了,別管那么多閑事”。
美國的銀行在為富人服務(wù),他們并不關(guān)心底下的中小企業(yè)。而在中國,國家真的會把錢傾斜到中小企業(yè)身上。
機器學(xué)習(xí)算法概述
機器學(xué)習(xí)是AI的分支,現(xiàn)在機器學(xué)習(xí)有非常成熟的算法。我很喜歡這個圖片,雖然這張并不是最新的圖片。
它列出的算法比較規(guī)范、有條理性。深度學(xué)習(xí)、集成算法、神經(jīng)網(wǎng)絡(luò)、正則化算法、規(guī)則算法、回歸算法、貝葉斯算法、決策樹算法、降維算法、實例算法、聚類算法,這些算法十幾年前就有了,有些仍在不斷更新。
如果一個人想做機器學(xué)習(xí),至少要懂每個算法的原理,這些算法背后的邏輯是什么?其底層數(shù)據(jù)是怎么回事?
我今天主要介紹集成算法、降維算法、聚類算法和決策樹算法。每個算法都有實實在在的應(yīng)用和意義,不是為了算法而算法。
如何應(yīng)用算法?我們現(xiàn)在做任何模型一定是兩個算法同時進行,既要做傳統(tǒng)模型回歸算法,也要做機器學(xué)習(xí)算法。傳統(tǒng)模型主要指的是回歸算法(LR),取決于應(yīng)用場景。機器學(xué)習(xí)模型,我們主要指的是XGB,集成隨機樹的算法。
經(jīng)典風(fēng)控領(lǐng)域全都是以回歸模型為主導(dǎo)。原因在于其穩(wěn)定性好,可解釋性非常強。
在美國,機器學(xué)習(xí)在任何信貸場景都不能落地,也不能使用,原因在于我們無法解釋底層拒絕貸款申請的原因是什么。由于不能解釋,在美國的法規(guī)下就不能應(yīng)用。所以機器學(xué)習(xí)只能在底層,我們分析團隊、模型團隊可以高大上地玩,但只能玩而已,真正實戰(zhàn)一律不許用。
在中國,我們不僅玩,還有機會可以使用。至少從法規(guī)層面,我們還沒有嚴(yán)格要求拒絕一個貸款必須跟企業(yè)或者客戶解釋理由。
實操“雙軌”建模有幾大過程:一是預(yù)測能力的比較; 二是變量維度的判斷;三是對比同一個觀測值,如何交叉使用;四是策略應(yīng)用,即如何使用這個模型。
如何使用這兩個模型?我們可以將數(shù)據(jù)集分為兩類(路徑):一類是傳統(tǒng)模型,另一類是機器學(xué)習(xí)模型。
建完模型一定要有預(yù)測能力,假如用KS表述模型的準(zhǔn)確率,你可以通過ROC、AUC等統(tǒng)計控制。
假如我們用(統(tǒng)計)變量(做評估),不管(使用)哪個統(tǒng)計變量一定有好壞的比較。機器學(xué)習(xí)好或者不好的比較,首先是評測模型的層面。
有了模型層面的比較后,(談)模型一定會牽扯具體的特征值或者變量。
它用哪些變量,在變量的層面上我們也進行比較。真正實際應(yīng)用的是特征(變量),關(guān)鍵特征特別是關(guān)鍵維度覆蓋性怎么樣?傳統(tǒng)模型覆蓋了多少?10個維度還是20個維度?機器學(xué)習(xí)的維度到底是多少?都是我們需要考慮的。
由于傳統(tǒng)模型回歸算法的局限性,它是線性(關(guān)系)的,維度一般在10~30個變量。而機器學(xué)習(xí)在準(zhǔn)確性等方面比傳統(tǒng)模型要好;
在變量層面,總體來說機器學(xué)習(xí)完全沒有概念和業(yè)務(wù)場景的限制,可以按照數(shù)據(jù)結(jié)構(gòu)往下走,使用的變量相對較多。比如XGboost有一兩百個變量是常態(tài),三五百個變量也是常態(tài)。
我們比較兩個模型時,在變量維度之間要做一個比較。
一般來講我們建回歸模型,在處理變量時,我們做了數(shù)據(jù)本身的轉(zhuǎn)換,可以在變量維度上做聚類分析,控制變量維度。假定回歸有20個變量,回歸模型一般就(代表)有20個維度。
雖然機器學(xué)習(xí)的變量很多,但是我們至少可以判斷維度上是不是有問題。
而每個觀測值的評分,也是需要具體比較的。如果評分一致,我可以確定這個企業(yè)的評分比較準(zhǔn)確。但是,如果兩個評分出現(xiàn)差異怎么辦?如一家企業(yè)用傳統(tǒng)模型測出720分,用機器學(xué)習(xí)測出來可能只有600分。
(也即)回歸模型說這個人風(fēng)險低,機器學(xué)習(xí)說這個人風(fēng)險高,那我們?nèi)绾螞Q策?這是我們后端策略上要解決的問題。
綜上所述,每一個評分的好壞,可以通過三個層面的比較:模型層面、變量層面、觀測者層面。
人群分類是建模中十分重要的環(huán)節(jié)。如圖示,這里有多個子人群。如果我能把人群打開,按照其實際狀態(tài),分為紅、綠、黃等圖中標(biāo)注的群體,在每一個人群上做獨立的測試,可能會做出更好的預(yù)測。
這是人群分類的基本點。任何人群可能會存在不同的子人群中。每個子人群可能會有其獨立的特征和趨勢。問題是我們能否找到這樣的趨勢和特征。
而前提條件是我們能否把人群分開,每個人(建模師)的經(jīng)驗不同所以做到的程度不同。
決策樹算法和聚類算法是人群分類中常用的兩個算法。決策樹算法,是用樹的方法把底下人群分為幾個葉子,每個葉子為一個子人群。
聚類算法,是以每個觀測點(如企業(yè))的相似性為基礎(chǔ),將相似的企業(yè)分為一類。“相似性”是由統(tǒng)計學(xué)上的距離來決定的。從機器學(xué)習(xí)角度分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。有監(jiān)督,指的是知道Y是什么,在有Y標(biāo)簽的前提下進行訓(xùn)練。無監(jiān)督,指的是不知道Y,只知道X變量。決策樹算法是有監(jiān)督算法的一種,而聚類算法是無監(jiān)督算法的一種。
這兩種算法都非常有用。
目前的算法變量越多,計算量越大,信息多了可以做更好的事情,信息多了可以分析各個層面,可能會有更好的結(jié)果,所以我們引入特征變量端。
但是,在實際的統(tǒng)計分析上并非如此,信息多了可能會帶來更多的噪音,當(dāng)你無法區(qū)分噪音和有效數(shù)值時,你可能把噪音當(dāng)做有用的。
變量越多,算力肯定很沉重,如果我們涉及幾千萬人,算法用到幾百棵樹的時候,我們算力的時間不是按小時、分鐘,可能是按天計算。
特征少自然最好,我們能判斷我們的特征是否是真的重要特征。我有5萬個變量、1萬個變量,過程中我選出20個變量,這20個變量是不是真正的主要變量?
在1000個、10000個變量里如何選擇20個你認(rèn)為關(guān)鍵的,這是我們算法上要解決的問題。
人群分類實際操作的第一步,是構(gòu)造分類。
我們從模型數(shù)據(jù)中判斷,最上面的分支我們不做任何人群分類,全體人群做回歸模型。出來的20個變量、30個變量,我們暫時判定經(jīng)過一個算法(如LR),這20個變量是主要的變量、主要的特征。
我把這個主要特征應(yīng)用到后面的人群分類,通過回歸模型判斷主要特征。
在此之后做人群分類,不管任何時候,數(shù)據(jù)驅(qū)動一定是我們的方法之一。
人的經(jīng)驗(業(yè)務(wù)經(jīng)驗)一定有意義,人(的經(jīng)驗)和數(shù)據(jù)驅(qū)動永遠(yuǎn)是相輔相成的。如果你只靠機器學(xué)習(xí)做所有決策,不能說絕對不對,但可能走到比較危險的地方。
從算法層面,我用兩類算法,監(jiān)督和無監(jiān)督。
在特征變量上,我給出兩個的維度(主要變量和全量變量),主要變量可以方便我們快速有效地分類。而全量變量可以全面考查各方面的信息。
第二步是比較評估,我們用兩個算法,決策樹和
Cluster(聚類算法),及在特征變量上兩個維度,那麼我們一起構(gòu)成4個人群分類的方法。決策樹用關(guān)鍵(主要)變量(ST2),SK1用聚類算法用全量變量。說是4個方法 (4個圈), 可是每個圈可以是非常復(fù)雜的東西。
假定用決策樹,如果特征有2000個變量,這個樹可以長到幾百個,非常容易。
決策樹要對著2000個變量找樹,統(tǒng)計上可以做限制。每一層分多少?葉子最多是多少?分多少層?有2000個變量足夠你找?guī)装倏脴洌趲装倏脴湎?,至少有幾百個子集。
你用聚類也可以做很多的聚類人群。
在做了決策樹等4個方法后,怎么知道哪個人群分類的方法就是好的呢?
我們最終談的是預(yù)期模型和預(yù)測。在一個方法中可能出了200個子集,在另一個方法中出了40個子集。每一個子集要建模型,重新合起來,直到可以判斷總?cè)巳旱降资呛眠€是不好。
這四個方法,上面有一個LR模型,這是主模型,合到最后是5個模型。這5個模型之間的KS預(yù)測值誰好誰壞,可以判斷最終的效果。
不管分成多少個子集,我們最終要回歸到總?cè)巳荷媳容^,才能證明哪個方法好還是不好。
如果一個決策樹分為300個人群,那麼就會有300個模型,再加上總量的一個模型,就是301個模型。任何一個方法底層意味著幾百個模型。
人群分類的概念聽起來非常簡單,實際操作相當(dāng)復(fù)雜。最終的結(jié)果有明確的評判好壞的標(biāo)準(zhǔn),一是算法層面,二是參數(shù)層面,最終的效果必須匯總到整體后才可以評判。
算法及應(yīng)用的探索
前面談到如何分類人群,最后我們講一講算法的探索。
我回到中國學(xué)到一個詞叫混搭,衣服、鞋子都可以混搭,我的女兒告訴我她左腳穿紅襪子,右腳穿藍襪子,這就是混搭。
混搭的概念在統(tǒng)計里早就應(yīng)用到。比如兩種算法相互匹配,兩種算法相互兼容,兩種算法相互嵌入,就可能做新的算法。
如何做回歸算法和集成隨機決策樹算法二者之間的交互?
我們可以先訓(xùn)練LR模型,然后分箱(分層),分箱后每個點之間一定有誤差值。在誤差值的基礎(chǔ)上,哪個層面的誤差值最大,就在哪個層面直接插入XGboost。用 XGboost在這一層上單獨進行計算以減小預(yù)測誤差。至于如何使用,是屬于技術(shù)上的問題了。
算法探索與創(chuàng)新方面有兩個思路。
一是在單一算法層面,從數(shù)學(xué)角度和(或)計算機角度,產(chǎn)生新的突破。
二是兩種(或多種)算法的相互嵌入和混搭形成新的算法。比如XGboost的算法就是這樣混搭出來的。從實際應(yīng)用的層面,“匹配”可能會更快地實現(xiàn)突破, 即現(xiàn)成的算法匹配特定的人群和特定的特征,就可能產(chǎn)生非常成功的應(yīng)用,比如CNN算法在圖像識別上的應(yīng)用效果就是一個事例。
未來的方向是“算法+人群+特征”,也即,算法的突破,人群的細(xì)分,數(shù)據(jù)的深挖,及相互之間適當(dāng)?shù)钠ヅ涠伎赡墚a(chǎn)生革命性的突破。
關(guān)于 CCF-GAIR 2020 AI金融專場
「AI金融專場」是CCF-GAIR 2020最受關(guān)注的主題論壇之一,其余5位嘉賓分別是:國際人工智能聯(lián)合會首位華人理事會主席楊強、平安集團首席科學(xué)家肖京、京東數(shù)字科技集團副總裁程建波、移卡集團副總裁奚少杰、統(tǒng)計學(xué)諾貝爾-COPSS總統(tǒng)獎得主范劍青。
「AI金融專場」除了擁有業(yè)內(nèi)最頂尖的陣容外,每年都會吸引中國及歐美地區(qū)眾多AI金融專家到場。在上一屆論壇中,加拿大工程院院士、Citadel首席人工智能官鄧力博士,加拿大工程院院士凌曉峰教授等多位重量級人物來到現(xiàn)場學(xué)習(xí)交流。
而在今年,包括黃鎧、劉江川、王強等十多位IEEE Fellow以及各大金融機構(gòu)的首席信息官/科學(xué)家來到現(xiàn)場,共同促進AI金融的產(chǎn)學(xué)融合與商業(yè)應(yīng)用。(雷鋒網(wǎng)雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章