0
本文作者: 周舟 | 2020-08-19 09:57 | 專題:CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì) |
2020年8月7日-9日,第五屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì),于深圳隆重舉辦。
此次峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。
在大會(huì)第三日的「AI金融專場(chǎng)」中,《AI金融評(píng)論》邀請(qǐng)了6位最具代表性的頂尖AI金融專家,分享能夠代表未來(lái)10年風(fēng)向的智能技術(shù)方法論、產(chǎn)品邏輯和風(fēng)險(xiǎn)管理理念;也在2020這個(gè)特別的時(shí)間節(jié)點(diǎn)上,展望他們眼中的「AI金融新十年」。
華爾街知名建模和風(fēng)控專家黃又鋼參加了此次會(huì)議,他曾任摩根大通執(zhí)行董事和花旗銀行高級(jí)副總裁,擁有數(shù)十年的海外零售銀行數(shù)據(jù)分析經(jīng)驗(yàn)和前沿算法思維,今年回國(guó)與金融界頂尖技術(shù)大牛王強(qiáng)博士聯(lián)合創(chuàng)立了弘犀智能科技有限公司,出任首席風(fēng)控官。
以《小微貸款風(fēng)控模型中的算法探索》為主題,黃又鋼和嘉賓及與會(huì)朋友們分享了自己在風(fēng)控實(shí)踐中的一些心得體會(huì)。
黃又鋼認(rèn)為,中小微企業(yè)解決了國(guó)家80%的就業(yè),這些企業(yè)的生存和貸款需求問(wèn)題是需要關(guān)心和全力解決。但和上市的公司相比,這類企業(yè)信息透露不夠充分,數(shù)據(jù)來(lái)源紛雜,數(shù)據(jù)格式不標(biāo)準(zhǔn),數(shù)據(jù)更新周期不穩(wěn)定,導(dǎo)致面向中小微企業(yè)的信貸產(chǎn)品難度更高。中小微企業(yè)信用貸款是一個(gè)世界性的難題,除了有國(guó)家層面的政策扶助,更需要頂尖人才的智慧和付出。
在現(xiàn)場(chǎng),黃又鋼主要介紹了集成算法,降維算法、聚類算法和決策樹(shù)算法。他指出,現(xiàn)在弘犀智能建任何模型一定是“雙軌模型”, 即兩個(gè)算法同時(shí)進(jìn)行。
此外,黃又鋼還解釋了實(shí)操“雙軌”建模中的幾大過(guò)程,詳細(xì)講述了人群分類在建模中的重要性,分享了算法探索與創(chuàng)新方面的兩個(gè)思路。
以下為黃又鋼演講全文,雷鋒網(wǎng)AI金融評(píng)論做了不改變?cè)獾恼?/strong>(關(guān)注《AI金融評(píng)論》公眾號(hào),發(fā)送關(guān)鍵詞“黃又鋼”,獲取他的演講PPT。):
首先,感謝雷鋒網(wǎng)提供這樣的平臺(tái)。
在美國(guó),這樣的機(jī)會(huì)不是很多,各行業(yè)封閉得很厲害。能夠有平臺(tái)互相交流,特別是看到有這么多年輕的朋友在這里聽(tīng),真的很好。
我今天的主題是《小微貸款風(fēng)險(xiǎn)模型中的算法探索》。首先,我想談?wù)劰墒泻托刨J誰(shuí)更難這個(gè)問(wèn)題。
股市VS信貸,誰(shuí)更難?
從人才角度,信貸行業(yè)急需人才。
股票市場(chǎng)比較容易吸引人眼球,高大上的人都選擇去那兒。不光是中國(guó),美國(guó)更是如此,華爾街吸引了全球最高端的人才。
但是,如果有人選擇信用貸款,特別是到小微貸款這個(gè)行業(yè),給大家的感覺(jué)像是無(wú)奈之舉。
而且,兩者都是在處理非常復(fù)雜的問(wèn)題,股票市場(chǎng)需要需要考慮幾千家上市公司和幾千萬(wàn)散戶的博弈,而小微貸款也需要考慮到幾千萬(wàn)家企業(yè)。
如何判斷一家企業(yè)的信用、以什么樣的利率貸款給企業(yè)、如何貸款后收到還款,這些都是非常復(fù)雜的問(wèn)題,需要人才,尤其是頂尖人才去分析。
從數(shù)據(jù)層面,信貸比股票市場(chǎng)更難,信貸行業(yè)更需要標(biāo)準(zhǔn)和規(guī)范和確切的數(shù)據(jù)。
股票市場(chǎng)上,每家公司必須有財(cái)報(bào),它的格式和框架是一致的。財(cái)報(bào)的數(shù)據(jù)是標(biāo)準(zhǔn)的、業(yè)績(jī)等信息發(fā)布的時(shí)間和周期是確定的,我們可以確切的得到股票市場(chǎng)里的許多重要信息。
和上市的公司相比,小微企業(yè)的信息透露不夠充分,數(shù)據(jù)來(lái)源紛雜,數(shù)據(jù)格式不標(biāo)準(zhǔn),數(shù)據(jù)更新周期不穩(wěn)定,導(dǎo)致面向中小微企業(yè)的信貸產(chǎn)品難度更高。中小微企業(yè)信用貸款是一個(gè)世界性的難題。
在股票市場(chǎng),我們要關(guān)注兩件事:價(jià)格和數(shù)量。什么價(jià)格買(mǎi)?高價(jià)買(mǎi),還是低價(jià)買(mǎi)?買(mǎi)多少數(shù)量?1千股還是1萬(wàn)股?
而在信用貸款行業(yè)中,我們需要關(guān)注它的四個(gè)維度:
一是風(fēng)險(xiǎn)程度,我要判斷你這個(gè)人是否靠譜;二是給你放貸,我給你多少利息,價(jià)格是高是低;三是我給你多少錢(qián),借你1000元、1萬(wàn)元還是300萬(wàn)元;四是期限,我是按天、按月計(jì)算還是按年計(jì)算?
在我國(guó),中小微企業(yè)解決了國(guó)家80%的就業(yè),這些企業(yè)的生存和貸款需求問(wèn)題是需要持續(xù)關(guān)心和全力解決的。
2006年,諾貝爾和平獎(jiǎng)給了孟加拉國(guó)的經(jīng)濟(jì)學(xué)家,當(dāng)時(shí)我在花旗銀行,聽(tīng)到這個(gè)故事非常感動(dòng)。經(jīng)濟(jì)學(xué)家真正去底層考察和生活,把27美元借給40多人,每人幾毛錢(qián)、幾美分地貸,這很難得。
當(dāng)時(shí)花旗銀行沒(méi)有小微貸款,也沒(méi)有普惠的概念。我直接找到我老板,我問(wèn)他看和平獎(jiǎng)了嗎?他說(shuō)看了。我問(wèn)他花旗銀行怎么沒(méi)有普惠性的東西?他聳了聳肩,沒(méi)搭理我。我問(wèn)我們能否做這樣的事情,他回答我“做好你的工作就行了,別管那么多閑事”。
美國(guó)的銀行在為富人服務(wù),他們并不關(guān)心底下的中小企業(yè)。而在中國(guó),國(guó)家真的會(huì)把錢(qián)傾斜到中小企業(yè)身上。
機(jī)器學(xué)習(xí)算法概述
機(jī)器學(xué)習(xí)是AI的分支,現(xiàn)在機(jī)器學(xué)習(xí)有非常成熟的算法。我很喜歡這個(gè)圖片,雖然這張并不是最新的圖片。
它列出的算法比較規(guī)范、有條理性。深度學(xué)習(xí)、集成算法、神經(jīng)網(wǎng)絡(luò)、正則化算法、規(guī)則算法、回歸算法、貝葉斯算法、決策樹(shù)算法、降維算法、實(shí)例算法、聚類算法,這些算法十幾年前就有了,有些仍在不斷更新。
如果一個(gè)人想做機(jī)器學(xué)習(xí),至少要懂每個(gè)算法的原理,這些算法背后的邏輯是什么?其底層數(shù)據(jù)是怎么回事?
我今天主要介紹集成算法、降維算法、聚類算法和決策樹(shù)算法。每個(gè)算法都有實(shí)實(shí)在在的應(yīng)用和意義,不是為了算法而算法。
如何應(yīng)用算法?我們現(xiàn)在做任何模型一定是兩個(gè)算法同時(shí)進(jìn)行,既要做傳統(tǒng)模型回歸算法,也要做機(jī)器學(xué)習(xí)算法。傳統(tǒng)模型主要指的是回歸算法(LR),取決于應(yīng)用場(chǎng)景。機(jī)器學(xué)習(xí)模型,我們主要指的是XGB,集成隨機(jī)樹(shù)的算法。
經(jīng)典風(fēng)控領(lǐng)域全都是以回歸模型為主導(dǎo)。原因在于其穩(wěn)定性好,可解釋性非常強(qiáng)。
在美國(guó),機(jī)器學(xué)習(xí)在任何信貸場(chǎng)景都不能落地,也不能使用,原因在于我們無(wú)法解釋底層拒絕貸款申請(qǐng)的原因是什么。由于不能解釋,在美國(guó)的法規(guī)下就不能應(yīng)用。所以機(jī)器學(xué)習(xí)只能在底層,我們分析團(tuán)隊(duì)、模型團(tuán)隊(duì)可以高大上地玩,但只能玩而已,真正實(shí)戰(zhàn)一律不許用。
在中國(guó),我們不僅玩,還有機(jī)會(huì)可以使用。至少?gòu)姆ㄒ?guī)層面,我們還沒(méi)有嚴(yán)格要求拒絕一個(gè)貸款必須跟企業(yè)或者客戶解釋理由。
實(shí)操“雙軌”建模有幾大過(guò)程:一是預(yù)測(cè)能力的比較; 二是變量維度的判斷;三是對(duì)比同一個(gè)觀測(cè)值,如何交叉使用;四是策略應(yīng)用,即如何使用這個(gè)模型。
如何使用這兩個(gè)模型?我們可以將數(shù)據(jù)集分為兩類(路徑):一類是傳統(tǒng)模型,另一類是機(jī)器學(xué)習(xí)模型。
建完模型一定要有預(yù)測(cè)能力,假如用KS表述模型的準(zhǔn)確率,你可以通過(guò)ROC、AUC等統(tǒng)計(jì)控制。
假如我們用(統(tǒng)計(jì))變量(做評(píng)估),不管(使用)哪個(gè)統(tǒng)計(jì)變量一定有好壞的比較。機(jī)器學(xué)習(xí)好或者不好的比較,首先是評(píng)測(cè)模型的層面。
有了模型層面的比較后,(談)模型一定會(huì)牽扯具體的特征值或者變量。
它用哪些變量,在變量的層面上我們也進(jìn)行比較。真正實(shí)際應(yīng)用的是特征(變量),關(guān)鍵特征特別是關(guān)鍵維度覆蓋性怎么樣?傳統(tǒng)模型覆蓋了多少?10個(gè)維度還是20個(gè)維度?機(jī)器學(xué)習(xí)的維度到底是多少?都是我們需要考慮的。
由于傳統(tǒng)模型回歸算法的局限性,它是線性(關(guān)系)的,維度一般在10~30個(gè)變量。而機(jī)器學(xué)習(xí)在準(zhǔn)確性等方面比傳統(tǒng)模型要好;
在變量層面,總體來(lái)說(shuō)機(jī)器學(xué)習(xí)完全沒(méi)有概念和業(yè)務(wù)場(chǎng)景的限制,可以按照數(shù)據(jù)結(jié)構(gòu)往下走,使用的變量相對(duì)較多。比如XGboost有一兩百個(gè)變量是常態(tài),三五百個(gè)變量也是常態(tài)。
我們比較兩個(gè)模型時(shí),在變量維度之間要做一個(gè)比較。
一般來(lái)講我們建回歸模型,在處理變量時(shí),我們做了數(shù)據(jù)本身的轉(zhuǎn)換,可以在變量維度上做聚類分析,控制變量維度。假定回歸有20個(gè)變量,回歸模型一般就(代表)有20個(gè)維度。
雖然機(jī)器學(xué)習(xí)的變量很多,但是我們至少可以判斷維度上是不是有問(wèn)題。
而每個(gè)觀測(cè)值的評(píng)分,也是需要具體比較的。如果評(píng)分一致,我可以確定這個(gè)企業(yè)的評(píng)分比較準(zhǔn)確。但是,如果兩個(gè)評(píng)分出現(xiàn)差異怎么辦?如一家企業(yè)用傳統(tǒng)模型測(cè)出720分,用機(jī)器學(xué)習(xí)測(cè)出來(lái)可能只有600分。
(也即)回歸模型說(shuō)這個(gè)人風(fēng)險(xiǎn)低,機(jī)器學(xué)習(xí)說(shuō)這個(gè)人風(fēng)險(xiǎn)高,那我們?nèi)绾螞Q策?這是我們后端策略上要解決的問(wèn)題。
綜上所述,每一個(gè)評(píng)分的好壞,可以通過(guò)三個(gè)層面的比較:模型層面、變量層面、觀測(cè)者層面。
人群分類是建模中十分重要的環(huán)節(jié)。如圖示,這里有多個(gè)子人群。如果我能把人群打開(kāi),按照其實(shí)際狀態(tài),分為紅、綠、黃等圖中標(biāo)注的群體,在每一個(gè)人群上做獨(dú)立的測(cè)試,可能會(huì)做出更好的預(yù)測(cè)。
這是人群分類的基本點(diǎn)。任何人群可能會(huì)存在不同的子人群中。每個(gè)子人群可能會(huì)有其獨(dú)立的特征和趨勢(shì)。問(wèn)題是我們能否找到這樣的趨勢(shì)和特征。
而前提條件是我們能否把人群分開(kāi),每個(gè)人(建模師)的經(jīng)驗(yàn)不同所以做到的程度不同。
決策樹(shù)算法和聚類算法是人群分類中常用的兩個(gè)算法。決策樹(shù)算法,是用樹(shù)的方法把底下人群分為幾個(gè)葉子,每個(gè)葉子為一個(gè)子人群。
聚類算法,是以每個(gè)觀測(cè)點(diǎn)(如企業(yè))的相似性為基礎(chǔ),將相似的企業(yè)分為一類?!跋嗨菩浴笔怯山y(tǒng)計(jì)學(xué)上的距離來(lái)決定的。從機(jī)器學(xué)習(xí)角度分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。有監(jiān)督,指的是知道Y是什么,在有Y標(biāo)簽的前提下進(jìn)行訓(xùn)練。無(wú)監(jiān)督,指的是不知道Y,只知道X變量。決策樹(shù)算法是有監(jiān)督算法的一種,而聚類算法是無(wú)監(jiān)督算法的一種。
這兩種算法都非常有用。
目前的算法變量越多,計(jì)算量越大,信息多了可以做更好的事情,信息多了可以分析各個(gè)層面,可能會(huì)有更好的結(jié)果,所以我們引入特征變量端。
但是,在實(shí)際的統(tǒng)計(jì)分析上并非如此,信息多了可能會(huì)帶來(lái)更多的噪音,當(dāng)你無(wú)法區(qū)分噪音和有效數(shù)值時(shí),你可能把噪音當(dāng)做有用的。
變量越多,算力肯定很沉重,如果我們涉及幾千萬(wàn)人,算法用到幾百棵樹(shù)的時(shí)候,我們算力的時(shí)間不是按小時(shí)、分鐘,可能是按天計(jì)算。
特征少自然最好,我們能判斷我們的特征是否是真的重要特征。我有5萬(wàn)個(gè)變量、1萬(wàn)個(gè)變量,過(guò)程中我選出20個(gè)變量,這20個(gè)變量是不是真正的主要變量?
在1000個(gè)、10000個(gè)變量里如何選擇20個(gè)你認(rèn)為關(guān)鍵的,這是我們算法上要解決的問(wèn)題。
人群分類實(shí)際操作的第一步,是構(gòu)造分類。
我們從模型數(shù)據(jù)中判斷,最上面的分支我們不做任何人群分類,全體人群做回歸模型。出來(lái)的20個(gè)變量、30個(gè)變量,我們暫時(shí)判定經(jīng)過(guò)一個(gè)算法(如LR),這20個(gè)變量是主要的變量、主要的特征。
我把這個(gè)主要特征應(yīng)用到后面的人群分類,通過(guò)回歸模型判斷主要特征。
在此之后做人群分類,不管任何時(shí)候,數(shù)據(jù)驅(qū)動(dòng)一定是我們的方法之一。
人的經(jīng)驗(yàn)(業(yè)務(wù)經(jīng)驗(yàn))一定有意義,人(的經(jīng)驗(yàn))和數(shù)據(jù)驅(qū)動(dòng)永遠(yuǎn)是相輔相成的。如果你只靠機(jī)器學(xué)習(xí)做所有決策,不能說(shuō)絕對(duì)不對(duì),但可能走到比較危險(xiǎn)的地方。
從算法層面,我用兩類算法,監(jiān)督和無(wú)監(jiān)督。
在特征變量上,我給出兩個(gè)的維度(主要變量和全量變量),主要變量可以方便我們快速有效地分類。而全量變量可以全面考查各方面的信息。
第二步是比較評(píng)估,我們用兩個(gè)算法,決策樹(shù)和
Cluster(聚類算法),及在特征變量上兩個(gè)維度,那麼我們一起構(gòu)成4個(gè)人群分類的方法。決策樹(shù)用關(guān)鍵(主要)變量(ST2),SK1用聚類算法用全量變量。說(shuō)是4個(gè)方法 (4個(gè)圈), 可是每個(gè)圈可以是非常復(fù)雜的東西。
假定用決策樹(shù),如果特征有2000個(gè)變量,這個(gè)樹(shù)可以長(zhǎng)到幾百個(gè),非常容易。
決策樹(shù)要對(duì)著2000個(gè)變量找樹(shù),統(tǒng)計(jì)上可以做限制。每一層分多少?葉子最多是多少?分多少層?有2000個(gè)變量足夠你找?guī)装倏脴?shù),在幾百棵樹(shù)下,至少有幾百個(gè)子集。
你用聚類也可以做很多的聚類人群。
在做了決策樹(shù)等4個(gè)方法后,怎么知道哪個(gè)人群分類的方法就是好的呢?
我們最終談的是預(yù)期模型和預(yù)測(cè)。在一個(gè)方法中可能出了200個(gè)子集,在另一個(gè)方法中出了40個(gè)子集。每一個(gè)子集要建模型,重新合起來(lái),直到可以判斷總?cè)巳旱降资呛眠€是不好。
這四個(gè)方法,上面有一個(gè)LR模型,這是主模型,合到最后是5個(gè)模型。這5個(gè)模型之間的KS預(yù)測(cè)值誰(shuí)好誰(shuí)壞,可以判斷最終的效果。
不管分成多少個(gè)子集,我們最終要回歸到總?cè)巳荷媳容^,才能證明哪個(gè)方法好還是不好。
如果一個(gè)決策樹(shù)分為300個(gè)人群,那麼就會(huì)有300個(gè)模型,再加上總量的一個(gè)模型,就是301個(gè)模型。任何一個(gè)方法底層意味著幾百個(gè)模型。
人群分類的概念聽(tīng)起來(lái)非常簡(jiǎn)單,實(shí)際操作相當(dāng)復(fù)雜。最終的結(jié)果有明確的評(píng)判好壞的標(biāo)準(zhǔn),一是算法層面,二是參數(shù)層面,最終的效果必須匯總到整體后才可以評(píng)判。
算法及應(yīng)用的探索
前面談到如何分類人群,最后我們講一講算法的探索。
我回到中國(guó)學(xué)到一個(gè)詞叫混搭,衣服、鞋子都可以混搭,我的女兒告訴我她左腳穿紅襪子,右腳穿藍(lán)襪子,這就是混搭。
混搭的概念在統(tǒng)計(jì)里早就應(yīng)用到。比如兩種算法相互匹配,兩種算法相互兼容,兩種算法相互嵌入,就可能做新的算法。
如何做回歸算法和集成隨機(jī)決策樹(shù)算法二者之間的交互?
我們可以先訓(xùn)練LR模型,然后分箱(分層),分箱后每個(gè)點(diǎn)之間一定有誤差值。在誤差值的基礎(chǔ)上,哪個(gè)層面的誤差值最大,就在哪個(gè)層面直接插入XGboost。用 XGboost在這一層上單獨(dú)進(jìn)行計(jì)算以減小預(yù)測(cè)誤差。至于如何使用,是屬于技術(shù)上的問(wèn)題了。
算法探索與創(chuàng)新方面有兩個(gè)思路。
一是在單一算法層面,從數(shù)學(xué)角度和(或)計(jì)算機(jī)角度,產(chǎn)生新的突破。
二是兩種(或多種)算法的相互嵌入和混搭形成新的算法。比如XGboost的算法就是這樣混搭出來(lái)的。從實(shí)際應(yīng)用的層面,“匹配”可能會(huì)更快地實(shí)現(xiàn)突破, 即現(xiàn)成的算法匹配特定的人群和特定的特征,就可能產(chǎn)生非常成功的應(yīng)用,比如CNN算法在圖像識(shí)別上的應(yīng)用效果就是一個(gè)事例。
未來(lái)的方向是“算法+人群+特征”,也即,算法的突破,人群的細(xì)分,數(shù)據(jù)的深挖,及相互之間適當(dāng)?shù)钠ヅ涠伎赡墚a(chǎn)生革命性的突破。
關(guān)于 CCF-GAIR 2020 AI金融專場(chǎng)
「AI金融專場(chǎng)」是CCF-GAIR 2020最受關(guān)注的主題論壇之一,其余5位嘉賓分別是:國(guó)際人工智能聯(lián)合會(huì)首位華人理事會(huì)主席楊強(qiáng)、平安集團(tuán)首席科學(xué)家肖京、京東數(shù)字科技集團(tuán)副總裁程建波、移卡集團(tuán)副總裁奚少杰、統(tǒng)計(jì)學(xué)諾貝爾-COPSS總統(tǒng)獎(jiǎng)得主范劍青。
「AI金融專場(chǎng)」除了擁有業(yè)內(nèi)最頂尖的陣容外,每年都會(huì)吸引中國(guó)及歐美地區(qū)眾多AI金融專家到場(chǎng)。在上一屆論壇中,加拿大工程院院士、Citadel首席人工智能官鄧力博士,加拿大工程院院士凌曉峰教授等多位重量級(jí)人物來(lái)到現(xiàn)場(chǎng)學(xué)習(xí)交流。
而在今年,包括黃鎧、劉江川、王強(qiáng)等十多位IEEE Fellow以及各大金融機(jī)構(gòu)的首席信息官/科學(xué)家來(lái)到現(xiàn)場(chǎng),共同促進(jìn)AI金融的產(chǎn)學(xué)融合與商業(yè)應(yīng)用。(雷鋒網(wǎng)雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章