0
本文作者: AI研習(xí)社-譯站 | 2018-08-24 10:46 |
雷鋒網(wǎng)按:本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 Data mining for Banking: Loan approval use case,作者為 Youssef Fenjiro。
翻譯 | 老周 校對(duì) | 程煒 整理 | MY
銀行的基本商業(yè)模式是作為金融中介——通過籌集融資和貸款(抵押貸款,房地產(chǎn),消費(fèi)者和公司貸款)。后者是兩個(gè)主要貸款審批和欺詐組成的主要信用風(fēng)險(xiǎn)來源。在這篇文章中,我們將通過使用數(shù)據(jù)挖掘模型來關(guān)注貸款審批。
基于信用評(píng)分向零售和企業(yè)客戶授予信用是關(guān)鍵風(fēng)險(xiǎn)評(píng)估工具,其允許通過信譽(yù)評(píng)分來最佳的管理、理解和量化潛在的債務(wù)人的信用風(fēng)險(xiǎn),與評(píng)判評(píng)分相比,基于信用評(píng)分是更穩(wěn)健和一致的評(píng)估技術(shù)。
零售投資組合中的信用評(píng)分反映了貸款申請(qǐng)時(shí)客戶的違約風(fēng)險(xiǎn),它有助于根據(jù) 4 個(gè)主要輸入數(shù)據(jù)決定是接受還是拒絕信用申請(qǐng):
客戶信息:年齡,性別,婚姻狀況,工作,收入/工資,住房(租金,自有,免費(fèi)),地理(城市/農(nóng)村),住宅狀況,現(xiàn)有客戶(Y / N),客戶年數(shù),總債務(wù),賬戶余額。
信用信息:總金額,用途,月付金額,利率......
信用記錄:付款記錄和拖欠(付款延遲),當(dāng)前債務(wù)金額,拖欠付款的月數(shù),信用記錄長度,自上次信用以來的時(shí)間,使用中的信用類型。
銀行賬戶行為:平均每月儲(chǔ)蓄金額,最高和最低余額水平,信用額度,支付趨勢(shì),余額趨勢(shì),未付款數(shù)量,超過信用額度的次數(shù),更改家庭住址的次數(shù)
特征選擇和模型
數(shù)據(jù)挖掘通過顯示哪些特征(因素)對(duì)特定結(jié)果影響最大來增加理解:關(guān)聯(lián)矩陣有助于消除相關(guān)變量,特征選擇方法(特別是多元相關(guān))如逐步回歸用于過濾不相關(guān)的預(yù)測(cè)變量;它在每一輪中添加最佳特征(或刪除最差特征),并在每次迭代中使用交叉驗(yàn)證評(píng)估模型誤差,以最終保持最佳預(yù)測(cè)器子集(特征選擇主題將在單獨(dú)的文章中處理)。
邏輯回歸和決策樹都是用于構(gòu)建行為記分卡的流行分類技術(shù)(監(jiān)督學(xué)習(xí)),它們是分析數(shù)據(jù)集的統(tǒng)計(jì)方法,分析獨(dú)立變量的預(yù)測(cè)者(或解釋者) 和因變量的響應(yīng)(或結(jié)果變量) 之間的關(guān)系。在我們的例子中,我們?cè)噲D根據(jù)上面給出的輸入變量的值來估計(jì)給予貸款的概率。為簡化起見,我們將變量數(shù)量限制在 4 個(gè)預(yù)測(cè)變量:年齡,收入,平均每月儲(chǔ)蓄金額,信用期限之后。
Logistic 回歸
在邏輯回歸中,目標(biāo) y 是二元的 ( 授予 p = 1 /不授予 p = 0) 和 授予信貸的概率 p。目標(biāo)是找到下面的公式的系數(shù) αi 來預(yù)測(cè) P 的 logit 變換。
為了找到系數(shù) αi,我們用標(biāo)記的歷史數(shù)據(jù)訓(xùn)練分類模型,其中 已經(jīng)知道「授予」/「未授予」的決定,通過使用交叉熵作為損失函數(shù)來比較預(yù)測(cè) ^ y vs 標(biāo)簽 y:
αi 的值是使用其一階導(dǎo)數(shù)和梯度下降等優(yōu)化算法最小化 L(α0,...,α4)的值:
決策樹
在決策樹(如 CRT,QUAID,QUEST,C5.0)中,我們構(gòu)建分類模型,學(xué)習(xí)從數(shù)據(jù)特征推斷出的決策規(guī)則以進(jìn)行預(yù)測(cè),生成具有與屬性(輸入變量)對(duì)應(yīng)的決策節(jié)點(diǎn)的樹結(jié)構(gòu)。
步驟 1:使用分類準(zhǔn)則(Splitting Criterion)(如信息增益,增益比,基尼指數(shù))選擇具有最佳分?jǐn)?shù)的屬性,該分?jǐn)?shù)將被選擇以產(chǎn)生關(guān)于目標(biāo)變量的最純節(jié)點(diǎn)(在我們的例子中,最佳分離的屬性授予來自未授予)。
步驟 2:使用結(jié)果子集創(chuàng)建根分裂節(jié)點(diǎn),然后通過重用分裂標(biāo)準(zhǔn)來選擇下一個(gè)最佳屬性以生成關(guān)于目標(biāo)變量的最純子節(jié)點(diǎn),從而對(duì)每個(gè)子集重復(fù)步驟 1
......
想要繼續(xù)閱讀,請(qǐng)移步至我們的AI研習(xí)社社區(qū):https://club.leiphone.com/page/TextTranslation/693
更多精彩內(nèi)容盡在 AI 研習(xí)社。
不同領(lǐng)域包括計(jì)算機(jī)視覺,語音語義,區(qū)塊鏈,自動(dòng)駕駛,數(shù)據(jù)挖掘,智能控制,編程語言等每日更新。
雷鋒網(wǎng)雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。