丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
專欄 正文
發(fā)私信給張馳
發(fā)送

2

機器學習如何應用于金融領域?

本文作者: 張馳 2016-07-21 18:30
導語:最近氪信創(chuàng)始人朱明杰在朗迪中國峰會發(fā)表演講,談及了將機器學習應用于金融的難點,以及如何提升模型的可解釋性。

機器學習如何應用于金融領域?

去年P2P公司遇冷后,紛紛轉型稱會用大數據、機器學習等科技手段服務金融,搖身一變成為時髦的Fintech金融科技公司。但實現(xiàn)過程并不簡單,讓機器代替人去處理數據做判斷,在國內金融領域才剛剛起步。

CreditX氪信是雷鋒網接觸的一家用機器學習做風投的公司,在金融領域擁有不少實驗經驗和思考。最近氪信創(chuàng)始人朱明杰在朗迪中國峰會發(fā)表演講,談及了將機器學習應用于金融的難點,以及如何提升模型的可解釋性。下文編輯自演講內容,有刪減。

我做了十多年的機器學習,用機器代替人去處理數據做決策和判斷。過去十多年的機器學習,成功的應用都是在互聯(lián)網上,搜索,廣告,推薦,可以說互聯(lián)網率先達到了數據時代。而到金融創(chuàng)新這個領域,如何實現(xiàn)互聯(lián)網級別的機器學習和人工智能,大家都剛剛起步,我今天想講講我們CreditX在金融領域實踐互聯(lián)網級別機器學習的一些經驗和思考。

金融風控的痛點

我一直認為,“科技進步是被業(yè)務需求逼出來的”。過去我們在互聯(lián)網行業(yè)靠算法和機器,都是被逼的,為什么,因為數據量實在太大了,你想去淘寶搜個手機殼,讓阿里的同學人肉從上億的商品里幫你找出最喜歡最合適的,那根本不可能。傳統(tǒng)金融場景里,一筆100萬的貸款主要靠風控人員和關系,那是可行的;而到了銀行的信用卡中心,積壓的申請審核,讓審批人員每周加班,都批不完。

那現(xiàn)在互聯(lián)網金融要面臨更加普惠的場景,比如幾百塊錢一筆的手機貸,靠鋪人力一定是行不通的。所以,這已經不單單是提升運營效率問題,而是必須要把活兒交給機器,讓機器來學習人的風控經驗,機器人變成風控專家。

金融領域應用機器學習與人工智能的難點

第一個問題是數據太少。因為金融數據非常稀疏,而且現(xiàn)在的很多金融產品形式在以前沒有發(fā)生過,所沒有十幾年的數據積累。換句話說就是缺少訓練數據,這又被稱為冷啟動,缺數據。另外,金融領域出現(xiàn)壞賬情況少則一個月多則數月,數據積累需要等很久,相比之下,互聯(lián)網搜索領域內可以迅速拿到點擊反饋,兩者差別很大。所以數據缺失是阻礙機器來學習人類經驗的巨大障礙。

第二個是數據太多。這里指的是數據特征維度多,超過了人的處理能力。傳統(tǒng)金融只有十幾維度的特征變量,人工調公式即可應對。但現(xiàn)在面臨這么多維度的數據,大家也想了很多很好的愿景,討論很多數據都可以用。但為什么用不上呢?問題在于我們有什么辦法可以有一個很強的表達能力將這些很原始的,也可以叫弱變量的數據特征利用起來。將弱特征數據組合起來,與結果聯(lián)系起來,讓人的直觀經驗可以理解,讓風控專家去反饋。

在金融場景內,不能像互聯(lián)網機器學習一樣是一個黑盒子,一堆數據扔進去,等結果來反饋迭代。金融場景內,特別強調模型的可解釋性,這樣才能把人的風控經驗和直觀感受跟數據表現(xiàn)結果關聯(lián)起來。在此基礎上,我們才能說把人的經驗介入到利用數據進行機器學習建模的操作中去。做到特征要能夠追溯回去,尤其是金融的反饋結果要等很久,需要人能夠快速干預反饋。

如何解決金融風控冷啟動問題

數據太少

對于數據太少和產生太慢的問題,冷啟動問題是一個非常典型的case。我們在互聯(lián)網行業(yè)經常面臨缺少數據的問題,也積累了成熟的經驗,就是把人的因素疊加到機器學習過程中去。我們做搜索廣告時,會請人標注數據,然后通過標注數據的專家來指導算法工程師調優(yōu)算法,改進排序結果。而在金融場景里,我們有很多現(xiàn)成的經驗以及經驗豐富的風控人員,這些專家有很強的風控知識。

理論上講,如果有幾百個風控專家,不用發(fā)工資,我們做手機貸也可以做下去,但實際情況是我們必須靠機器去學習人的風控經驗。所以我們通過半監(jiān)督學習的方法,把業(yè)務風控專家和實際的信貸結果在online學習中做一個結合。在這個過程中,風控人員可以實時的介入,不停地根據輸出結果做一些調整,然后非常實時地反饋到模型訓練的迭代提升的過程當中。

這就說我們特別重視人的因素?,F(xiàn)在大家都在講人工智能,人工智能的本質是什么?在我的理解其實就是讓機器學習人的經驗。以前我們依賴幾個經驗豐富的風控人員,現(xiàn)在我們可以讓機器把人的經驗學過來,然后讓機器來做一個自動的決策。

金融的業(yè)務結果和樣本非常珍貴。比如,我之前在房貸業(yè)務上積累了一些樣本,然后換到一個新的消費信貸業(yè)務上,或者從一個消費信貸業(yè)務切換到另一個新的業(yè)務。這些珍貴的樣本數據不能丟掉,但怎么去用呢?我們可以做到盡可能利用已有的經驗和知識,把generic的風險核心模型和domain knowledge分開,再去根據業(yè)務的場景信息,以及場景內的先驗知識結合起來,在此基礎上學習和復用跨領域跨場景的知識,并且可以做到知識積累。

深度學習技術解決特征工程的難點

數據太多

接下來我們來看“數據太多”。我將這個問題分為兩個部分來看。

首先是數據的特征維度很多。我們關心的是如何將大數據和金融風控的問題掛鉤起來,這里面其實是需要非常強大的特征加工和表達能力。這是傳統(tǒng)的線性回歸統(tǒng)計建模方法很難去完成的。我們的辦法有很多,這里面包括大家現(xiàn)在熱度很高的“深度學習”。深度學習的本質是通過數據特征的處理去學習人處理知識和數據的方式。為了解決數據太多的問題,讓人能看透浩瀚的原始數據,在模型的前端,我們嘗試了不同的深度特征編碼方法,非監(jiān)督學習的方法對原始數據進行預處理,從而實現(xiàn)特征的降維,將浩瀚的原始數據和最后結果掛上鉤。

模型的可解釋性

其次是模型的可解釋性。金融專家特別關心模型的可解釋性。這里面有兩個意義:

  • 如果給信貸對象一個打分的結果,如果不能解釋,這個很難和申請人去溝通的;

  • 另外,我們所面臨的是一個非常復雜的環(huán)境,如果對于風控結果仍然是黑盒進黑盒出的話,風險是很難去把控和估計的。

如果模型出了問題,造成的風險漏洞是我們不能承受的。在互聯(lián)網金融業(yè)務這么快速成長的背景下,很有可能公司的業(yè)務都做不下去。所以,互聯(lián)網內黑盒進黑盒出的方法就不適用于金融場景,需要有一個可解釋的local模型去做到。我們的實踐經驗是,利用LIME去捕獲結果或者局部結果中的關鍵變量,然后讓風控專家迅速的抓到是哪些特征導致結果的變化。

氪信取得的效果

我們把互聯(lián)網的技術經驗,在金融場景內做了一些艱難的嘗試,并得到了一些實踐經驗,包括從最開始的數據獲取處理,到人的介入參與,到對復雜模型的干預過程,最后形成我們的practice。

從效率上說,我們的一個合作伙伴得到了很好的效果。他們做了一個金融信貸場景,部署在氪信的系統(tǒng)和模型上跑,只需要3-4個業(yè)務風控兼運營的人員,風控的大部分工作交給機器去做。

另外從效果上看,我們利用DNN模型做出來一個結果,可以看到結果比傳統(tǒng)的LR模型ks值從0.19提升到0.43。數字和結果是我們做模型的人最直接的一個答案,這里面沒有什么可以講概念的。

大家之前對大數據期望值很高,又屢屢失望,現(xiàn)在其實對數據科技來說是一個很好的時機。因為大家真的需要能夠有運用數據的能力,用機器解決金融實際問題,這也是我們這個時代的機會和風口,也是一個新的開始。

下個月的12、13號,雷鋒網將在深圳舉辦一場盛況空前的人工智能與機器人峰會,屆時我們將發(fā)布“人工智能&機器人Top25創(chuàng)新企業(yè)榜”榜單,為此我們在搜集并確認AI、機器人、自動駕駛、無人機等幾個領域的優(yōu)質項目。如果您的項目是相關領域的,且足夠有技術壁壘、足夠有成長性,歡迎聯(lián)系2020@leiphone.com。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

機器學習如何應用于金融領域?

分享:
相關文章

專業(yè)寫瞎

不受意識控制地報道那些讓人感動的產品技術和事件......zhchsimons@gmail.com ;微信:nksimons;《腦洞》公眾號:hackmind
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說