0
本文作者: 溫曉樺 | 2017-02-01 08:51 |
Capital One目前是美國第八大銀行控股公司,有信用卡、房屋貸款、汽車貸款、銀行等金融產(chǎn)品。用信息技術來全面驅(qū)動公司業(yè)務發(fā)展,是Capital One公司的制勝法寶。
智能信貸服務商讀秒,主要為自然人提供的無抵押無擔保的個人短期小額信用貸款,利用大數(shù)據(jù)與機器學習,它把傳統(tǒng)銀行最快3天的授信業(yè)務做到10秒完成。該公司CEO周靜,曾在美國“金融黑幫”之Capital One任職8年,歷任產(chǎn)品、市場、風控高級經(jīng)理。2006年,她回到中國進入渣打銀行,任渣打中國零售風險總監(jiān),至今有著近20年的跨國銀行風險經(jīng)管經(jīng)驗。
2015年1月26日,周靜加入PINTEC,帶領團隊開啟了打造一款智能信貸產(chǎn)品的征程——即如今“讀秒”的萌芽。歷經(jīng)一年多時間,讀秒從最初的一款決策引擎產(chǎn)品,逐漸發(fā)展成為一套完整的智能信貸解決方案,產(chǎn)品團隊也發(fā)展成PINTEC旗下子公司。
天下武功唯快不破。讀秒技術負責人仲惟曉向雷鋒網(wǎng)介紹,讀秒至今已經(jīng)接入了業(yè)內(nèi)約40個數(shù)據(jù)源,通過API接口實時調(diào)取。數(shù)據(jù)接入之后,讀秒通過自建的欺詐、預估收入、預估負債比等多個模型(規(guī)則)對數(shù)據(jù)進行數(shù)十萬維度的清洗、挖掘,再通過平衡卡和決策引擎給出綜合決策。而且,所有決策是平行進行的。10秒完成授信決策的背后,既有前期日積月累的數(shù)據(jù)收集和清晰,也有最后時刻刀光劍影的模型計算。
一般人認為,大數(shù)據(jù)、機器學習技術如同一個黑箱,但事實上有跡可循。仲惟曉介紹,讀秒的合作伙伴會海量的裸體數(shù)據(jù)給到他們,但真正有用的數(shù)據(jù)維度——基于數(shù)據(jù)構建的分析維度,實際上是由自己去挖掘的?!安⒉皇钦f把數(shù)據(jù)拿來,然后放在一個很神奇的機器學習模型里就能把結(jié)果預測出來?!?/p>
比如在前期用戶申請階段,會產(chǎn)生大量的用戶行為、交易數(shù)據(jù),或者信用數(shù)據(jù),這些數(shù)據(jù)能夠幫助決策機構了解“用戶是一個怎樣的人”,比如說看一個人的出行記錄,分析他的住所、行蹤、打的什么車、做什么航班以及艙位等等。而這些數(shù)據(jù)本身也需要挖掘的過程,雖然挖掘的過程與整個授信的過程是分離的?!坝泻A康臄?shù)據(jù)之后,我們需要利用距離、分組等決策算法,從這些數(shù)據(jù)中篩選出業(yè)務適用的模型,規(guī)避風險?!敝傥越又e例解釋背后的門道:
一個很簡單的例子,比如用戶在多平臺的借款的情況——以前我們覺得,一個客戶借款5次、8次或者10次,第三方數(shù)據(jù)源可能會提供。但是現(xiàn)在,我們更加會看,比如多平臺的借款頻率,在過去的90天,或者270天、360天中是怎么變化的,此外還有借款的次數(shù)和借款平臺數(shù)之間的關系。在這些裸體數(shù)據(jù)上面所建的就是所謂“維度”。
簡單來說,這是一個將非結(jié)構化數(shù)據(jù)結(jié)構化的過程。仲惟曉表示,不同用戶在不同平臺留存的數(shù)據(jù)看似獨立,其實它們之間也會形成網(wǎng)絡交織,比如通話記錄、交易對象等關系,“隨著用戶排量增加,留存的數(shù)據(jù)越來越多,現(xiàn)有模型才能得到進化,適用于更多場景?!贝髷?shù)據(jù)不是要找一個人,而是要找一群人。
而有前期臺后累積的功力,才有臺前10秒決策的速度。讀秒科學決策總監(jiān)任然坦然稱:“其實建模型這個東西,大部分時間都花在挖掘數(shù)據(jù)上,把幾千個,幾百個數(shù)據(jù)跑出想要的維度,最后一氣呵成建成模型,這個很快,只是之前這個東西是需要大量時間的積累。而且很多時候是需要試錯的。就比如現(xiàn)在如果有一千個維度在跑的話,毫不夸張地說,我們會建大約十萬或二十萬個維度,去試哪些維度有用,哪些維度沒用,因為需要去理解數(shù)據(jù)。”
“前期的數(shù)據(jù)分析過程,相當于機器學習的過程,而接下來的案例應用中——從收到貸款申請到最后跑模型決策,相當于機器接受考試的環(huán)節(jié)。”仲惟曉說:
數(shù)據(jù)提供方提供的數(shù)據(jù)首先被我們指標化,即通過人工的方式把指標從數(shù)據(jù)特征中判斷出來,平均一個消費信貸申請會有上百個指標。但是因為成本問題,這些指標并不會全部用在機器學習當中,我們會先利用歷史經(jīng)驗數(shù)據(jù)做一個泛化的計算,從計算中篩選出大約十幾個篩選度比較高的指標,然后這些指標的計算在線上實時進行?;旧厦恳粭l數(shù)據(jù)來了之后,我們每一個分布的節(jié)點會負責一定項的產(chǎn)品或者一定項數(shù)據(jù)的指標拆分。
這些拆分完成之后,它們會被壓到整個計算決策引擎里去跑模型,然后模型的數(shù)據(jù)成為是否給用戶提供授信的依據(jù),這是指標之一。然后基于這個用戶的行為來才會對模型進行修正。
CEO周靜補充道:“每一個科目都有一個分數(shù),然后科目都有不同的加權,但不一定每個科目加權都是同樣的比例。因為維度和比例,都是跟后期的逾期率是有關聯(lián)性的——如果關聯(lián)性大,比例可能就大一點;如果關聯(lián)性小,就小一點?!?/p>
全球個人信用風險評估體系的締造者,全球領先的預測分析和決策管理公司FICO的早期創(chuàng)始成員William Yao(姚志平)博士曾對雷鋒網(wǎng)表示,人的大腦擅長做單因子的分析,而擅長于綜合因子判斷的恰好是計算機?!八鼈儧]有感情偏差,在幾十個、幾百個概念中做綜合判斷,只要給它數(shù)據(jù),通過大量數(shù)據(jù)和權重,它都可以幫你計算出評分。美國幾乎各大銀行都在用機器學習做決策,這是機器學習一個很好的方面?!?/p>
快速、高效用的表現(xiàn)是機器決策引人探索和開拓的首要原因,而應用之后帶來的邊際效益就是它得到推崇和堅持的來源。以前獲一個貸款客戶成本很高,你要有網(wǎng)點,要有很多銷售人員,這都是成本。而如今,周靜稱,即使業(yè)務規(guī)模不斷壯大,團隊人員都不需要太多變化,可能只需要增加一些服務器?!懊恳淮蔚覀兊哪芰烤蜁砰_。每一次上量,邊際成本就降低,是一個復制性很強的模式?!?/p>
除了這些看得見的好處,調(diào)研環(huán)節(jié)大大縮短之后,也壓榨了欺詐黑產(chǎn)的發(fā)揮空間。周靜透露,根據(jù)以往碰到的欺詐現(xiàn)象,都是由中介第三方來包裝的。這些客戶可能人本身是真實的,但也許其本身的信用背景和收入并非真實,只是中介基于對整個審批流程了解的程度,而去做一套假的資料。所以從這個角度來講,大數(shù)據(jù)風控便直接切開了第三方,即便用戶造假,基于信息網(wǎng)絡的交叉比對也能為識別欺詐提供了一定程度的幫助。
“那智能信貸的技術壁壘在哪里?”
“技術壁壘有幾個,一是本身對金融產(chǎn)品的深度理解——不管是在什么形態(tài)當中,知道這個產(chǎn)品的本質(zhì)盈利模式和分析點在哪里。與此同時,需要金融人員和科技人員緊密結(jié)合,基本上成一體地互相理解,從而把架構從零搭建起來。第三是數(shù)據(jù)的獲取、挖掘能力和建立維度的能力。最后是整個公司的運營——因為風險都是后知的,你可能找到很多客戶,也給了很多貸款,但是如果收不回來的話,也是不行的。所以本身它還是跟傳統(tǒng)金融很多地方類似,就是怎么樣可以長期地安全地運營一個信貸業(yè)務,這個不只是IT,還要對將來市場有一定的預測,包括整個獲客的來源是否穩(wěn)定,獲客的人群本身是否可授信。總結(jié)起來是,風控、數(shù)據(jù)、貸后管理,最后就是整個客戶的周期。”
最后,周靜對雷鋒網(wǎng)表示,數(shù)據(jù)與技術驅(qū)動之下從獲客到?jīng)Q策,再到風控的整條完整的信貸產(chǎn)業(yè)鏈都做起來將是一個不可逆的趨勢,銀行不管是跟我們這樣的公司合作,還是自己做,都將發(fā)展這樣的模式?!叭绻苁腌娮鲆粋€決策,為什么還要回到那個消耗巨大人力和成本去走的三天的決策過程?不管是Fintech、傳統(tǒng)金融行業(yè)還是BAT,征信、風控公司也好,我不覺得這是一個只有幾家變得很尖端的趨勢,而是一定成為將來行業(yè)的常態(tài)?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。