0
本文作者: AI金融評論 | 2018-06-05 19:48 |
雷鋒網(wǎng)AI金融評論報道,6月1日,GIAC 全球互聯(lián)網(wǎng)架構(gòu)大會在深圳召開。該會議是長期關(guān)注互聯(lián)網(wǎng)技術(shù)與架構(gòu)的高可用架構(gòu)技術(shù)社區(qū)推出的、面向架構(gòu)師、技術(shù)負(fù)責(zé)人及高端技術(shù)從業(yè)人員的年度技術(shù)架構(gòu)大會,組委會從互聯(lián)網(wǎng)架構(gòu)最熱門系統(tǒng)架構(gòu)設(shè)計、工程效率、機器學(xué)習(xí)、未來的編程語言、分布式架構(gòu)等領(lǐng)域甄選前沿的有典型代表的技術(shù)創(chuàng)新及研發(fā)實踐的架構(gòu)案例,分享他們在本年度最值得的總結(jié)、盤點的實踐啟示,打造一個分享及討論平臺,改變未來一年的互聯(lián)網(wǎng)構(gòu)建方式。
大會更多的討論的是機構(gòu)方面的技術(shù)創(chuàng)新內(nèi)容,而在6月1日上午舉辦的Fintech分場上,小贏科技理財研發(fā)中心負(fù)責(zé)人林實立結(jié)合小贏科技的互聯(lián)網(wǎng)金融數(shù)據(jù)與應(yīng)用的演講則是為數(shù)不多的業(yè)務(wù)與數(shù)據(jù)運用相結(jié)合的分享。據(jù)介紹,小贏科技成立于14年,是一家快速發(fā)展的金融科技公司,累積交易千億,注冊用戶過千萬,林實立主要負(fù)責(zé)P2P交易系統(tǒng)的設(shè)計研發(fā)工作。
據(jù)雷鋒網(wǎng)了解,小贏科技所采用的數(shù)據(jù)架構(gòu)是基于經(jīng)典的Lambda架構(gòu)進(jìn)行選型的,Lambda架構(gòu)是Nathan Marz提出的一個實時大數(shù)據(jù)處理框架,其核心思路是將大數(shù)據(jù)系統(tǒng)架構(gòu)拆分為Batch Layer、Speed Layer和Serving Layer三部分,其中批處理層(Batch Layer)針對全量數(shù)據(jù)進(jìn)行處理,加速層(Speed Layer)針對實時的增量數(shù)據(jù)進(jìn)行處理,從而達(dá)到可以靈活應(yīng)對任意規(guī)模的數(shù)據(jù)處理需求。但據(jù)林實立介紹,目前小贏科技的數(shù)據(jù)處理“主要還是在離線處理部分,增量處理還是在待建,并沒有用到很大數(shù)據(jù)的處理。”
那么,在P2P交易系統(tǒng)中數(shù)據(jù)是如何被使用的?林實立舉了兩個例子:
第一個例子是邀請網(wǎng)絡(luò)分析,是基于用戶生命周期前端的“獲客”行為的數(shù)據(jù)應(yīng)用。從業(yè)務(wù)層面,其希望解答的問題是:邀請的營銷費用花在哪些人上最有效?邀請效果會不會隨時間衰減,具體情況又是什么樣的?
從具體業(yè)務(wù)場景看,該分析主要研究邀請人與與受邀人注冊時間上的間隔關(guān)系,以及邀請層次與邀請效果的關(guān)系。通過對數(shù)據(jù)的分析,用于指導(dǎo)P2P平臺在用戶注冊多長時間后發(fā)起補貼最為合適、針對哪些用戶進(jìn)行補貼最為合適,以及預(yù)測一輪邀請補貼在一定的時間內(nèi)帶來多少新用戶。
小贏科技在對數(shù)據(jù)分析中發(fā)現(xiàn):對于普通邀請人(一般用戶)和非普通邀請人(自媒體,大V等),在邀請與注冊的間隔時間、衰減效應(yīng)、邀請層次與邀請效果的關(guān)系有著比較大的區(qū)別。具體來說,普通邀請人的邀請衰減效應(yīng)較為明顯,而非普通邀請人的衰減效應(yīng)相對沒有那么明顯,往往還會出現(xiàn)二次或三次的峰值;如果再進(jìn)一步量化,普通邀請在發(fā)出邀請后到達(dá)預(yù)期被邀請比例(例如50%)的時間要更短一些,非普通邀請到達(dá)預(yù)期效果的時間則更長一些。通過經(jīng)過數(shù)據(jù)分析得到邀請的事實關(guān)系表,可以大致了解到不同邀請人的再邀請傳播系數(shù),以及在什么時間激發(fā)、激發(fā)哪些用戶、通過什么渠道激發(fā)等指標(biāo),從而可以指導(dǎo)促銷的投放。
第二個例子則是高凈值聚類分析。其背景則是,客服部門在人力有限的情況下,如何對高凈值用戶進(jìn)行更有效的發(fā)展和維護?在具體的分析過程中,技術(shù)部門則根據(jù)業(yè)務(wù)部門定義高凈值用戶范圍,以及高凈值用戶的分類,采用RFM模型進(jìn)行了分析。
(雷鋒網(wǎng)按:RFM模型是在用戶關(guān)系管理中被廣泛應(yīng)用的模型,按照最近一次消費(Recency)、消費頻率(Frequency)、消費金額(Monetary)三個維度,對用戶進(jìn)行細(xì)分,根據(jù)不同的用戶等級分類,采取不同的營銷策略,并為客戶管理提供依據(jù)。)
小贏科技將RFM三個指數(shù)進(jìn)行量化:
R:最近一次消費,最近一次投資離現(xiàn)在的天數(shù)
F:消費頻率,最近30天的投資次數(shù)
M:消費金額,最近30天的投資金額
在聚類方法選擇中采取等記錄數(shù)和等總數(shù)兩種分類劃分方法,其中R采取等記錄數(shù)分類,越小分?jǐn)?shù)越高;F采取等記錄數(shù)分類,投資頻率越高分?jǐn)?shù)越高;M采取等總數(shù)分類,投資金額越高分?jǐn)?shù)越高,并分為5類按1-5進(jìn)行評分,在實際業(yè)務(wù)中,平臺可以根據(jù)對于參數(shù)的重要程度給予不同的權(quán)重,最終加權(quán)得出RFM分?jǐn)?shù),根據(jù)分?jǐn)?shù)劃分不同的用戶類別。
或許是為了“留一手”,在分享中所舉的兩個例子都比較簡單,也沒有涉及到諸如“利用機器學(xué)習(xí)技術(shù)進(jìn)行大數(shù)據(jù)挖掘”的內(nèi)容。但這實際也引發(fā)了一個問題的討論:在互聯(lián)網(wǎng)金融行業(yè)中,如何發(fā)揮數(shù)據(jù)的最大價值?
相比起傳統(tǒng)金融服務(wù),互聯(lián)網(wǎng)金融將金融服務(wù)的渠道從線下轉(zhuǎn)移到了線上,借助用戶流量紅利,互聯(lián)網(wǎng)金融在短時間內(nèi)發(fā)展出了P2P、眾籌、網(wǎng)貸等創(chuàng)新模式,幫助金融行業(yè)提高了獲客的手段,從而得到了快速發(fā)展。然而在互聯(lián)網(wǎng)金融發(fā)展的早期,互聯(lián)網(wǎng)金融公司的主要利潤來源是“去掉中間環(huán)節(jié)”和流量變現(xiàn),在基于業(yè)務(wù)本身的理解和對基于數(shù)據(jù)的精細(xì)運營上做得并不夠。
隨著2015年對互聯(lián)網(wǎng)金融合規(guī)整頓的展開、2016年的平臺大混戰(zhàn)、2017年的重新洗牌之后,“金融科技”的提法開始逐步抬頭。從“互聯(lián)網(wǎng)金融”到“金融科技”,當(dāng)中的區(qū)別不僅僅是名字上的改變,而是在業(yè)務(wù)理解模式和經(jīng)營思路上的轉(zhuǎn)變,基于數(shù)據(jù)分析的基礎(chǔ)上,利用機器學(xué)習(xí)、數(shù)據(jù)挖掘、區(qū)塊鏈、云計算等創(chuàng)新技術(shù)手段的金融創(chuàng)新活動。在互聯(lián)網(wǎng)金融業(yè)務(wù)的的資金運營、投資分析、用戶分析、營銷、風(fēng)控等各環(huán)節(jié),金融科技都在發(fā)揮著重要的作用。
據(jù)雷鋒網(wǎng)了解,互聯(lián)網(wǎng)金融企業(yè)面臨的主要風(fēng)險為惡意欺詐,70%左右的信貸損失來自于借款人惡意欺詐,每年互金行業(yè)因欺詐所導(dǎo)致的損失在數(shù)百億元級別。因此,風(fēng)控也成為了互聯(lián)網(wǎng)金融創(chuàng)新的重地,幾乎每家轉(zhuǎn)型的互金公司都在稱“我們的核心競爭力是大數(shù)據(jù)風(fēng)控”,在對外的宣傳資料中,這些大數(shù)據(jù)風(fēng)控模型往往具有幾千個甚至上萬個變量,以“凸顯”其技術(shù)實力。
然而在會場,一位不愿意透露姓名的從業(yè)人士告訴雷鋒網(wǎng),大數(shù)據(jù)并不能完全解決風(fēng)控的問題。在他看來,目前成千上萬個參數(shù)的風(fēng)控模型過于復(fù)雜,并不一定能完全反應(yīng)實際的風(fēng)險情況,甚至由于需要考慮的東西太多,可能會影響結(jié)果,而且同一套風(fēng)控體系,換了一個環(huán)境效果就會大不相同。
“比如說支付寶的個人信貸業(yè)務(wù)做得很好,我們看到的可能是基于芝麻信用成千上萬個參數(shù)的風(fēng)控,但實際上可能是因為,如果一個人在支付寶借錢不還,他可能就沒法使用相關(guān)業(yè)務(wù),沒法在淘寶上買想要的東西,而這是數(shù)據(jù)上看不出來的?!彼屠卒h網(wǎng)舉例道。
在機器學(xué)習(xí)領(lǐng)域,過多的無關(guān)參數(shù)帶來的噪音干擾被稱為“過擬合”。關(guān)于參數(shù)的一個經(jīng)典故事是費米曾經(jīng)說過,“我的朋友馮·諾依曼用四個參數(shù)就可以擬合出一頭大象,用五個參數(shù)可以讓它的鼻子擺動?!币敫嗟膮?shù),可能會增加模型的精確程度,但如果選擇了不恰當(dāng)?shù)膮?shù),則有可能會反過來干擾結(jié)果。
而在實際業(yè)務(wù)中,基于大數(shù)據(jù)分析也有著不小的難度。金融業(yè)務(wù)屬于業(yè)務(wù)復(fù)雜的強監(jiān)管業(yè)務(wù),存在建模困難的問題;同時可利用的數(shù)據(jù)多元化,但評價往往是有限的。成千上萬的變量,如何將這些多維數(shù)據(jù)變?yōu)槟芊窠杩?、可以借多少的一維數(shù)據(jù),不同風(fēng)控系統(tǒng)會有不同評價,這也是最具挑戰(zhàn)性的地方。
而且這樣的問題,并不一定能通過“開放數(shù)據(jù)”的方式得到解決。面對同一個征信系統(tǒng),各家銀行的效率、風(fēng)險控制、定價能力并不一樣,面對數(shù)據(jù)開放后透明的數(shù)據(jù),即便有許多可以提供解決方案的金融科技公司輸出技術(shù),但真正決定大數(shù)據(jù)的效果的,還在于使用大數(shù)據(jù)這把“屠龍刀”的人。
如林實立在分享中的觀點:數(shù)據(jù)的運營不在與多復(fù)雜,而是有沒有應(yīng)用的意識,在產(chǎn)品、開發(fā)、測試鏈條里對建模流程,有一個清晰的認(rèn)識,才能有很好的配合,起到實際的指導(dǎo)作用。
但真正做好這一點并不容易,想要在成千上萬個參數(shù)中找到對業(yè)務(wù)起關(guān)鍵作用的參數(shù),不同的人群、不同的環(huán)境、不同的業(yè)務(wù),起決定作用的參數(shù)可能各不相同,這對金融公司來說無異于摸著石頭過河,即便碰巧找對了參數(shù),也可能只是“煉金巫師的煉金術(shù)”。
“風(fēng)控靠大數(shù)據(jù)模型,盈利靠高息貸款”,這也是整個P2P乃至整個互聯(lián)網(wǎng)金融目前存在的問題。毫無疑問,大數(shù)據(jù)的使用可以優(yōu)化管理,提高風(fēng)控效率,降低風(fēng)控成本,但從目前的應(yīng)用來看,還是有很長的路要走。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。