0
本文作者:雷鋒網(wǎng)網(wǎng)絡(luò)安全專欄作者李勤
角色扮演?
NONONO,不是你們想的這種……
請純潔一點
----講正事分割線----
不久前,國內(nèi)反欺詐服務(wù)商 Maxent 猛犸反欺詐(以下簡稱猛犸)對外宣布,已于 2017 年 3 月 完成由 DCM 領(lǐng)投的 5000 萬人民幣 A+輪融資,A 輪投資方祥峰投資此輪繼續(xù)跟投。本次融資后,Maxent 猛犸反欺詐將繼續(xù)重點在線上金融業(yè)務(wù)反欺詐領(lǐng)域發(fā)展。
然而,讓我印象深刻的不是融資多少,投資人如何在演講臺上為猛犸背書。而是幾個小時的融資發(fā)布會結(jié)束后,猛犸CEO張克邀請的一個外地合作伙伴 A 在參與完整場活動后,很給面子的繼續(xù)等待正在和其他嘉賓聊天的張克,在 A 身旁的是 A 的另一合作廠商 B,B 的業(yè)務(wù)與猛犸有若干競爭關(guān)系。
讓人出乎意料的是,在我詢問他的參會目的時,B 很實誠的告訴我,他很佩服猛犸的 ID 系統(tǒng),能在那么多弱相關(guān)的標簽下,從各種看上去無法辨別的身份關(guān)系中,準確識別與發(fā)現(xiàn)哪些人有金融欺詐風險。
能讓友商也這么感興趣,這家公司一定有過人之處。
很想知道這個秘密
所以,最近我與張克約了一次采訪,追蹤了這個讓猛犸友商也感興趣的點——猛犸如何揪出一個不想還錢的騙子。
本文作者:雷鋒網(wǎng)網(wǎng)絡(luò)安全專欄作者李勤
----這次真的要講正事了----
這個故事要從一則新聞講起。
幾個月前,深圳警方一窩端了一伙詐騙團伙,其中有個女騙子擁有超高的“角色扮演”技能,與三個大齡未婚多金女青年在線上談起了戀愛,目的顯而易見。
當然,這個女青年業(yè)務(wù)能開展成這樣,我也是服氣的。
我就沒有這樣的撩妹技能
銀行和各種線上借貸平臺遇到的騙子和這個女騙子有類似的技能:
他可能會偽裝成一個收入穩(wěn)定的醫(yī)生,最近因為購房裝修手頭緊張,然后在 A 網(wǎng)貸平臺貸款;
他也可能變身為一個建筑工地的工人,最近老板資金周轉(zhuǎn)緊張,工資暫時不能到帳,兒女需要學費,然后從 B 平臺貸取一筆資金;
他還有可能一次性“變性”為一個妙齡大學生,需要消費貸款購買最新的包包和化妝品。
他也許是一個非職業(yè)的多頭借貸人,月收入5000元,但是手頭緊張,所以從多個平臺各貸了5000元,然后“情非得已”地不想還款,也無法按時還款。
窮
他也可能是一個職業(yè)的借貸中介。比如,某地某市場里,常年混跡一群無工作的人,身上的錢只夠勉強吃飯,每晚靠網(wǎng)吧的8塊錢一晚包夜度過,等待第二天工頭發(fā)來各種活計。突然有一天,這個借貸中介過來,只要求你有身份證,宣告一個天大的“好消息”:把身份證拿過來,他幫你貸款,貸款到5000元,他分1000元,剩下的4000元給你。
事實上,這群人暫無還款能力,于是,這種一筆筆的貸款就成了壞賬,日積月累,或突然爆發(fā),壓垮了一家家線上貸款平臺,或損壞了一家大銀行的商譽。
這些悲催的例子其實都是在說一件事情——
為了擴大生意,銀行們和線下借貸平臺都瞄上了做線上借貸平臺(以下簡稱平臺)。從實際操作流程看,有過線上借貸經(jīng)驗的人應(yīng)該知道,線上借貸流程比拿著各項資料去銀行與客戶經(jīng)理面談要簡化很多。也因此,客戶經(jīng)理再也不是手持一份客戶的個人征信報告,再進行一輪復雜的社會關(guān)系調(diào)查,各種流水和資產(chǎn)審核,花上一些時間面談來判斷這個人到底能不能還款。
他們可能只需要一張身份證照片,一些簡單的個人信息,就可以獲得一個貸款“客戶”。但是,這個“客戶”是否真的會還款?是否要把這筆款貸給這個“客戶”?平臺想要知道這些問題的答案,這就是猛犸要解決的問題之一。
平臺當然也不傻,線上生意做久了,總會有大量的數(shù)據(jù)產(chǎn)生。
你可能理所當然的想:大量的數(shù)據(jù)會產(chǎn)生用戶畫像,從而不就確定了一個人的還款能力?
話都讓你這么說了我特么還說啥
事實上,平臺比誰都想提高風控能力,但現(xiàn)實很骨感。大量的數(shù)據(jù)產(chǎn)生后,平臺面臨了這些問題:
1.業(yè)務(wù)量大,產(chǎn)生的數(shù)據(jù)量很大,處理起來很麻煩,怎么知道哪些有用,哪些沒用?
2.獲得的數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)混在其中,一般人無法處理,需要大量數(shù)據(jù)專家。
3.碰上專業(yè)的欺詐團伙,你怎么辦?比如,門店提供貸款買手機業(yè)務(wù),銷售員卻貼了大大的標語:助貸。銷售員和顧客合伙騙貸怎么辦?
要回答這些問題,首先要知道“誰是誰”。
比如,在線上貸款中,一類現(xiàn)象十分嚴重:盜用用戶信息進行貸款。
“在一項交易進行時,會產(chǎn)生一堆的聯(lián)系點,比如,我用我的手機發(fā)起轉(zhuǎn)帳交易時,轉(zhuǎn)了多少錢?轉(zhuǎn)給誰?在哪個 IP 地址發(fā)起的交易?都是聯(lián)系點。在不同的地方、不同的IP地址,我都可能發(fā)起不同的交易。所以,我認為數(shù)字化業(yè)務(wù)的核心是做數(shù)據(jù)平臺時,以人、設(shè)備和賬戶為核心,建立整體的數(shù)據(jù)平臺,在這個基礎(chǔ)之上,再去做分析、大數(shù)據(jù)、機器學習?!睆埧苏f。
猛犸本身不產(chǎn)生數(shù)據(jù),也沒有削尖腦袋想鉆進數(shù)據(jù)江湖。
按照張克的說法,創(chuàng)業(yè)公司沖進這個領(lǐng)域要面對艱難的競爭,還不如做好手頭的技術(shù),因此,他們與諸葛io、talkingdata 等公司合作,引進第三方數(shù)據(jù),同時把自己的技術(shù)下沉到每一個客戶的應(yīng)用中,梳理基于他們的應(yīng)用收集的數(shù)據(jù)。
專心打造一項技術(shù),讓自己足夠強,強到與客戶的應(yīng)用相匹配時,可以像一股細細涓流,絲毫不產(chǎn)生震蕩的影響,這就是猛犸的策略之一。
在費心竭力地搜集終端、用戶、賬戶、業(yè)務(wù)和第三方數(shù)據(jù)后,還有關(guān)鍵的一步是讓數(shù)據(jù)“說同一種語言”。因此要對數(shù)據(jù)進行整理,實現(xiàn)語義的統(tǒng)一,再在感知能力這一塊,對設(shè)備、渠道、用戶、產(chǎn)品和交易之間的關(guān)聯(lián)進行特征抽取與建模。
“在機器學習里,如果機器學習是一個金字塔,塔尖是模型和結(jié)論,效果卻是由塔的基座(數(shù)據(jù))來決定。數(shù)據(jù)基礎(chǔ)決定效果,上面的模型都是盡量接近塔尖——所能夠預設(shè)的天花板而已?!睆埧死潇o而克制,他并不迷戀一座宏偉的金字塔塔尖的登頂,而是清晰地看到什么是基礎(chǔ),到底每一層能發(fā)揮什么作用,而自己又能看到怎樣的風景。
那么,到底是什么在支撐猛犸進行智能風控?張克介紹:
第一,IT系統(tǒng)?,F(xiàn)在業(yè)務(wù)遷移到互聯(lián)網(wǎng),最基礎(chǔ)的是要知道做業(yè)務(wù)的現(xiàn)場是什么?如果犯罪了,要知道犯罪現(xiàn)場,交易則要知道設(shè)備現(xiàn)場。
張克稱,猛犸的設(shè)備指紋技術(shù)與其他廠家相比,并非做做主動式指紋,而是做被動式指紋。
被動式指紋的優(yōu)點在于能打通微信,比如,用微信、內(nèi)嵌瀏覽器訪問一個服務(wù),其他廠家無法識別是否來自于同一個設(shè)備,但是被動式指紋都能夠打通。一旦打通,就可以更好地建立頂層數(shù)據(jù)集。
第二,異常檢測。猛犸把它分成四類,做了四種不同的計算框架,只要客戶提出來,最少一天,最多一周,就能根據(jù)業(yè)務(wù)需要、業(yè)務(wù)場景把新的計算工程放進去,然后檢查用戶行為異常。
在異常檢測上,猛犸做了統(tǒng)一量綱。如果一個人一天登錄了十次,數(shù)值有異常,這是一個特征。還有一種場景是:同樣一個人,兩次交易之間相隔了一小時,但地理位置相隔了一千公里,這個也是異常特征。
但是以上層模型用的這兩個異常特征其實風馬牛不相及,根本不是在一個框架里面討論問題。異常統(tǒng)一量綱后,根據(jù)概率分布,猛犸分析出來的結(jié)果是,所有的分布都在1和1000之間,用起來非常簡單,這種模型對使用便利性而言,是巨大的提升。
還有一個好處是冷啟動,你做模型時經(jīng)常碰到一個問題:如果不給我數(shù)據(jù),怎樣才能試出一個可用的模型?
還有一點,在反欺詐里,數(shù)據(jù)本身就有很大的問題:標注數(shù)據(jù)非常稀少,數(shù)據(jù)本身是非飽和數(shù)據(jù),一個數(shù)據(jù)的數(shù)據(jù)集可能有幾千個不同的維度,這幾千個維度在所有的數(shù)據(jù)里不一定都有。
在這種情況下,用監(jiān)督式的方法很難做,做出來的模型效果也很差,所以猛犸就采用非監(jiān)督的方法,第一,能冷啟動,第二,在標注數(shù)據(jù)比較少時,可以較快地主動發(fā)現(xiàn)一些欺詐。用這種異常做聚類,也會更加準確。
第三,行為生物識別。生物識別現(xiàn)在也是一個很火的領(lǐng)域。很多供應(yīng)商在做指紋、聲紋、人臉識別,而且做得都不錯。但是,還有一個問題:它是 N 次檢測,每次檢測時,用戶會知道你調(diào)用了指紋檢測,或調(diào)用了人臉識別的檢測,因此,存在兩個問題:
1.影響用戶體驗。
2.黑客會知道你在用什么手段在找他。
所以,女朋友趁著男朋友睡覺時,拍一張照片,或者拿手機在他臉上照一照就能夠貸款,有很多這種類似的破解手段。
現(xiàn)在還有一種方法——用行為做生物檢測,而非物理、生理的方式做生物檢測。
比如,你手里拿著一個 iPhone6,如果是右撇子,滑動的位置,更大的概率是靠近左邊。如果是左撇子,滑動的位置大概是靠近右邊??孔筮€是靠右,以及上下的位置,在一定程度上會反映出手掌的大小。在輸入時,可以檢測出手指的力度、大小。
這些都是一些弱因素,并不能通過一個因素直接判斷這個人是誰。但是,當一系列弱因素結(jié)合在一起時,很容易判斷出來,在這個時間用特定的一臺手機的人與過一段時間后再用特定的同一臺的手機的人是不是同一個人。
這種判斷的好處是:這是一種基于行為的生物識別,識別背后操作手機的人會不會有變化。對黑客而言,他不知道你在用什么手段,就算他知道了,把我的手機偷走了,但也很難在用戶的手機上模擬用戶真正的使用行為。
對用戶而言,對用戶體驗的影響很小,因為用戶根本無法意識到。現(xiàn)在已經(jīng)有很多國外的創(chuàng)業(yè)公司在做這種技術(shù),丹麥最大的一家銀行在幾年前就已經(jīng)部署這種技術(shù)。
----正事講完----
愿天下無騙子
+
借錢要還
本文作者:雷鋒網(wǎng)網(wǎng)絡(luò)安全專欄作者李勤
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。