0
本文作者: 周蕾 | 2019-07-16 23:31 | 專題:CCF-GAIR 2019 |
雷鋒網(wǎng)按:7月12日-7月14日,2019第四屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2019)于深圳正式召開。峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流博覽盛會(huì),旨在打造國內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺(tái)。
在7月13日的「AI金融專場(chǎng)」上,京東數(shù)科生態(tài)中心信用管理部總經(jīng)理&ZRobot CEO喬楊帶來了以「數(shù)字科技驅(qū)動(dòng)的信貸反欺詐技術(shù)」為題的演講。
喬楊所在的ZRobot成立于2016年11月。他介紹稱,該公司成立之初的目的是利用海量高維的數(shù)據(jù)資源,結(jié)合業(yè)內(nèi)先進(jìn)的數(shù)據(jù)挖掘技術(shù)和模型算法,借助京東數(shù)科的金融和非金實(shí)踐應(yīng)用場(chǎng)景,向銀行、保險(xiǎn)、信托、小貸公司、持牌消金以及融資租賃公司等提供各類數(shù)據(jù)產(chǎn)品支持以及智能風(fēng)控、智能營銷解決方案,合作機(jī)構(gòu)近300家。
以下為主題演講內(nèi)容全文,經(jīng)雷鋒網(wǎng)AI金融評(píng)論做了不改變?cè)獾木庉嬇c整理。
今天的主題是反欺詐,關(guān)于AI、數(shù)據(jù)挖掘技術(shù)、模型算法在這個(gè)領(lǐng)域的應(yīng)用和嘗試。這方面探索都非常多,但是真正實(shí)際落地并取得良好效果的案例少之又少。
大家經(jīng)常會(huì)在媒體上看到些跟欺詐相關(guān)的令人觸目驚心的新聞報(bào)道,例如醫(yī)美中介欺詐、黑中介騙貸、洗錢套現(xiàn)等等。
隨著中國消費(fèi)信貸及互聯(lián)網(wǎng)化的飛速發(fā)展,信貸產(chǎn)品種類的日益豐富,欺詐的手段也不斷在更新進(jìn)化。欺詐分子是一群高智商且勤奮努力的人群,加上欺詐防范手段的滯后性,使得欺詐案件層出不窮,可謂道高一尺,魔高一丈。從早期的傳統(tǒng)欺詐手段,已經(jīng)逐步進(jìn)化為更加先進(jìn)更難察覺的新型欺詐手段,比如早期的利誘員工到如今的潛入機(jī)構(gòu),本人申請(qǐng)到資信包裝等等。欺詐領(lǐng)域經(jīng)常存在一種“道高一尺,魔高一丈”的情況,要怎么做才能實(shí)現(xiàn)“魔高一尺,道高一丈”,真正實(shí)現(xiàn)欺詐的有效防范?
風(fēng)控從業(yè)者都知道,在信貸風(fēng)險(xiǎn)領(lǐng)域,我們最關(guān)注的是信用風(fēng)險(xiǎn)和欺詐風(fēng)險(xiǎn)。信用風(fēng)險(xiǎn)非常好理解,最多的是從還款能力和意愿這兩個(gè)大維度去判斷。但是在欺詐風(fēng)險(xiǎn)領(lǐng)域,更多關(guān)注的是一方、二方、三方和多方混合欺詐,這就使得欺詐風(fēng)險(xiǎn)在判斷上更加復(fù)雜,難度更加大。
由于中國移動(dòng)互聯(lián)網(wǎng)的發(fā)展,比歐美一些國家更加快速、更加發(fā)達(dá),使得欺詐手段層出不窮,也使得我們?cè)谶@個(gè)領(lǐng)域反欺詐的技術(shù)相對(duì)滯后。在美國,欺詐損失比例不到20%,而在中國為50%甚至更高。所以在中國,整體信貸環(huán)境更加惡劣,防范欺詐風(fēng)險(xiǎn)的重要性更高。在建模方式上,我們通常是以已知的欺詐案件庫進(jìn)行定義,再進(jìn)行反欺詐模型的搭建,本身就很難進(jìn)行有效的提前預(yù)警。
舉個(gè)例子,當(dāng)時(shí)我在美國做反欺詐的時(shí)候,有一個(gè)客戶在拉斯維加斯的線下BestBuy門店買了一部液晶電視,買完之后到周圍的麥當(dāng)勞Drive-Through買了一個(gè)漢堡。
我們的交易反欺詐模型是實(shí)時(shí)在線上跑的,用戶每做一筆刷卡,系統(tǒng)都在計(jì)算是否可以通過。這個(gè)用戶平時(shí)是經(jīng)常在線上消費(fèi)的,很少有在線下大額消費(fèi)的行為,所以這筆交易被定義為高度欺詐嫌疑的交易。使得這個(gè)用戶在買麥當(dāng)勞漢堡的時(shí)候,他的交易就被拒絕了。
這個(gè)用戶打電話進(jìn)行投訴,他說:“如果你懷疑我是一個(gè)欺詐分子,為什么不在我買電視的時(shí)候把我的交易拒絕?而是在我購買2塊錢漢堡的時(shí)候拒絕?”——這就說明我們的模型是存在一定滯后性的。
對(duì)于不同的欺詐類型,我們需要從三個(gè)維度進(jìn)行考慮:了解客戶、了解員工以及了解對(duì)手。但欺詐風(fēng)險(xiǎn)的防范必須了解所有交易參與對(duì)象,不然就會(huì)有疏漏,比如我們只去了解員工和對(duì)手,就會(huì)遺漏第一方欺詐的風(fēng)險(xiǎn);只了解客戶和員工,就會(huì)給黑產(chǎn)、團(tuán)伙欺詐等第三方欺詐以機(jī)會(huì)。
右邊不同的顏色是對(duì)應(yīng)不同欺詐類型的防范措施,比如建立完善的內(nèi)控合規(guī)制度可以有效防范員工內(nèi)部欺詐。但黑產(chǎn)識(shí)別是反欺詐領(lǐng)域最為關(guān)鍵的環(huán)節(jié),在這個(gè)環(huán)節(jié)ZRobot進(jìn)行的大量的嘗試和探索,我們認(rèn)為通過生物識(shí)別技術(shù)、點(diǎn)面結(jié)合的復(fù)雜網(wǎng)絡(luò)+機(jī)器學(xué)習(xí)技術(shù)(我們稱之為“漫網(wǎng)技術(shù)”)以及欺詐模型識(shí)別,尤其是我們提出的“斑馬”擴(kuò)散技術(shù)是三方欺詐的最為有效的防范手段。
首先,反欺詐的核心是證明交易對(duì)手是客戶本人,這是第一步,也是最關(guān)鍵的一步。
中國移動(dòng)互聯(lián)網(wǎng)的高度發(fā)展,給了很多金融機(jī)構(gòu)在前端非常有效的工具,用來和用戶交互,同時(shí)抓取有效的數(shù)據(jù)節(jié)點(diǎn)。比如說現(xiàn)在非常成熟的移動(dòng)APP,前端可以抓取的用戶標(biāo)簽已經(jīng)多達(dá)200多個(gè)。在此基礎(chǔ)上做一些特征的延伸,是非常有想象空間的。通過輕量級(jí)的前端SDK生物探針部署,捕捉用戶多維度的生物行為并在云端進(jìn)行實(shí)時(shí)計(jì)算判斷,同時(shí)結(jié)合傳統(tǒng)的人臉、指紋及聲紋識(shí)別,就可以在保障客戶體驗(yàn)的同時(shí)達(dá)到欺詐風(fēng)險(xiǎn)防范的目的。
這樣的方式具備的優(yōu)勢(shì)非常明顯,比如無需硬件支持,驗(yàn)證過程無感知,無需用戶主動(dòng)配合,可進(jìn)行連續(xù)判斷,同時(shí)可實(shí)現(xiàn)實(shí)時(shí)風(fēng)險(xiǎn)決策。
隨著欺詐手段的不斷升級(jí),欺詐的團(tuán)伙化特征也日益明顯,欺詐的上下游產(chǎn)業(yè)鏈也越來越龐大,越來越成熟。僅僅通過對(duì)個(gè)人的欺詐風(fēng)險(xiǎn)判斷不能防范團(tuán)伙作案帶來的影響和損失。我們提出的漫網(wǎng)技術(shù)有效的解決了這個(gè)問題:類似谷歌提出的Graph Learning, 對(duì)用戶全方位的關(guān)聯(lián)關(guān)系進(jìn)行識(shí)別包括設(shè)備關(guān)聯(lián),通信關(guān)聯(lián)等等,構(gòu)建用戶的關(guān)系網(wǎng)絡(luò)圖譜,通過無監(jiān)督算法將無差別用戶劃分為不同群組,同時(shí)針對(duì)關(guān)聯(lián)關(guān)系強(qiáng)弱進(jìn)行判斷設(shè)定權(quán)重。漫網(wǎng)的優(yōu)點(diǎn)非常明顯,在反欺詐領(lǐng)域已經(jīng)取得了顯著的效果。
與傳統(tǒng)信用模型相比,欺詐模型構(gòu)建存在很大挑戰(zhàn)。
首先基于業(yè)務(wù)知識(shí)及豐富的案件識(shí)別能力判斷哪些交易定性為欺詐交易。有了穩(wěn)定的案件庫和欺詐數(shù)據(jù)標(biāo)簽之后,用作目標(biāo)定義。特征工程設(shè)計(jì)的數(shù)據(jù)量及運(yùn)算量大,近實(shí)時(shí)的數(shù)據(jù)挖掘包括瀏覽數(shù)據(jù)、網(wǎng)絡(luò)行為挖掘、網(wǎng)絡(luò)借貸、同一時(shí)間內(nèi)的設(shè)備環(huán)境特征等等。由于欺詐手段方法更具多樣性,而信用風(fēng)險(xiǎn)主要來自還款能力和還款意愿,比較具象,所以設(shè)計(jì)多特征多子模型的融合,同時(shí)模型的更新迭代必須跟得上欺詐環(huán)境的變化,所以模型部署也要考慮到這個(gè)問題,比如高頻定期的模型效果監(jiān)控,如何建立自適應(yīng)模型等等。
在這個(gè)領(lǐng)域我們做了哪些嘗試和探索呢?
在電商領(lǐng)域,用戶會(huì)在頁面留下大量觸點(diǎn),比如點(diǎn)擊瀏覽不同層次頁面,但幾乎所有深層次頁面都會(huì)到SKU或單品頁面,所以我們提出了item2vector概念,類似文本挖掘領(lǐng)域的text2vector或word2vector,將文本分類為向量矩陣,比如高頻低頻文本,然后進(jìn)行情感分析、語義分析等等。所以我們是將電商領(lǐng)域的item抽出,把用戶瀏覽路徑轉(zhuǎn)換為向量形式,就可以用向量來描述一個(gè)用戶在一個(gè)瀏覽session當(dāng)中對(duì)哪些品類或單品產(chǎn)生瀏覽記錄。由于瀏覽是有時(shí)間順序的,所以我們將整個(gè)頁面瀏覽時(shí)間順序和向量放入卷積神經(jīng)網(wǎng)絡(luò)模型中加工訓(xùn)練特征,通過RNN方式我們提煉了大量原本通過人類業(yè)務(wù)經(jīng)驗(yàn)或其他構(gòu)建特征方法所不能提煉的特征。這些特征做為機(jī)器學(xué)習(xí)模型訓(xùn)練特征可大幅提升模型效果。
這是我們對(duì)于深度學(xué)習(xí)方面的突破,有了這一理論基礎(chǔ),以及我們對(duì)于整個(gè)用戶畫像標(biāo)簽的深度挖掘能力,就可以把自身積累的經(jīng)驗(yàn)對(duì)外進(jìn)行賦能。
另外,我們聊一下RNN和LSTM的概念。
RNN的輸入維度為樣本數(shù)量, 時(shí)間序列數(shù),每個(gè)時(shí)間序列點(diǎn)的維度數(shù)量,輸出維度可根據(jù)不同的應(yīng)用場(chǎng)景在1個(gè)或多個(gè)序列時(shí)間點(diǎn)輸出不同維度的結(jié)果;如圖所示從X0至XT共T+1個(gè)時(shí)間點(diǎn),每個(gè)時(shí)間點(diǎn)的維度可以為一個(gè)多維的向量。
但在序列長度很長時(shí),RNN會(huì)存在梯度消失和長期記憶被掩蓋等問題,LSTM在每一個(gè)單元里面加入了門的機(jī)制,用于決定上一個(gè)單元信息和本單元新輸入的信息多大程度的輸入到本單元,以及多大程度地輸出到下一個(gè)單元,有效解決了以上問題,同時(shí)能有效過濾無用特征。
具體是怎么應(yīng)用呢?舉個(gè)例子:
下方左圖是基于地理位置軌跡的數(shù)據(jù)樣例,主要包含不同設(shè)備在不同時(shí)點(diǎn)駐留的位置經(jīng)緯度、位置類型、駐留分類等。經(jīng)過一系列數(shù)據(jù)清洗和特征加工得到完備的特征集合。然后經(jīng)過序列截?cái)?、padding、特征標(biāo)準(zhǔn)化、reshape等流程進(jìn)入LSTM模型。左下角是我們使用到的一個(gè)LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)樣例,經(jīng)過LSTM LAYER(含一個(gè)MASK LAYER),最終經(jīng)過2個(gè)dense layer得到輸出結(jié)果。
通過這樣的建模方式在訓(xùn)練集上到底取得了什么效果?
基于上述數(shù)據(jù)和模型,最終我們?cè)跍y(cè)試集上評(píng)估效果,單基于如上地理位置駐留數(shù)據(jù),經(jīng)過清洗、加工和建模,最終在我們的風(fēng)險(xiǎn)模型中KS能達(dá)到0.23,KS圖和按照預(yù)測(cè)出來的分?jǐn)?shù)等分10組在測(cè)試集上的lift值如下圖所示,效果是非常明顯的。
金融領(lǐng)域的特征工程和建模方法經(jīng)歷了傳統(tǒng)的邏輯回歸,基于大量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法也正在不斷融入在自然語言處理、語音、圖像等領(lǐng)域應(yīng)用較廣的深度學(xué)習(xí)模型,剛剛展示的基于地理位置軌跡數(shù)據(jù)的LSTM模型是在金融領(lǐng)域的一次成功的應(yīng)用。
大家可以置疑說這只是一個(gè)理論測(cè)試集上的模型結(jié)果,那么實(shí)際應(yīng)用中到底有沒有好的表現(xiàn)呢? 在我們內(nèi)部的實(shí)際數(shù)據(jù)上,剛才這個(gè)建模方式用到實(shí)際的風(fēng)險(xiǎn)中,用打出來的欺詐評(píng)分,把識(shí)別的人群進(jìn)行了分組,欺詐評(píng)分最高的組可識(shí)別出來的欺詐人群的欺詐率已經(jīng)接近了平均比例的4倍。而最低的一組只有平均比例的0.05,所以接受前20%就可以把欺詐率降低一半,這就是實(shí)際運(yùn)用的效果。
中國有一句古話叫做“近朱者赤,近墨者黑”,我們通常用的關(guān)聯(lián)關(guān)系都是在黑的領(lǐng)域進(jìn)行擴(kuò)散,在已知的欺詐群體或者是用戶至上進(jìn)行關(guān)聯(lián)關(guān)系的擴(kuò)散,把周圍的高危的群落識(shí)別出來,同樣的概念可以適用到白的這批用戶上。所以我們提出的概念是不僅要關(guān)注黑,更要服務(wù)好白,因?yàn)橐阎男庞枚群芨?,非常?yōu)質(zhì)的客戶,跟他們的關(guān)系非常緊密的這群人,極大概率上也是一批非常優(yōu)質(zhì)的客戶,或者是你的潛在優(yōu)質(zhì)客戶。
把這個(gè)概念應(yīng)用到額外授信、精準(zhǔn)營銷領(lǐng)域,也可以取得非常好的效果。尤其是現(xiàn)在獲客成本高居不下,這種技術(shù)帶來的前景是非常大的。
剛才我說了欺詐評(píng)分可以有效把高危人群識(shí)別出來,前面提到的斑馬擴(kuò)散技術(shù),通過網(wǎng)絡(luò)擴(kuò)散的方式,是可以把極端的人群作為有效的補(bǔ)充,更好地識(shí)別高危和低危的人群。
實(shí)際效果如何?通過擴(kuò)散出來的人群前14%,欺詐比例為平均水平的3.3倍,最后的13%只有平均水平的0.3倍,因?yàn)樗麄冞x取的維度不一樣,因此可以結(jié)合我剛才說的建模方式做出的欺詐評(píng)分,可以更加有效的把這批高危和優(yōu)質(zhì)客戶識(shí)別出來。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章