ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

本文作者：周蕾

2019-07-16 23:31

專題：CCF-GAIR 2019

導語：問題不只是發(fā)現欺詐與否，更重要的是找出欺詐的速度。

雷鋒網按：7月12日-7月14日，2019第四屆全球人工智能與機器人峰會（CCF-GAIR 2019）于深圳正式召開。峰會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）承辦，深圳市人工智能與機器人研究院協(xié)辦，得到了深圳市政府的大力指導，是國內人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流博覽盛會，旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

在7月13日的「AI金融專場」上，京東數科生態(tài)中心信用管理部總經理&ZRobot CEO喬楊帶來了以「數字科技驅動的信貸反欺詐技術」為題的演講。

喬楊所在的ZRobot成立于2016年11月。他介紹稱，該公司成立之初的目的是利用海量高維的數據資源，結合業(yè)內先進的數據挖掘技術和模型算法，借助京東數科的金融和非金實踐應用場景，向銀行、保險、信托、小貸公司、持牌消金以及融資租賃公司等提供各類數據產品支持以及智能風控、智能營銷解決方案，合作機構近300家。

以下為主題演講內容全文，經雷鋒網AI金融評論做了不改變原意的編輯與整理。

今天的主題是反欺詐，關于AI、數據挖掘技術、模型算法在這個領域的應用和嘗試。這方面探索都非常多，但是真正實際落地并取得良好效果的案例少之又少。

反欺詐手段滯后，舊模型難預警新風險

大家經常會在媒體上看到些跟欺詐相關的令人觸目驚心的新聞報道，例如醫(yī)美中介欺詐、黑中介騙貸、洗錢套現等等。

隨著中國消費信貸及互聯(lián)網化的飛速發(fā)展，信貸產品種類的日益豐富，欺詐的手段也不斷在更新進化。欺詐分子是一群高智商且勤奮努力的人群，加上欺詐防范手段的滯后性，使得欺詐案件層出不窮，可謂道高一尺，魔高一丈。從早期的傳統(tǒng)欺詐手段，已經逐步進化為更加先進更難察覺的新型欺詐手段，比如早期的利誘員工到如今的潛入機構，本人申請到資信包裝等等。欺詐領域經常存在一種“道高一尺，魔高一丈”的情況，要怎么做才能實現“魔高一尺，道高一丈”，真正實現欺詐的有效防范？

風控從業(yè)者都知道，在信貸風險領域，我們最關注的是信用風險和欺詐風險。信用風險非常好理解，最多的是從還款能力和意愿這兩個大維度去判斷。但是在欺詐風險領域，更多關注的是一方、二方、三方和多方混合欺詐，這就使得欺詐風險在判斷上更加復雜，難度更加大。

ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

由于中國移動互聯(lián)網的發(fā)展，比歐美一些國家更加快速、更加發(fā)達，使得欺詐手段層出不窮，也使得我們在這個領域反欺詐的技術相對滯后。在美國，欺詐損失比例不到20%，而在中國為50%甚至更高。所以在中國，整體信貸環(huán)境更加惡劣，防范欺詐風險的重要性更高。在建模方式上，我們通常是以已知的欺詐案件庫進行定義，再進行反欺詐模型的搭建，本身就很難進行有效的提前預警。

舉個例子，當時我在美國做反欺詐的時候，有一個客戶在拉斯維加斯的線下BestBuy門店買了一部液晶電視，買完之后到周圍的麥當勞Drive-Through買了一個漢堡。

我們的交易反欺詐模型是實時在線上跑的，用戶每做一筆刷卡，系統(tǒng)都在計算是否可以通過。這個用戶平時是經常在線上消費的，很少有在線下大額消費的行為，所以這筆交易被定義為高度欺詐嫌疑的交易。使得這個用戶在買麥當勞漢堡的時候，他的交易就被拒絕了。

這個用戶打電話進行投訴，他說：“如果你懷疑我是一個欺詐分子，為什么不在我買電視的時候把我的交易拒絕？而是在我購買2塊錢漢堡的時候拒絕？”——這就說明我們的模型是存在一定滯后性的。

如何認清欺詐環(huán)境中的交易對手

對于不同的欺詐類型，我們需要從三個維度進行考慮：了解客戶、了解員工以及了解對手。但欺詐風險的防范必須了解所有交易參與對象，不然就會有疏漏，比如我們只去了解員工和對手，就會遺漏第一方欺詐的風險；只了解客戶和員工，就會給黑產、團伙欺詐等第三方欺詐以機會。

ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

右邊不同的顏色是對應不同欺詐類型的防范措施，比如建立完善的內控合規(guī)制度可以有效防范員工內部欺詐。但黑產識別是反欺詐領域最為關鍵的環(huán)節(jié)，在這個環(huán)節(jié)ZRobot進行的大量的嘗試和探索，我們認為通過生物識別技術、點面結合的復雜網絡+機器學習技術（我們稱之為“漫網技術”）以及欺詐模型識別，尤其是我們提出的“斑馬”擴散技術是三方欺詐的最為有效的防范手段。

首先，反欺詐的核心是證明交易對手是客戶本人，這是第一步，也是最關鍵的一步。

中國移動互聯(lián)網的高度發(fā)展，給了很多金融機構在前端非常有效的工具，用來和用戶交互，同時抓取有效的數據節(jié)點。比如說現在非常成熟的移動APP，前端可以抓取的用戶標簽已經多達200多個。在此基礎上做一些特征的延伸，是非常有想象空間的。通過輕量級的前端SDK生物探針部署，捕捉用戶多維度的生物行為并在云端進行實時計算判斷，同時結合傳統(tǒng)的人臉、指紋及聲紋識別，就可以在保障客戶體驗的同時達到欺詐風險防范的目的。

這樣的方式具備的優(yōu)勢非常明顯，比如無需硬件支持，驗證過程無感知，無需用戶主動配合，可進行連續(xù)判斷，同時可實現實時風險決策。

隨著欺詐手段的不斷升級，欺詐的團伙化特征也日益明顯，欺詐的上下游產業(yè)鏈也越來越龐大，越來越成熟。僅僅通過對個人的欺詐風險判斷不能防范團伙作案帶來的影響和損失。我們提出的漫網技術有效的解決了這個問題：類似谷歌提出的Graph Learning, 對用戶全方位的關聯(lián)關系進行識別包括設備關聯(lián)，通信關聯(lián)等等，構建用戶的關系網絡圖譜，通過無監(jiān)督算法將無差別用戶劃分為不同群組，同時針對關聯(lián)關系強弱進行判斷設定權重。漫網的優(yōu)點非常明顯，在反欺詐領域已經取得了顯著的效果。

反欺詐建模的挑戰(zhàn)與解決方案

與傳統(tǒng)信用模型相比，欺詐模型構建存在很大挑戰(zhàn)。

首先基于業(yè)務知識及豐富的案件識別能力判斷哪些交易定性為欺詐交易。有了穩(wěn)定的案件庫和欺詐數據標簽之后，用作目標定義。特征工程設計的數據量及運算量大，近實時的數據挖掘包括瀏覽數據、網絡行為挖掘、網絡借貸、同一時間內的設備環(huán)境特征等等。由于欺詐手段方法更具多樣性，而信用風險主要來自還款能力和還款意愿，比較具象，所以設計多特征多子模型的融合，同時模型的更新迭代必須跟得上欺詐環(huán)境的變化，所以模型部署也要考慮到這個問題，比如高頻定期的模型效果監(jiān)控，如何建立自適應模型等等。

ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

在這個領域我們做了哪些嘗試和探索呢？

在電商領域，用戶會在頁面留下大量觸點，比如點擊瀏覽不同層次頁面，但幾乎所有深層次頁面都會到SKU或單品頁面，所以我們提出了item2vector概念，類似文本挖掘領域的text2vector或word2vector，將文本分類為向量矩陣，比如高頻低頻文本，然后進行情感分析、語義分析等等。所以我們是將電商領域的item抽出，把用戶瀏覽路徑轉換為向量形式，就可以用向量來描述一個用戶在一個瀏覽session當中對哪些品類或單品產生瀏覽記錄。由于瀏覽是有時間順序的，所以我們將整個頁面瀏覽時間順序和向量放入卷積神經網絡模型中加工訓練特征，通過RNN方式我們提煉了大量原本通過人類業(yè)務經驗或其他構建特征方法所不能提煉的特征。這些特征做為機器學習模型訓練特征可大幅提升模型效果。

這是我們對于深度學習方面的突破，有了這一理論基礎，以及我們對于整個用戶畫像標簽的深度挖掘能力，就可以把自身積累的經驗對外進行賦能。

ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

另外，我們聊一下RNN和LSTM的概念。

RNN的輸入維度為樣本數量, 時間序列數，每個時間序列點的維度數量，輸出維度可根據不同的應用場景在1個或多個序列時間點輸出不同維度的結果；如圖所示從X0至XT共T+1個時間點，每個時間點的維度可以為一個多維的向量。

ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

但在序列長度很長時，RNN會存在梯度消失和長期記憶被掩蓋等問題，LSTM在每一個單元里面加入了門的機制，用于決定上一個單元信息和本單元新輸入的信息多大程度的輸入到本單元，以及多大程度地輸出到下一個單元，有效解決了以上問題，同時能有效過濾無用特征。

具體是怎么應用呢？舉個例子：

下方左圖是基于地理位置軌跡的數據樣例，主要包含不同設備在不同時點駐留的位置經緯度、位置類型、駐留分類等。經過一系列數據清洗和特征加工得到完備的特征集合。然后經過序列截斷、padding、特征標準化、reshape等流程進入LSTM模型。左下角是我們使用到的一個LSTM神經網絡結構樣例，經過LSTM LAYER（含一個MASK LAYER)，最終經過2個dense layer得到輸出結果。

ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

通過這樣的建模方式在訓練集上到底取得了什么效果？

基于上述數據和模型，最終我們在測試集上評估效果，單基于如上地理位置駐留數據，經過清洗、加工和建模，最終在我們的風險模型中KS能達到0.23，KS圖和按照預測出來的分數等分10組在測試集上的lift值如下圖所示，效果是非常明顯的。

金融領域的特征工程和建模方法經歷了傳統(tǒng)的邏輯回歸，基于大量統(tǒng)計特征的機器學習方法也正在不斷融入在自然語言處理、語音、圖像等領域應用較廣的深度學習模型，剛剛展示的基于地理位置軌跡數據的LSTM模型是在金融領域的一次成功的應用。

ZRobot CEO 喬楊：不僅要關注“黑”，更要服務好“白” | CCF-GAIR 2019

大家可以置疑說這只是一個理論測試集上的模型結果，那么實際應用中到底有沒有好的表現呢？在我們內部的實際數據上，剛才這個建模方式用到實際的風險中，用打出來的欺詐評分，把識別的人群進行了分組，欺詐評分最高的組可識別出來的欺詐人群的欺詐率已經接近了平均比例的4倍。而最低的一組只有平均比例的0.05，所以接受前20%就可以把欺詐率降低一半，這就是實際運用的效果。

中國有一句古話叫做“近朱者赤，近墨者黑”，我們通常用的關聯(lián)關系都是在黑的領域進行擴散，在已知的欺詐群體或者是用戶至上進行關聯(lián)關系的擴散，把周圍的高危的群落識別出來，同樣的概念可以適用到白的這批用戶上。所以我們提出的概念是不僅要關注黑，更要服務好白，因為已知的信用度很高，非常優(yōu)質的客戶，跟他們的關系非常緊密的這群人，極大概率上也是一批非常優(yōu)質的客戶，或者是你的潛在優(yōu)質客戶。

把這個概念應用到額外授信、精準營銷領域，也可以取得非常好的效果。尤其是現在獲客成本高居不下，這種技術帶來的前景是非常大的。

剛才我說了欺詐評分可以有效把高危人群識別出來，前面提到的斑馬擴散技術，通過網絡擴散的方式，是可以把極端的人群作為有效的補充，更好地識別高危和低危的人群。

實際效果如何？通過擴散出來的人群前14%，欺詐比例為平均水平的3.3倍，最后的13%只有平均水平的0.3倍，因為他們選取的維度不一樣，因此可以結合我剛才說的建模方式做出的欺詐評分，可以更加有效的把這批高危和優(yōu)質客戶識別出來。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏