0
本文作者: 溫曉樺 | 2016-12-21 23:05 |
雷鋒網(wǎng)消息,在周日于深圳舉行騰訊大數(shù)據(jù)技術(shù)峰會(huì)暨KDD China技術(shù)峰會(huì)上,百度金融服務(wù)事業(yè)群組研發(fā)負(fù)責(zé)人、KDD China副主席沈抖博士介紹了百度金融各場(chǎng)景背后的人工智能技術(shù)和方案,包括安全防護(hù)、智能獲客、大數(shù)據(jù)風(fēng)控、量化投資等。
以下是沈抖博士演講實(shí)錄,雷鋒網(wǎng)做了不改變?cè)獾木庉嫞?/p>
除了通過(guò)攻擊機(jī)器,黑客還會(huì)在你跟服務(wù)之間的通信鏈路上去突破,所以我們就必須做好加密,這也是為什么現(xiàn)在所有的銀行板塊基本都會(huì)使用HTTPS加密。原來(lái)百度搜索不是這樣做的,因此會(huì)導(dǎo)致用戶搜索過(guò)某些東西后,就會(huì)接到推銷電話的情況,其實(shí)這是因?yàn)樵谥虚g的鏈路就被劫走了。如果這招還搞不定,設(shè)備是安全的,鏈路也是安全的,那么黑客能想到的就只能把你的用戶名和密碼偷走了。所以會(huì)出現(xiàn)很多地方的賬號(hào)泄露,也導(dǎo)致很多拖庫(kù)和撞庫(kù)事件的發(fā)生。
往下想還有更可怕的是身份盜用。所以這時(shí)候就有必要去做謂生物佐證和活體識(shí)別?,F(xiàn)在,活體識(shí)別是整個(gè)金融行業(yè)做身份識(shí)別中非常重要的一塊。照片容易復(fù)制,所以單單提供一張臉也未必就可信,所以必須讓用戶做活體,比如眨眼、扭頭、張嘴等。
所以上述就是安全防護(hù)中會(huì)出現(xiàn)的攻擊步驟,并且一步步都變得愈加嚴(yán)重。那百度現(xiàn)在每天有這么多的數(shù)據(jù),可以做什么呢?
登錄授權(quán),身份刻畫(huà)
比如所謂每天300億次授權(quán),就是如果你處于登錄狀態(tài),每對(duì)百度進(jìn)行一次訪問(wèn),這個(gè)PV都會(huì)到達(dá)后臺(tái),可以做什么呢?就是比如雖然登錄的時(shí)候是你,然后傳輸過(guò)程中也是你,但是有可能黑客在不知道什么地方就把你的身份信息截獲了,并從另一個(gè)地方登錄訪問(wèn)。所以從系統(tǒng)上來(lái)講,我們要實(shí)時(shí)地判斷這個(gè)身份是否已經(jīng)被替換了。
所以,每日300億次授權(quán),200億次定位,60億次點(diǎn)擊,3億次登錄請(qǐng)求都可以用作身份刻畫(huà)。實(shí)際上在判斷一個(gè)賬號(hào)是否安全的時(shí)候大概就看這幾方面:
時(shí)間沖突
首先時(shí)間上,如果突然有一段時(shí)間在印度,突然有大量的百度賬號(hào),而且晚上兩點(diǎn)三點(diǎn)發(fā)生很大賬號(hào)行為,但這行為卻是根本沒(méi)干什么。很多黑客一下撞庫(kù)拿到很多賬號(hào)之后,他怎么辦?他就真的是批量地去嘗試——這些賬號(hào)能不能登陸?假如都登錄完了之后,發(fā)現(xiàn)你有錢包賬號(hào),他什么都不干,直接跳去看你有多少余額。一般正常人不會(huì)做這樣的事(意味著是安全風(fēng)險(xiǎn)的信號(hào))。
所以實(shí)際上所有這些數(shù)據(jù)合在一起,基本上就能判斷這個(gè)人到底是什么情況了,也因?yàn)槿绱宋覀兙蜁?huì)加重組織的風(fēng)控指標(biāo),來(lái)判斷每一次登錄是否正常。
證明“你是你”
說(shuō)完流程,下面講一下怎么去判斷一個(gè)人真的是一個(gè)人——證明“你是你”。
證明你是你的時(shí)候有很多方法,包括前文的人臉識(shí)別、活體識(shí)別等,但在現(xiàn)在移動(dòng)設(shè)備流行的前提下,有一個(gè)手段是非常便捷的——手寫(xiě)簽名。
在移動(dòng)設(shè)備上,因?yàn)樗梢杂涗浢總€(gè)人簽名過(guò)程中的力度、速度、書(shū)寫(xiě)風(fēng)格等,所以在采集到信息后,算法上把整個(gè)字分成各種小段,進(jìn)行特征分類等方法來(lái)進(jìn)行簽名比對(duì)。這種方法的好處在于,每個(gè)人的書(shū)法習(xí)慣是很難去模仿的,因?yàn)橐坏┯辛四7碌那疤?,速度和?jié)奏極可能發(fā)生變化。
其實(shí)智能獲客和大數(shù)據(jù)風(fēng)控都離不開(kāi)對(duì)人的畫(huà)像刻畫(huà)。無(wú)論要做獲客,找到這個(gè)人;還是要做風(fēng)控,判斷這個(gè)人是好人或壞人,都要對(duì)每個(gè)人有非常深刻的了解。
我們舉幾個(gè)例子,看怎么去了解一個(gè)人:
首先看看有沒(méi)有貸款的意愿,可以從人生階段、消費(fèi)習(xí)慣等能夠判斷趨勢(shì);
接下來(lái)就看其有沒(méi)有還款的意愿,是不是很想貸,但貸了不想還;
那如果即使想還,還要看其有沒(méi)有還款能力,有可能還不起,比如尤其是過(guò)度消費(fèi)導(dǎo)致多頭借貸的情況;
最后就是沒(méi)有還款意愿的欺詐行為。
任何行業(yè)都存在獲客的問(wèn)題——低成本地獲得想要的客戶對(duì)業(yè)務(wù)經(jīng)營(yíng)的作用不言而喻,金融行業(yè)同理。金融領(lǐng)域要想做好獲客,大概是這幾個(gè)方面:
第一,得知道其有這個(gè)需求;
第二,得有通道去抓獲。
無(wú)論是從搜索、LBS,還是到瀏覽,都表達(dá)了客戶的需求。如宏江老師所說(shuō),一些新聞推薦你也許覺(jué)得不相關(guān),但其實(shí)也表達(dá)了你的潛在訴求,你的行為就是你自己。通過(guò)這些行為,我們就能看出來(lái)這個(gè)人到底想干嘛,然后通過(guò)標(biāo)準(zhǔn)分類把他們找出來(lái)。
再舉個(gè)例子,即使知道了這個(gè)人想干嘛,還得必須得有一個(gè)方法以特別快速地去處理,因?yàn)榭蛻舻男枨笞兓芸?。如果一個(gè)人,如果一個(gè)人,發(fā)現(xiàn)他有借貸需求時(shí),在第一天向其推送消息時(shí),其響應(yīng)率比較高,如果到了第二天再推送,響應(yīng)率則衰減一半。
之所以出現(xiàn)這種情況,一方面可能是因?yàn)槿说呐d趣確實(shí)在變,昨天有消費(fèi)沖動(dòng),但是過(guò)了一天就冷靜下來(lái)了。第二種情況是因?yàn)楝F(xiàn)在互聯(lián)網(wǎng)金融或者叫科技金融實(shí)在是競(jìng)爭(zhēng)太激烈了,今天沒(méi)有回答他,就有人接替來(lái)出單了。所以從這些角度來(lái)講,我們不但要安全地觸達(dá),還要及時(shí)。
獲客的話,我們要在智能的區(qū)域出價(jià),以合理的價(jià)格觸達(dá)每一個(gè)用戶,不可能不計(jì)成本地去做。因此,這里面就是涉及怎么動(dòng)態(tài)地調(diào)整定價(jià)策略、出價(jià)策略,就是根據(jù)客戶的貸款意愿強(qiáng)弱、還款能力強(qiáng)弱,是否存在欺詐可能等。所以這些因素考慮完了之后,根據(jù)這樣的ROI來(lái)出價(jià)把客戶給拿下來(lái)。
這個(gè)推算也不難,基本上是:把顧客的收益乘以轉(zhuǎn)化再乘以目標(biāo)ROI,然后再加上一個(gè)條件因子,因此可以得出來(lái)一個(gè)競(jìng)價(jià)。然后競(jìng)價(jià)會(huì)隨著ROI變化來(lái)調(diào)整,連二階導(dǎo)數(shù)都用不上。所以,這就做到了在ROI不變的情況下,能挑到越來(lái)越好的用戶。
除了要控制好成本,及時(shí)給出消息,我們還得給出一個(gè)好消息。所以我們這里面就分成幾點(diǎn):
首先這個(gè)取決于客戶的興趣愛(ài)好、人生階段,客戶的生命周期、生活體制、消費(fèi)水平等所有因素放在一起解決的。在今天,我們還看到比如微信支付在機(jī)場(chǎng)等一些地方張貼廣告,拉客戶,其實(shí)這種成本是非常高的。公式計(jì)算的是:比如需要多少補(bǔ)貼,一個(gè)用戶才會(huì)使用我們的產(chǎn)品來(lái)支付;第二個(gè)是轉(zhuǎn)化率不能特別低,成本省下來(lái)了,用戶沒(méi)有獲取到,這也是不行的。這些都可以提高獲客的效率和效益。
那么這個(gè)這里面最關(guān)鍵的一個(gè)是轉(zhuǎn)化率的問(wèn)題,就是現(xiàn)有模型的問(wèn)題。在這樣一個(gè)補(bǔ)貼的情況下,在這個(gè)場(chǎng)景下,到底要不要轉(zhuǎn)化?所以大家特別想獲得一個(gè)補(bǔ)貼的話,可以在選擇時(shí)猶豫猶豫。(說(shuō)不定系統(tǒng)會(huì)以此提高補(bǔ)貼額度,哈哈?。?/span>
下面是大數(shù)據(jù)風(fēng)控。這里列了很多模型,真正在做金融的時(shí)候,整個(gè)用戶的生命周期里面,每一個(gè)階段都會(huì)有很多模型來(lái)支持。這也是為什么這個(gè)金融行業(yè)需要大量機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能等專業(yè)人才。
比如,申請(qǐng)的時(shí)候就有風(fēng)險(xiǎn)模型欺詐策略;
然后到額度這種流動(dòng)模型貸款利率的時(shí)候就需要定價(jià)模型,雖然現(xiàn)在國(guó)內(nèi)我們?nèi)シ抠J時(shí)利率差不多,但實(shí)際上每個(gè)人風(fēng)險(xiǎn)不一樣,利息率就應(yīng)該不一樣;而欺詐貸后管理的過(guò)程中,則需要行為風(fēng)險(xiǎn)模型。
行為風(fēng)險(xiǎn)模型的使用,比如說(shuō)現(xiàn)在的教育貸款,用來(lái)幫助資金比較短缺的學(xué)生投資自己的,上個(gè)補(bǔ)習(xí)班之類,但如果放貸后發(fā)現(xiàn),這個(gè)學(xué)生基本不上補(bǔ)習(xí)班,還經(jīng)常在BBS上討論游戲攻略,那應(yīng)該趕緊把錢要回來(lái)了。所以風(fēng)險(xiǎn)模型都會(huì)去判斷放出去的貸款的風(fēng)險(xiǎn)的大小。
但如果是好的客戶,我們需要持續(xù)地做,但其有可能是抓不住的,這就要看其流失的風(fēng)險(xiǎn)。
最后是逾期催收和失聯(lián)修復(fù)的所用到的模型。
所以有很多這種模型,這里面是簡(jiǎn)單的說(shuō)明。以前的風(fēng)控模型和現(xiàn)在的機(jī)器學(xué)習(xí)沒(méi)有很大的區(qū)別,但過(guò)去的做法不對(duì)。一來(lái)缺乏是大量數(shù)據(jù)實(shí)時(shí)輸入,二是用戶端和企業(yè)端是否做到各方同時(shí)考慮呢?比如教育貸款這個(gè)場(chǎng)景,也許學(xué)生是好學(xué)生,但是機(jī)構(gòu)不是好機(jī)構(gòu),這樣的風(fēng)險(xiǎn)更高。
此外投資資產(chǎn)質(zhì)量的問(wèn)題,也是有很多數(shù)據(jù)可以在前期把風(fēng)險(xiǎn)識(shí)別出來(lái)。比如高速公路想要用抵押的方式貸新款,銀行需要調(diào)查高速公路的車流量時(shí),過(guò)去真的要派一個(gè)人到實(shí)地去考察,現(xiàn)在OBS、GPS這么發(fā)達(dá),它們收集的數(shù)據(jù)足以幫助設(shè)計(jì)完成這個(gè)任務(wù)。
最后講一下量化投資。量化投資的正常流程是:
投資標(biāo)的調(diào)研
篩選出合適的標(biāo)的,然后建立投資組合
組合風(fēng)險(xiǎn)控制,動(dòng)態(tài)調(diào)倉(cāng)
這里面用的是搜索量和股價(jià)之間的擬合程度的原理。因?yàn)榘俣壬厦刻旄善泵Q和代號(hào)相關(guān)的搜索大概有2000多萬(wàn)次,而且我們分析一下發(fā)現(xiàn),搜索量和股票價(jià)格的關(guān)系度比較高,其正相關(guān)相關(guān)系數(shù)在0.7以上,本身這個(gè)搜索量其實(shí)就反映了一個(gè)用戶對(duì)股票的興趣程度,這時(shí)我們?cè)偌由想[形的因子判斷,再慢慢地我們自己的理解就能反映出來(lái),潛在的買家在哪里。所以這些東西放在一起,就可以對(duì)股票的價(jià)格有非常好的建議。
而除了股票價(jià)格以外,還有很多其他行業(yè)研究可以做。比如汽車行業(yè)的銷量調(diào)研,我們也可以從OBS數(shù)據(jù)里擬合汽車的銷售量,有了這些行業(yè)數(shù)據(jù)以后就可以比別人更早地獲悉機(jī)遇,更早地在這些領(lǐng)域掉頭,或者增資。
從一些更細(xì)的因子來(lái)看,我們希望機(jī)器學(xué)習(xí)了各種指標(biāo)后,找到那些相關(guān)的,最好是強(qiáng)相關(guān)的因素,包括搜索輿情,能夠在這個(gè)幾個(gè)指標(biāo)上都能夠形成比較穩(wěn)定的相關(guān)性。
雖然這講的是百度金融,但其實(shí)不止是百度金融,這也反映出來(lái)從互聯(lián)網(wǎng)金融,到科技金融、金融科技,整個(gè)演變過(guò)程,其行業(yè)前景都是要用好大數(shù)據(jù)、人工智能這些技術(shù)。
后記:
雷鋒網(wǎng)此前報(bào)道,今年百度世界大會(huì)金融分論壇上,百度立下以人工智能為中心的金融科技flag,從以上的介紹來(lái)看,大家如何看待百度金融的實(shí)力以及潛力呢?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。