3
本文作者: 林藠頭 | 2016-11-10 23:02 | 專題:雷峰網(wǎng)公開課 |
“凡走過必留下痕跡”,大數(shù)據(jù)時(shí)代,你的一舉一動(dòng)都在為你建立一個(gè)電子檔案,從你有多少張信用卡、每個(gè)月消費(fèi)多少、還款記錄如何到你喜歡瀏覽什么網(wǎng)站、手機(jī)是什么型號(hào)甚至IP地址對(duì)應(yīng)的位置,有一萬多個(gè)詞條可以刻畫你的肖像,銀行在不需要跟你打交道的情況下可以靠這種數(shù)據(jù)肖像決定要不要給你放款、放多少合適。這就是大數(shù)據(jù)征信。
每個(gè)人每天會(huì)產(chǎn)生無數(shù)的信息,征信機(jī)構(gòu)如何從這里面抽絲剝繭找到有效的數(shù)據(jù),又如何給每個(gè)數(shù)據(jù)設(shè)置合理的權(quán)重去建立模型?機(jī)器出現(xiàn)故障之后又如何修正?我們請(qǐng)到了在征信上有多年經(jīng)驗(yàn)的嘉賓、冰鑒科技創(chuàng)始人兼CEO顧凌云來為我們解答。
顧博士是卡耐基梅隆大學(xué)計(jì)算機(jī)博士,畢業(yè)后在華爾街做對(duì)沖基金中高頻交易的算法工程師,兩年多后作為創(chuàng)始成員加入 Zest Finance(一個(gè)美國(guó)的金融科技公司,主營(yíng)業(yè)務(wù)是信用評(píng)分),顧博在 Zest Finance 全面負(fù)責(zé)模型組的研發(fā)工作,三年開發(fā)了6代模型;離開后去了 小微企業(yè)征信和借貸的機(jī)構(gòu)Kabbage 擔(dān)任首席數(shù)據(jù)科學(xué)家。顧總是征信方面的權(quán)威專家,曾獲得過“中國(guó)征信50人”的稱號(hào)。
冰鑒科技創(chuàng)始人兼CEO 顧凌云
以下是本次公開課的內(nèi)容,顧凌云口述,AI金融評(píng)論(微信號(hào)aijinrongpinglun)整理。
先想說一點(diǎn)有意思的題外話,我后面很可能都會(huì)直接用語音,但實(shí)際上現(xiàn)在所有這些文字,我也都是直接通過說話然后通過語音識(shí)別轉(zhuǎn)化成文字,這實(shí)際上就是機(jī)器學(xué)習(xí)和人工智能的一種應(yīng)用。蘋果使用的Siri語音識(shí)別算法,有一部分就是我在卡內(nèi)基梅隆大學(xué)時(shí)候博士階段論文的一部分工作,我舉這個(gè)例子的意思其實(shí)是想告訴大家,人工智能其實(shí)進(jìn)入我們的生活已經(jīng)有一段時(shí)間了,但實(shí)際上很多人工智能最終都需要通過人工來進(jìn)行干預(yù),所以實(shí)際上真正人工智能最具有挑戰(zhàn)的是它的最后1公里。
那為什么在開始這段語音轉(zhuǎn)變文字之后,我會(huì)直接使用語音?那就是因?yàn)樵谧詈蟮淖匀徽Z言處理當(dāng)中有一些小的問題語音識(shí)別和自然語言處理還不能完成,比如她/他的自動(dòng)識(shí)別,專業(yè)單詞的準(zhǔn)確判斷等等,所有這些問題其實(shí)在我們進(jìn)行金融和征信領(lǐng)域的工作當(dāng)中同樣存在。
很多人可能都會(huì)問我一個(gè)問題,那就是今天的征信行業(yè)有這么多人進(jìn)入,逐鹿中原,它到底什么時(shí)候會(huì)變成紅海?現(xiàn)在的藍(lán)海還有哪幾塊東西可以做?如果說是任何一家以技術(shù)起家的征信公司,如果它們想要做得比較好的話,核心競(jìng)爭(zhēng)力在哪里?
實(shí)際上所有這些問題,最后都會(huì)歸結(jié)為幾個(gè)不同的方面。在這里,我可以簡(jiǎn)單地介紹一下建立幾個(gè)好的模型的步驟:獲得數(shù)據(jù)之后,第一步是原始清洗——基于技術(shù)數(shù)據(jù);第二步是變量選??;第三步變量整合,第四步單一模型的建立;第五步,五多模型建立。每一步中都有許多細(xì)節(jié)的工作需要完成。
如果今天市場(chǎng)上有100家征信公司,那我可以肯定的說——100家號(hào)稱自己做征信的公司中,80家是依靠于自己的特殊資源在做簡(jiǎn)單的數(shù)據(jù)販賣的工作,通過自己獨(dú)特的渠道獲得獨(dú)特的數(shù)據(jù),而些依托于自己本身特有場(chǎng)景所產(chǎn)生的數(shù)據(jù)源變成了目前市場(chǎng)上成為絕對(duì)主力的征信公司。真正依托技術(shù)做征信的公司實(shí)際上并沒有那么多。
而在我們看來,真正的征信公司不僅僅是能夠產(chǎn)出原始底層數(shù)據(jù),關(guān)鍵是應(yīng)該根據(jù)原始數(shù)據(jù)所帶有的特質(zhì)進(jìn)行量化提純工作,并且最終這些可以體現(xiàn)在信用決策上。真正能完成這些的公司并不多,去掉那些販賣數(shù)據(jù)的公司,現(xiàn)在征信公司剩下20%都不到。
而在這20%的公司當(dāng)中,實(shí)際上又有很多公司并不是真正的我們意義上的第三方征信平臺(tái)。實(shí)際上他們都是依托于自己本身所擁有的借貸環(huán)境——一方面在通過放貸積累數(shù)據(jù),另一方面通過自己的建模工作同時(shí)提供征信。這樣的商業(yè)模式并沒有問題,但是從某種角度來講,這樣的公司即扮演運(yùn)動(dòng)員的角色又扮演裁判的角色,但是在今后中國(guó)的征信市場(chǎng)如何看待這樣以借貸起來的征信公司,我想還是會(huì)有比較長(zhǎng)時(shí)間的爭(zhēng)論。
很多人都會(huì)問,一個(gè)技術(shù)起家的公司,在數(shù)據(jù)清洗方面到底有什么地方能跟其他公司做得不一樣的。 這一點(diǎn)上,我想分享一個(gè)有意思的應(yīng)用場(chǎng)景,做機(jī)器學(xué)習(xí),我們可以把幾乎所有的場(chǎng)景變成兩個(gè)類別Supervised learning(監(jiān)督學(xué)習(xí) ) 和Unsupervised learning(無監(jiān)督學(xué)習(xí))。在這兩個(gè)場(chǎng)景場(chǎng)景當(dāng)中,當(dāng)我們?cè)谶M(jìn)行無監(jiān)督學(xué)習(xí)的時(shí)候,我們并不需要一個(gè)人還貸記錄這樣的好壞標(biāo)簽,我們可以通過一些其他的變量,來判別和進(jìn)行大的類別的劃分。而監(jiān)督學(xué)習(xí)或者分類過程中,我們應(yīng)該讓一開始機(jī)器先找到一部分找到好壞標(biāo)簽新進(jìn)行學(xué)習(xí),然后再對(duì)新進(jìn)人群進(jìn)行判斷。
在這樣的情況下,我們有必要先對(duì)建模的基本概念進(jìn)行闡述,這樣我們才能知道對(duì)于數(shù)據(jù)的處理應(yīng)該聚焦在什么地方。首先,我們?cè)谶M(jìn)行有監(jiān)督學(xué)習(xí)的時(shí)候,我們往往會(huì)在方程的兩邊進(jìn)行判斷。而方程的左邊我們叫因變量,或dependent variable,是一個(gè)人在之前是否有過還貸記錄,也就是我們所謂的好壞標(biāo)簽,而另外一邊是描述這個(gè)人各種各樣的信息,我們叫做自變量,也就是independent variable。
當(dāng)我們做了這樣的定義以后,對(duì)于數(shù)據(jù)的處理就比較清晰了。我們或者要聚焦于對(duì)因變量進(jìn)行處理,或者聚焦對(duì)自變量進(jìn)行處理。
我們先從對(duì)于因變量的處理開始,大家可能都知道一個(gè)征信公司到底能做的多好,他的數(shù)據(jù)量有多大是至關(guān)重要,而很多人遇到的瓶頸問題就是,他們很難搜集到各種企業(yè)和個(gè)人進(jìn)行還貸的歷史記錄,很少有企業(yè)能夠完成因變量大規(guī)模積累的工作。
這一項(xiàng)工作,在美國(guó)如果我們完全不需要人工智能或者機(jī)器學(xué)習(xí)的介入,最傳統(tǒng)解決辦法我們叫reject inference(拒絕推斷)。也就是,當(dāng)我在這里沒有辦法在自己的場(chǎng)景當(dāng)中獲取其他人的好壞標(biāo)簽的時(shí)候,我們往往會(huì)通過其他的征信局或者其他的放貸機(jī)構(gòu),進(jìn)行交換或者購買好壞標(biāo)簽的形式來獲得。在中國(guó)初創(chuàng)征信壞境中,這樣的方式十分困難,因?yàn)榇蠖鄶?shù)機(jī)構(gòu)都想獲得別人的而不愿意分享自己的。所以從這個(gè)角度來講,指望通過reject inference,通過別人的借貸來獲得信息就比較困難。
那些在機(jī)器學(xué)習(xí)當(dāng)中,我們有什么解決方法呢?有兩種:self-training and transdurant (SVM)。當(dāng)我們明確知道有一些是好的和有一些人是壞的前提下,通過一個(gè)分類器對(duì)其他未知的變量的進(jìn)行處理的過程中,能夠通過一些自適應(yīng)的學(xué)習(xí)方法把在未知的人群中把有明顯傾向的人分成好的和壞的。
在方程式的右邊,對(duì)于所有的自變量,我們有什么方法處理?傳統(tǒng)意義上來講,我們獲得所有的變量之后,第一步是變量選取或者整合。而變量選取和整合,在統(tǒng)計(jì)和初步機(jī)器學(xué)習(xí)過程當(dāng)中最常用的是stepwise (逐步回歸),它分為forward stepwise(前進(jìn)逐步回歸) 和backward stepwise(逐步后向算法 )。顧名思義,stepwise就是通過一個(gè)一個(gè)把變量拿出來和放進(jìn)去的方式來決定哪個(gè)變量比較重要。
比如,現(xiàn)在我一共有10個(gè)變量,我并不知道哪一個(gè)好哪一個(gè)壞。最常用的方法是,我把10變量都留在里面做一個(gè)模型,然后扔掉一個(gè)變量再做一個(gè)模型,然后再扔掉一個(gè)變量做一個(gè)模型,以此類推。大家就能看到,10個(gè)變量做的模型和9個(gè)變量做的模型相比較結(jié)果差異到底有多大。那么以此類推,8個(gè),7個(gè)都是一樣的。我們就能判斷每個(gè)扔掉的變量扮演的角色到底有多重要,從而判斷這是不是一個(gè)該留在模型的變量。
那么問題來了,10個(gè)變量到底該先扔誰呢?
那么在機(jī)器學(xué)習(xí)的過程中我們有一個(gè)新的方法叫l(wèi)asso的方法來處理這個(gè)問題,它可以在多維度空間的方向中進(jìn)行搜索,選擇哪些是重要的哪些是不重要的。
在我講的這些對(duì)于數(shù)據(jù)清洗的過程,某種程度應(yīng)該都是比較小的壁壘,能夠慢慢積累起來。實(shí)際上,還有很多方方面面的工作要做,(都可以形成壁壘)。
在剛剛一開始的時(shí)候,我提到過,中國(guó)的征信市場(chǎng)如果有100家征信公司,80家公司都是做原始數(shù)據(jù)販賣的,真正以技術(shù)立足的不到20家。征信領(lǐng)域很多人說數(shù)據(jù)為王,很多人說技術(shù)為王,二者誰會(huì)勝出呢?那我們可以借鑒一下美國(guó)的歷史,來看以后今后中國(guó)市場(chǎng)的走向。
我們先來看看,在征信起步的過程中,數(shù)據(jù)都扮演了很重要的角色,如果沒有數(shù)據(jù),建模就無從談起,更不要說用什么方式建模。我要說的是,在今后征信的發(fā)展過程中,數(shù)據(jù)的獲取是會(huì)越來越簡(jiǎn)單,還是越來越難?
先來看一看,數(shù)據(jù)可以被分成什么樣的大類。從我個(gè)人的看法,可以分為兩類,一類是依托于公共環(huán)境或者政府的背景而產(chǎn)生和積累起來的,這一部分我們不妨叫做行政數(shù)據(jù),比如說汽車注冊(cè)信息,學(xué)籍學(xué)歷,犯罪記錄等等。這些都是依托于政府或者公共設(shè)施積累起來的。 另外一些就是私營(yíng)企業(yè)或者上市公司,通過自己獨(dú)有的生態(tài)圈產(chǎn)生出來的數(shù)據(jù)。
而在這樣的第二類的數(shù)據(jù)中最有代表的,應(yīng)該就是阿里形成的自己獨(dú)有的生態(tài)圈中的電商數(shù)據(jù),騰訊利用微信所形成的獨(dú)有的社交數(shù)據(jù),或者騰訊和網(wǎng)易形成的游戲數(shù)據(jù)。我們可以從另一個(gè)角度看一下今天百度的困境在什么地方。
很早之前的時(shí)候,谷歌為了擊敗Facebook專門制做了一款自己的應(yīng)用叫Google+,就是為了取代Facebook。當(dāng)時(shí)FB還不大,Google為什么要這么做?因?yàn)镚oogle早就看到了今天百度面臨的困境——那就是,大家進(jìn)行百度搜索的時(shí)候都不會(huì)進(jìn)行用戶名登錄,所有的特質(zhì)信息,在百度的搜索引擎面前都是很蒼白的。但是,無論是你是使用阿里的電商或者騰訊的社交,都有很完整的個(gè)人信息和軌跡,所以不同的生態(tài)圈產(chǎn)生出來數(shù)據(jù)的價(jià)值是完全不同的。
那么,這些數(shù)據(jù)隨著征信的發(fā)現(xiàn),獲取數(shù)據(jù)會(huì)變得越來越簡(jiǎn)單還是越來越難呢?
第一類行政數(shù)據(jù)我相信今后會(huì)越來越簡(jiǎn)單。不管是這屆政府要求大力發(fā)揮大數(shù)據(jù)的作用,還是萬眾創(chuàng)新大眾創(chuàng)業(yè)的大背景,或是一些要求打破信息孤島的行政命令也好,我們可以看到基于政府和公共設(shè)施的公共數(shù)據(jù)今后的獲取會(huì)變得非常的簡(jiǎn)單。
如果兩年前就從事征信這個(gè)行業(yè),大家可能知道,那時(shí)候銀行想要購買工商的數(shù)據(jù)——在某一段非常熱的時(shí)期,一條最基本的關(guān)于企業(yè)的工商數(shù)據(jù):僅僅包括法人是誰,什么時(shí)候注冊(cè),注冊(cè)資本,經(jīng)營(yíng)范圍,法人經(jīng)營(yíng)范圍注冊(cè)資本有沒有變更,僅僅這些信息,都不包括出資信息,股份比例,其他信息都是沒有的情況下每一條數(shù)據(jù)就可以賣到15塊錢。今天很多平臺(tái)可以免費(fèi)查到這些信息,行政數(shù)據(jù)上向前買了一大步,而這一切是不以哪些主管官員的意志為轉(zhuǎn)移的,愿意或者不愿意,他們都將慢慢打開信息孤島,把這些信息聯(lián)系在一起。
另外一個(gè)角度來講,大家可能會(huì)問,那么阿里騰訊為代表的生態(tài)環(huán)境圈中的環(huán)境會(huì)開放嗎?他們肯定不會(huì)的對(duì)不對(duì)?是的,他們肯定不會(huì)公開這些數(shù)據(jù)。但是,從美國(guó)到中國(guó)到歐洲到拉丁美洲到日本,所有這些早期開始進(jìn)行征信的國(guó)家都證明了一點(diǎn)——就是數(shù)據(jù)的最終擁有者不是這些平臺(tái)的托管商而是數(shù)據(jù)的產(chǎn)生者。也就是說,誰擁有支付寶誰擁有微信,他們這些個(gè)體才是數(shù)據(jù)的擁有者;而阿里微信他們僅僅的數(shù)據(jù)的托管平臺(tái),也就是說他們無權(quán)拒絕在授權(quán)情況下這些數(shù)據(jù)對(duì)征信供應(yīng)商的使用。
總體來講,所有數(shù)據(jù),無論是行政還是生態(tài)圈數(shù)據(jù)在今后隨著競(jìng)爭(zhēng)激烈,一定不會(huì)出現(xiàn)有些人獨(dú)有一些數(shù)據(jù)有些人沒有的情況,最終可能是采購價(jià)格上的差異。不會(huì)是計(jì)算機(jī)1和0 的區(qū)別,頂多就是你5毛錢可以買到我只要4毛八的區(qū)別而已。
數(shù)據(jù)最后一定會(huì)成為像期貨一樣是可以自由的交易,不會(huì)成為征信公司的壁壘。五年十年后,中國(guó)征信領(lǐng)域如果還有誰是依靠獨(dú)有的數(shù)據(jù)獲得領(lǐng)導(dǎo)地位的話,這不僅僅可以說是中國(guó)征信領(lǐng)域的悲哀,甚至都可以看做是改革開放努力的一個(gè)不算成功的標(biāo)志。
也就是說,單純依靠特定信息源上暫時(shí)處于領(lǐng)跑地位(或者暫時(shí)有一定利潤(rùn))的征信機(jī)構(gòu),如果不對(duì)自己的技術(shù)進(jìn)行改造,幾乎可以肯定,三四年后會(huì)是首批被市場(chǎng)淘汰的對(duì)象。
我認(rèn)為兩三年三五年后,能在征信領(lǐng)域快速跑出來的公司,一定是像日本的匠人一樣擁有工匠精神,在技術(shù)積累、信息源的整合,在每一個(gè)細(xì)小環(huán)節(jié)都比對(duì)手領(lǐng)先10%或者15%的優(yōu)勢(shì)來獲得的全面的領(lǐng)先地位,而一定不是單純通過在某一個(gè)環(huán)節(jié)通過獨(dú)有的信息源或者技術(shù)徹徹底底打到對(duì)方。
我的前同事李豐投資了“三只松鼠”,也許很多人說賣堅(jiān)果并不是什么技術(shù)含量很高的工作,為什么三只松鼠可以做到排名第一?三只松鼠的客服稱用戶為“主人”而不是“親”,聽起來有些滑稽,但他把用戶的感受又往好的地方提升了一步;它的產(chǎn)品袋子里有一個(gè)垃圾袋、濕紙巾,可以讓你擦手、放垃圾,這些細(xì)小的東西本身都不能形成單一的競(jìng)爭(zhēng)力,但是把這些因素揉和在一起,在各個(gè)微小的維度上發(fā)現(xiàn)三只松鼠都和競(jìng)爭(zhēng)對(duì)手拉開了差距。
賣堅(jiān)果是這樣,征信其實(shí)也是一樣,我覺得要從競(jìng)爭(zhēng)里跑出來,企業(yè)的基本邏輯都是相似的。
我說一個(gè)故事,我們招人的時(shí)候,我們對(duì)于在機(jī)器學(xué)習(xí)上有沒有過硬背景是非??粗氐模@不是我們唯一考慮的因素。我們?cè)嬖嚵撕脦讉€(gè)美國(guó)最好的學(xué)校出來的博士生,我們給他們一組數(shù)據(jù),讓他們?cè)谝?guī)定的時(shí)間返回結(jié)果,但不告訴他應(yīng)該返回什么結(jié)果,相反,我們讓他們自己定義到底什么樣的結(jié)果才是他們滿意的,為什么定義這樣的指標(biāo)。
事實(shí)上,十個(gè)里面有八九個(gè)都會(huì)用“準(zhǔn)確率”來作為衡量算法是否準(zhǔn)確的唯一標(biāo)識(shí),但是,這樣的判斷標(biāo)準(zhǔn)在征信領(lǐng)域是正確的嗎?我既然這么問,顯然答案是不對(duì)的。
征信的場(chǎng)景中,有哪些事情是我們看重的?
我舉個(gè)例子,有個(gè)人說他(放貸)批了10個(gè)人,有9個(gè)證明是好的,只有一個(gè)是壞的,他說他的準(zhǔn)確率90%,你聽完后覺得他的算法是好的嗎?
那么我會(huì)告訴你,這個(gè)答案不是簡(jiǎn)單的是或者而不是,他有一件事沒有告訴你,真正的申請(qǐng)者可能有100個(gè),其中99個(gè)是好人,只有1個(gè)壞人,而他把那唯一的一個(gè)壞人放到了批準(zhǔn)名單里。從這個(gè)角度,雖然他批準(zhǔn)的10個(gè)人中準(zhǔn)確率是90%,但我們還能說這個(gè)結(jié)果還是好的嗎?算法是好的嗎?
在征信中,我們會(huì)把批準(zhǔn)率和壞賬率結(jié)合起來,也就是在機(jī)器學(xué)習(xí)中把precision(精確率)和recall(召回率)結(jié)合起來,才能作一個(gè)綜合的判斷。
當(dāng)然,征信領(lǐng)域我們用得最多的是KS distance(KS距離),這是俄羅斯的兩位數(shù)學(xué)家名字的首字母。
在金融領(lǐng)域,什么案例能證明機(jī)器學(xué)習(xí)有用?
我們很多模型都在金融機(jī)構(gòu)的完成兩個(gè)維度中至少一個(gè)維度的提高,那就是我們可以在保證批準(zhǔn)率相同的請(qǐng)胯下降低壞賬率,或者在相同的壞賬率的情況下提高批準(zhǔn)率?,F(xiàn)在中國(guó)的征信剛剛起步,我們的模型在很多場(chǎng)景下可以既提高批準(zhǔn)率又可以降低壞賬率,這不是一個(gè)長(zhǎng)遠(yuǎn)的情況。但總體而言,至少要做到單一維度上的提升,才可以稱得上是一個(gè)好的金融科技公司。
早年我們自己開玩笑,機(jī)器學(xué)習(xí)到底是機(jī)器學(xué)人還是人學(xué)機(jī)器,明明是人在學(xué)機(jī)器,我在卡梅隆6年才拿到我的博士學(xué)位,每天起早貪黑,科比說他看過洛杉磯凌晨4點(diǎn)的樣子,我說這有什么稀奇的,我經(jīng)常看到3點(diǎn)的匹茲堡。從我的經(jīng)驗(yàn)來看,不是機(jī)器在學(xué)習(xí)人,而是人在學(xué)習(xí)機(jī)器。
舉個(gè)例子,我們?cè)趺磳?duì)機(jī)器的錯(cuò)誤進(jìn)行修正?回到變量的選取,變量的選取有很多方法,stepwise也好,lasso(逐步套索)也好,最終無外乎對(duì)每一個(gè)獨(dú)特的變量進(jìn)行選取。可是,如果幾個(gè)變量柔和在一起形成一個(gè)新的變量,最終的結(jié)果是不是比一個(gè)單一變量更好?客觀上這是很有可能的,但我們?cè)趺床拍茏龅剑繖C(jī)器在早期的學(xué)習(xí)中是不能完成這一的工作的。
我舉個(gè)例子,我們獲得一個(gè)人過去十年搬家信息,十年搬了8次,我們?nèi)绻麊为?dú)對(duì)變量進(jìn)行選取,可能只能選取其中一次的搬家歷史,人工能發(fā)現(xiàn)這其中的問題,其次最好的辦法是對(duì)這些搬家的變量求一階導(dǎo)數(shù),這十年他搬家是越來越快還是越來越慢,只有這樣的變量對(duì)我們的模型才是有幫助的。
中國(guó)過去幾十年都是以美國(guó)為標(biāo)桿,以抄襲美國(guó)獲得所謂“創(chuàng)新”。美國(guó)的Google,F(xiàn)acebook,ebay,亞馬遜,在中國(guó)都能找到門徒,這是過去的狀況。目前,中國(guó)的創(chuàng)新企業(yè)已經(jīng)在改變這一的趨勢(shì)。
一個(gè)最簡(jiǎn)單的感受,過去需要花3年時(shí)間才能抄的東西,現(xiàn)在3個(gè)月就能抄得比較像,有的特定領(lǐng)域美國(guó)要反過來學(xué)習(xí)中國(guó)。
原因我認(rèn)為有幾個(gè):
美國(guó)的金融業(yè)已經(jīng)很成熟,主流和非主流金融人群的需求都能被得到滿足,基本上沒有什么需要改良的地方;中國(guó)的情況則是五大行高高在上,其他行在行政束縛下面很難邁動(dòng)腳步。
科技金融在美國(guó)沒有機(jī)會(huì),在中國(guó)機(jī)會(huì)很大。P2P,美國(guó)就那么兩家,而中國(guó)我們的P2P 3000家都不止,及時(shí)在銀監(jiān)會(huì)和央行的聯(lián)手打壓下還有2000多家存活下來,可見這兩個(gè)地方金融環(huán)境是天差地別的。美國(guó)現(xiàn)在所有的數(shù)據(jù)商都很完整,大家選取數(shù)據(jù)商就能完成征信工作,而中國(guó)很多地方需要自己把各個(gè)碎片的信息拼接在一起,而這也是我們征信創(chuàng)業(yè)者的機(jī)會(huì)。
我手中沒有水晶球,沒有辦法準(zhǔn)確預(yù)測(cè)中國(guó)征信未來的樣子,但我有一點(diǎn)是可以確定的:
中國(guó)一定不需要幾百家征信公司,即便這個(gè)市場(chǎng)比美國(guó)大很多,我想好的情況可能是有十幾家征信公司這十幾家術(shù)業(yè)有專攻,主要分為兩類,一類是因?yàn)橛蟹e累了獨(dú)有的數(shù)據(jù)源而形成獨(dú)有場(chǎng)景的征信公司,比如像阿里巴巴這樣的基于電商數(shù)據(jù)的電商征信,或者順豐以快遞為基礎(chǔ)的快遞征信,等等——我比較大膽的預(yù)測(cè),每個(gè)場(chǎng)景可能只有一家征信公司能存活下來;第二類是跨領(lǐng)域跨平臺(tái)的征信公司,可能有5到7家就差不多了。
最后一點(diǎn),人工智能在征信領(lǐng)域中有哪些運(yùn)用?
我簡(jiǎn)單舉兩個(gè)例子,第一個(gè)是深度學(xué)習(xí)。深度學(xué)習(xí)并不一定在所有金融領(lǐng)域中都有應(yīng)用,其本質(zhì)是需要有場(chǎng)景經(jīng)驗(yàn)來調(diào)優(yōu)的更復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)。所以,實(shí)際上我們要做的是在缺乏有效的很多的好壞標(biāo)簽的情況下,如何利用有效的人工神經(jīng)網(wǎng)絡(luò)來做遞推和歸納。
那么另外一點(diǎn)就是自然語言處理。當(dāng)我們獲得一個(gè)企業(yè)的名字的同時(shí),我們可以在全網(wǎng)對(duì)企業(yè)相關(guān)信息進(jìn)行爬取,然后對(duì)所有文本進(jìn)行精準(zhǔn)機(jī)器學(xué)習(xí)的建模分析,然后在規(guī)定的時(shí)間中檢查其輿情反響,來進(jìn)行征信工作。在我看來,很多人工智能讀到的領(lǐng)域都可以討論,但深度學(xué)習(xí)和自然語言處理是最重要的。
關(guān)于中國(guó)征信今后的發(fā)展趨勢(shì),您提到“好的情況是可能有十幾家征信公司,這十幾家征信公司術(shù)業(yè)有專攻”,您能再講一下十幾家征信公司并存是什么情形嗎?
我剛才的想說的是這十幾家并存的征信公司會(huì)分成兩類,一類是有因?yàn)橛蟹e累了獨(dú)有的數(shù)據(jù)源而形成獨(dú)有場(chǎng)景的征信公司,比如像阿里巴巴這樣的基于電商數(shù)據(jù)的電商征信,或者順豐以快遞為基礎(chǔ)的快遞征信,等等。還有一個(gè)是跨領(lǐng)域或者跨界的,以第三方征信平臺(tái)為特色的征信公司。
而跨界征信平臺(tái)出現(xiàn)的原因是因?yàn)榉e累了獨(dú)有的數(shù)據(jù)源的企業(yè),雖然他們本身足夠強(qiáng)大,但也因此引起其他公司的警惕,以至于他們想和其他公司交換數(shù)據(jù)或者獲取其他公司的數(shù)據(jù)變得不可能,所以只有第三方征信公司才能緩解這樣的問題。
說到機(jī)器出錯(cuò)的問題,舉一個(gè)特定的例子,比如我們這種媒體從業(yè)者,因?yàn)槁殬I(yè)需要天天瀏覽P2P、套現(xiàn)等等的網(wǎng)站,機(jī)器會(huì)不會(huì)把我判斷為信用狀況很差、償還能力很低的人?會(huì)怎么修正?
這是有意思的問題。我想以“什么數(shù)據(jù)最重要、最容易建?!钡恼f法來回答這個(gè)問題。
很多人認(rèn)為,外圍的行為數(shù)據(jù)能夠比較準(zhǔn)確地說明一個(gè)人的還貸能力,而事實(shí)上并不是這樣子的。從機(jī)器學(xué)習(xí)建模的角度來說,所有的數(shù)據(jù)或者說獨(dú)立變量可以分為三個(gè)部分:第一部分是核心金融數(shù)據(jù),如經(jīng)濟(jì)能力、經(jīng)濟(jì)行為是怎樣的,有沒有還錢等;第二是泛金融數(shù)據(jù),比如住在什么小區(qū),購物消費(fèi)記錄是怎樣;第三個(gè)才是社交數(shù)據(jù),比如網(wǎng)上瀏覽的鼠標(biāo)軌跡如何。
但是,這三類數(shù)據(jù)的重要性是完全不一樣的,核心金融數(shù)據(jù)的重要性遠(yuǎn)遠(yuǎn)強(qiáng)于后面二者,而第三類所謂的網(wǎng)上行為或者社交數(shù)據(jù)用來反欺詐或許有用,但用來判斷還貸能力是及其不靠譜的,所以說提問這個(gè)例子,會(huì)是眾多變量中放到模型去考慮的一個(gè),但絕對(duì)不可能因?yàn)檫@樣的情況而把償還能力拉低,或者判斷為你的信用狀況很差。
對(duì)個(gè)人建立數(shù)據(jù)肖像,是不是意味著對(duì)一個(gè)團(tuán)隊(duì)也可以建立數(shù)據(jù)肖像?這兩者的差異大嗎?
答案是肯定的。而個(gè)人征信和企業(yè)征信的差異,是在于當(dāng)各個(gè)不同的團(tuán)體產(chǎn)生后,數(shù)據(jù)的離散性,包括數(shù)據(jù)的可持續(xù)性都會(huì)是很有意思的問題,這些在建模過程中都會(huì)是不一樣的。
舉個(gè)例子,比如我們對(duì)一個(gè)餐館進(jìn)行征信,那么這個(gè)餐館的成員就可以看成是一個(gè)小團(tuán)隊(duì),里面有老板、老板娘,還有廚師、采購和服務(wù)員,但這個(gè)團(tuán)隊(duì)中個(gè)體的差異很大,以及個(gè)體角色的重要性不同,就決定了我們建模過程中,方法就會(huì)遇到很多挑戰(zhàn)。比如自己的老板小三上位,老板娘從一個(gè)四川妹子變成一個(gè)湖南妹子,那么這個(gè)餐廳的風(fēng)味就有可能從一個(gè)川菜館變成湘菜館。從這個(gè)角度講,他們的經(jīng)營(yíng)數(shù)據(jù)就全部都改變了。
當(dāng)我們回頭看,雖然是同一個(gè)老板同一個(gè)餐廳,但實(shí)際上其經(jīng)營(yíng)模式、客戶群體、菜單價(jià)等都改變了,在這樣的情況下,如果用對(duì)個(gè)人建立數(shù)據(jù)肖像的方法來對(duì)團(tuán)體進(jìn)行數(shù)據(jù)建模的話,就會(huì)有極大的差異。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。