3
本文作者: 林藠頭 | 2016-11-10 23:02 | 專題:雷峰網(wǎng)公開課 |
“凡走過必留下痕跡”,大數(shù)據(jù)時代,你的一舉一動都在為你建立一個電子檔案,從你有多少張信用卡、每個月消費多少、還款記錄如何到你喜歡瀏覽什么網(wǎng)站、手機是什么型號甚至IP地址對應(yīng)的位置,有一萬多個詞條可以刻畫你的肖像,銀行在不需要跟你打交道的情況下可以靠這種數(shù)據(jù)肖像決定要不要給你放款、放多少合適。這就是大數(shù)據(jù)征信。
每個人每天會產(chǎn)生無數(shù)的信息,征信機構(gòu)如何從這里面抽絲剝繭找到有效的數(shù)據(jù),又如何給每個數(shù)據(jù)設(shè)置合理的權(quán)重去建立模型?機器出現(xiàn)故障之后又如何修正?我們請到了在征信上有多年經(jīng)驗的嘉賓、冰鑒科技創(chuàng)始人兼CEO顧凌云來為我們解答。
顧博士是卡耐基梅隆大學計算機博士,畢業(yè)后在華爾街做對沖基金中高頻交易的算法工程師,兩年多后作為創(chuàng)始成員加入 Zest Finance(一個美國的金融科技公司,主營業(yè)務(wù)是信用評分),顧博在 Zest Finance 全面負責模型組的研發(fā)工作,三年開發(fā)了6代模型;離開后去了 小微企業(yè)征信和借貸的機構(gòu)Kabbage 擔任首席數(shù)據(jù)科學家。顧總是征信方面的權(quán)威專家,曾獲得過“中國征信50人”的稱號。
冰鑒科技創(chuàng)始人兼CEO 顧凌云
以下是本次公開課的內(nèi)容,顧凌云口述,AI金融評論(微信號aijinrongpinglun)整理。
先想說一點有意思的題外話,我后面很可能都會直接用語音,但實際上現(xiàn)在所有這些文字,我也都是直接通過說話然后通過語音識別轉(zhuǎn)化成文字,這實際上就是機器學習和人工智能的一種應(yīng)用。蘋果使用的Siri語音識別算法,有一部分就是我在卡內(nèi)基梅隆大學時候博士階段論文的一部分工作,我舉這個例子的意思其實是想告訴大家,人工智能其實進入我們的生活已經(jīng)有一段時間了,但實際上很多人工智能最終都需要通過人工來進行干預(yù),所以實際上真正人工智能最具有挑戰(zhàn)的是它的最后1公里。
那為什么在開始這段語音轉(zhuǎn)變文字之后,我會直接使用語音?那就是因為在最后的自然語言處理當中有一些小的問題語音識別和自然語言處理還不能完成,比如她/他的自動識別,專業(yè)單詞的準確判斷等等,所有這些問題其實在我們進行金融和征信領(lǐng)域的工作當中同樣存在。
很多人可能都會問我一個問題,那就是今天的征信行業(yè)有這么多人進入,逐鹿中原,它到底什么時候會變成紅海?現(xiàn)在的藍海還有哪幾塊東西可以做?如果說是任何一家以技術(shù)起家的征信公司,如果它們想要做得比較好的話,核心競爭力在哪里?
實際上所有這些問題,最后都會歸結(jié)為幾個不同的方面。在這里,我可以簡單地介紹一下建立幾個好的模型的步驟:獲得數(shù)據(jù)之后,第一步是原始清洗——基于技術(shù)數(shù)據(jù);第二步是變量選取;第三步變量整合,第四步單一模型的建立;第五步,五多模型建立。每一步中都有許多細節(jié)的工作需要完成。
如果今天市場上有100家征信公司,那我可以肯定的說——100家號稱自己做征信的公司中,80家是依靠于自己的特殊資源在做簡單的數(shù)據(jù)販賣的工作,通過自己獨特的渠道獲得獨特的數(shù)據(jù),而些依托于自己本身特有場景所產(chǎn)生的數(shù)據(jù)源變成了目前市場上成為絕對主力的征信公司。真正依托技術(shù)做征信的公司實際上并沒有那么多。
而在我們看來,真正的征信公司不僅僅是能夠產(chǎn)出原始底層數(shù)據(jù),關(guān)鍵是應(yīng)該根據(jù)原始數(shù)據(jù)所帶有的特質(zhì)進行量化提純工作,并且最終這些可以體現(xiàn)在信用決策上。真正能完成這些的公司并不多,去掉那些販賣數(shù)據(jù)的公司,現(xiàn)在征信公司剩下20%都不到。
而在這20%的公司當中,實際上又有很多公司并不是真正的我們意義上的第三方征信平臺。實際上他們都是依托于自己本身所擁有的借貸環(huán)境——一方面在通過放貸積累數(shù)據(jù),另一方面通過自己的建模工作同時提供征信。這樣的商業(yè)模式并沒有問題,但是從某種角度來講,這樣的公司即扮演運動員的角色又扮演裁判的角色,但是在今后中國的征信市場如何看待這樣以借貸起來的征信公司,我想還是會有比較長時間的爭論。
很多人都會問,一個技術(shù)起家的公司,在數(shù)據(jù)清洗方面到底有什么地方能跟其他公司做得不一樣的。 這一點上,我想分享一個有意思的應(yīng)用場景,做機器學習,我們可以把幾乎所有的場景變成兩個類別Supervised learning(監(jiān)督學習 ) 和Unsupervised learning(無監(jiān)督學習)。在這兩個場景場景當中,當我們在進行無監(jiān)督學習的時候,我們并不需要一個人還貸記錄這樣的好壞標簽,我們可以通過一些其他的變量,來判別和進行大的類別的劃分。而監(jiān)督學習或者分類過程中,我們應(yīng)該讓一開始機器先找到一部分找到好壞標簽新進行學習,然后再對新進人群進行判斷。
在這樣的情況下,我們有必要先對建模的基本概念進行闡述,這樣我們才能知道對于數(shù)據(jù)的處理應(yīng)該聚焦在什么地方。首先,我們在進行有監(jiān)督學習的時候,我們往往會在方程的兩邊進行判斷。而方程的左邊我們叫因變量,或dependent variable,是一個人在之前是否有過還貸記錄,也就是我們所謂的好壞標簽,而另外一邊是描述這個人各種各樣的信息,我們叫做自變量,也就是independent variable。
當我們做了這樣的定義以后,對于數(shù)據(jù)的處理就比較清晰了。我們或者要聚焦于對因變量進行處理,或者聚焦對自變量進行處理。
我們先從對于因變量的處理開始,大家可能都知道一個征信公司到底能做的多好,他的數(shù)據(jù)量有多大是至關(guān)重要,而很多人遇到的瓶頸問題就是,他們很難搜集到各種企業(yè)和個人進行還貸的歷史記錄,很少有企業(yè)能夠完成因變量大規(guī)模積累的工作。
這一項工作,在美國如果我們完全不需要人工智能或者機器學習的介入,最傳統(tǒng)解決辦法我們叫reject inference(拒絕推斷)。也就是,當我在這里沒有辦法在自己的場景當中獲取其他人的好壞標簽的時候,我們往往會通過其他的征信局或者其他的放貸機構(gòu),進行交換或者購買好壞標簽的形式來獲得。在中國初創(chuàng)征信壞境中,這樣的方式十分困難,因為大多數(shù)機構(gòu)都想獲得別人的而不愿意分享自己的。所以從這個角度來講,指望通過reject inference,通過別人的借貸來獲得信息就比較困難。
那些在機器學習當中,我們有什么解決方法呢?有兩種:self-training and transdurant (SVM)。當我們明確知道有一些是好的和有一些人是壞的前提下,通過一個分類器對其他未知的變量的進行處理的過程中,能夠通過一些自適應(yīng)的學習方法把在未知的人群中把有明顯傾向的人分成好的和壞的。
在方程式的右邊,對于所有的自變量,我們有什么方法處理?傳統(tǒng)意義上來講,我們獲得所有的變量之后,第一步是變量選取或者整合。而變量選取和整合,在統(tǒng)計和初步機器學習過程當中最常用的是stepwise (逐步回歸),它分為forward stepwise(前進逐步回歸) 和backward stepwise(逐步后向算法 )。顧名思義,stepwise就是通過一個一個把變量拿出來和放進去的方式來決定哪個變量比較重要。
比如,現(xiàn)在我一共有10個變量,我并不知道哪一個好哪一個壞。最常用的方法是,我把10變量都留在里面做一個模型,然后扔掉一個變量再做一個模型,然后再扔掉一個變量做一個模型,以此類推。大家就能看到,10個變量做的模型和9個變量做的模型相比較結(jié)果差異到底有多大。那么以此類推,8個,7個都是一樣的。我們就能判斷每個扔掉的變量扮演的角色到底有多重要,從而判斷這是不是一個該留在模型的變量。
那么問題來了,10個變量到底該先扔誰呢?
那么在機器學習的過程中我們有一個新的方法叫l(wèi)asso的方法來處理這個問題,它可以在多維度空間的方向中進行搜索,選擇哪些是重要的哪些是不重要的。
在我講的這些對于數(shù)據(jù)清洗的過程,某種程度應(yīng)該都是比較小的壁壘,能夠慢慢積累起來。實際上,還有很多方方面面的工作要做,(都可以形成壁壘)。
在剛剛一開始的時候,我提到過,中國的征信市場如果有100家征信公司,80家公司都是做原始數(shù)據(jù)販賣的,真正以技術(shù)立足的不到20家。征信領(lǐng)域很多人說數(shù)據(jù)為王,很多人說技術(shù)為王,二者誰會勝出呢?那我們可以借鑒一下美國的歷史,來看以后今后中國市場的走向。
我們先來看看,在征信起步的過程中,數(shù)據(jù)都扮演了很重要的角色,如果沒有數(shù)據(jù),建模就無從談起,更不要說用什么方式建模。我要說的是,在今后征信的發(fā)展過程中,數(shù)據(jù)的獲取是會越來越簡單,還是越來越難?
先來看一看,數(shù)據(jù)可以被分成什么樣的大類。從我個人的看法,可以分為兩類,一類是依托于公共環(huán)境或者政府的背景而產(chǎn)生和積累起來的,這一部分我們不妨叫做行政數(shù)據(jù),比如說汽車注冊信息,學籍學歷,犯罪記錄等等。這些都是依托于政府或者公共設(shè)施積累起來的。 另外一些就是私營企業(yè)或者上市公司,通過自己獨有的生態(tài)圈產(chǎn)生出來的數(shù)據(jù)。
而在這樣的第二類的數(shù)據(jù)中最有代表的,應(yīng)該就是阿里形成的自己獨有的生態(tài)圈中的電商數(shù)據(jù),騰訊利用微信所形成的獨有的社交數(shù)據(jù),或者騰訊和網(wǎng)易形成的游戲數(shù)據(jù)。我們可以從另一個角度看一下今天百度的困境在什么地方。
很早之前的時候,谷歌為了擊敗Facebook專門制做了一款自己的應(yīng)用叫Google+,就是為了取代Facebook。當時FB還不大,Google為什么要這么做?因為Google早就看到了今天百度面臨的困境——那就是,大家進行百度搜索的時候都不會進行用戶名登錄,所有的特質(zhì)信息,在百度的搜索引擎面前都是很蒼白的。但是,無論是你是使用阿里的電商或者騰訊的社交,都有很完整的個人信息和軌跡,所以不同的生態(tài)圈產(chǎn)生出來數(shù)據(jù)的價值是完全不同的。
那么,這些數(shù)據(jù)隨著征信的發(fā)現(xiàn),獲取數(shù)據(jù)會變得越來越簡單還是越來越難呢?
第一類行政數(shù)據(jù)我相信今后會越來越簡單。不管是這屆政府要求大力發(fā)揮大數(shù)據(jù)的作用,還是萬眾創(chuàng)新大眾創(chuàng)業(yè)的大背景,或是一些要求打破信息孤島的行政命令也好,我們可以看到基于政府和公共設(shè)施的公共數(shù)據(jù)今后的獲取會變得非常的簡單。
如果兩年前就從事征信這個行業(yè),大家可能知道,那時候銀行想要購買工商的數(shù)據(jù)——在某一段非常熱的時期,一條最基本的關(guān)于企業(yè)的工商數(shù)據(jù):僅僅包括法人是誰,什么時候注冊,注冊資本,經(jīng)營范圍,法人經(jīng)營范圍注冊資本有沒有變更,僅僅這些信息,都不包括出資信息,股份比例,其他信息都是沒有的情況下每一條數(shù)據(jù)就可以賣到15塊錢。今天很多平臺可以免費查到這些信息,行政數(shù)據(jù)上向前買了一大步,而這一切是不以哪些主管官員的意志為轉(zhuǎn)移的,愿意或者不愿意,他們都將慢慢打開信息孤島,把這些信息聯(lián)系在一起。
另外一個角度來講,大家可能會問,那么阿里騰訊為代表的生態(tài)環(huán)境圈中的環(huán)境會開放嗎?他們肯定不會的對不對?是的,他們肯定不會公開這些數(shù)據(jù)。但是,從美國到中國到歐洲到拉丁美洲到日本,所有這些早期開始進行征信的國家都證明了一點——就是數(shù)據(jù)的最終擁有者不是這些平臺的托管商而是數(shù)據(jù)的產(chǎn)生者。也就是說,誰擁有支付寶誰擁有微信,他們這些個體才是數(shù)據(jù)的擁有者;而阿里微信他們僅僅的數(shù)據(jù)的托管平臺,也就是說他們無權(quán)拒絕在授權(quán)情況下這些數(shù)據(jù)對征信供應(yīng)商的使用。
總體來講,所有數(shù)據(jù),無論是行政還是生態(tài)圈數(shù)據(jù)在今后隨著競爭激烈,一定不會出現(xiàn)有些人獨有一些數(shù)據(jù)有些人沒有的情況,最終可能是采購價格上的差異。不會是計算機1和0 的區(qū)別,頂多就是你5毛錢可以買到我只要4毛八的區(qū)別而已。
數(shù)據(jù)最后一定會成為像期貨一樣是可以自由的交易,不會成為征信公司的壁壘。五年十年后,中國征信領(lǐng)域如果還有誰是依靠獨有的數(shù)據(jù)獲得領(lǐng)導(dǎo)地位的話,這不僅僅可以說是中國征信領(lǐng)域的悲哀,甚至都可以看做是改革開放努力的一個不算成功的標志。
也就是說,單純依靠特定信息源上暫時處于領(lǐng)跑地位(或者暫時有一定利潤)的征信機構(gòu),如果不對自己的技術(shù)進行改造,幾乎可以肯定,三四年后會是首批被市場淘汰的對象。
我認為兩三年三五年后,能在征信領(lǐng)域快速跑出來的公司,一定是像日本的匠人一樣擁有工匠精神,在技術(shù)積累、信息源的整合,在每一個細小環(huán)節(jié)都比對手領(lǐng)先10%或者15%的優(yōu)勢來獲得的全面的領(lǐng)先地位,而一定不是單純通過在某一個環(huán)節(jié)通過獨有的信息源或者技術(shù)徹徹底底打到對方。
我的前同事李豐投資了“三只松鼠”,也許很多人說賣堅果并不是什么技術(shù)含量很高的工作,為什么三只松鼠可以做到排名第一?三只松鼠的客服稱用戶為“主人”而不是“親”,聽起來有些滑稽,但他把用戶的感受又往好的地方提升了一步;它的產(chǎn)品袋子里有一個垃圾袋、濕紙巾,可以讓你擦手、放垃圾,這些細小的東西本身都不能形成單一的競爭力,但是把這些因素揉和在一起,在各個微小的維度上發(fā)現(xiàn)三只松鼠都和競爭對手拉開了差距。
賣堅果是這樣,征信其實也是一樣,我覺得要從競爭里跑出來,企業(yè)的基本邏輯都是相似的。
我說一個故事,我們招人的時候,我們對于在機器學習上有沒有過硬背景是非??粗氐?,但這不是我們唯一考慮的因素。我們曾面試了好幾個美國最好的學校出來的博士生,我們給他們一組數(shù)據(jù),讓他們在規(guī)定的時間返回結(jié)果,但不告訴他應(yīng)該返回什么結(jié)果,相反,我們讓他們自己定義到底什么樣的結(jié)果才是他們滿意的,為什么定義這樣的指標。
事實上,十個里面有八九個都會用“準確率”來作為衡量算法是否準確的唯一標識,但是,這樣的判斷標準在征信領(lǐng)域是正確的嗎?我既然這么問,顯然答案是不對的。
征信的場景中,有哪些事情是我們看重的?
我舉個例子,有個人說他(放貸)批了10個人,有9個證明是好的,只有一個是壞的,他說他的準確率90%,你聽完后覺得他的算法是好的嗎?
那么我會告訴你,這個答案不是簡單的是或者而不是,他有一件事沒有告訴你,真正的申請者可能有100個,其中99個是好人,只有1個壞人,而他把那唯一的一個壞人放到了批準名單里。從這個角度,雖然他批準的10個人中準確率是90%,但我們還能說這個結(jié)果還是好的嗎?算法是好的嗎?
在征信中,我們會把批準率和壞賬率結(jié)合起來,也就是在機器學習中把precision(精確率)和recall(召回率)結(jié)合起來,才能作一個綜合的判斷。
當然,征信領(lǐng)域我們用得最多的是KS distance(KS距離),這是俄羅斯的兩位數(shù)學家名字的首字母。
在金融領(lǐng)域,什么案例能證明機器學習有用?
我們很多模型都在金融機構(gòu)的完成兩個維度中至少一個維度的提高,那就是我們可以在保證批準率相同的請胯下降低壞賬率,或者在相同的壞賬率的情況下提高批準率?,F(xiàn)在中國的征信剛剛起步,我們的模型在很多場景下可以既提高批準率又可以降低壞賬率,這不是一個長遠的情況。但總體而言,至少要做到單一維度上的提升,才可以稱得上是一個好的金融科技公司。
早年我們自己開玩笑,機器學習到底是機器學人還是人學機器,明明是人在學機器,我在卡梅隆6年才拿到我的博士學位,每天起早貪黑,科比說他看過洛杉磯凌晨4點的樣子,我說這有什么稀奇的,我經(jīng)??吹?點的匹茲堡。從我的經(jīng)驗來看,不是機器在學習人,而是人在學習機器。
舉個例子,我們怎么對機器的錯誤進行修正?回到變量的選取,變量的選取有很多方法,stepwise也好,lasso(逐步套索)也好,最終無外乎對每一個獨特的變量進行選取??墒牵绻麕讉€變量柔和在一起形成一個新的變量,最終的結(jié)果是不是比一個單一變量更好?客觀上這是很有可能的,但我們怎么才能做到?機器在早期的學習中是不能完成這一的工作的。
我舉個例子,我們獲得一個人過去十年搬家信息,十年搬了8次,我們?nèi)绻麊为殞ψ兞窟M行選取,可能只能選取其中一次的搬家歷史,人工能發(fā)現(xiàn)這其中的問題,其次最好的辦法是對這些搬家的變量求一階導(dǎo)數(shù),這十年他搬家是越來越快還是越來越慢,只有這樣的變量對我們的模型才是有幫助的。
中國過去幾十年都是以美國為標桿,以抄襲美國獲得所謂“創(chuàng)新”。美國的Google,F(xiàn)acebook,ebay,亞馬遜,在中國都能找到門徒,這是過去的狀況。目前,中國的創(chuàng)新企業(yè)已經(jīng)在改變這一的趨勢。
一個最簡單的感受,過去需要花3年時間才能抄的東西,現(xiàn)在3個月就能抄得比較像,有的特定領(lǐng)域美國要反過來學習中國。
原因我認為有幾個:
美國的金融業(yè)已經(jīng)很成熟,主流和非主流金融人群的需求都能被得到滿足,基本上沒有什么需要改良的地方;中國的情況則是五大行高高在上,其他行在行政束縛下面很難邁動腳步。
科技金融在美國沒有機會,在中國機會很大。P2P,美國就那么兩家,而中國我們的P2P 3000家都不止,及時在銀監(jiān)會和央行的聯(lián)手打壓下還有2000多家存活下來,可見這兩個地方金融環(huán)境是天差地別的。美國現(xiàn)在所有的數(shù)據(jù)商都很完整,大家選取數(shù)據(jù)商就能完成征信工作,而中國很多地方需要自己把各個碎片的信息拼接在一起,而這也是我們征信創(chuàng)業(yè)者的機會。
我手中沒有水晶球,沒有辦法準確預(yù)測中國征信未來的樣子,但我有一點是可以確定的:
中國一定不需要幾百家征信公司,即便這個市場比美國大很多,我想好的情況可能是有十幾家征信公司這十幾家術(shù)業(yè)有專攻,主要分為兩類,一類是因為有積累了獨有的數(shù)據(jù)源而形成獨有場景的征信公司,比如像阿里巴巴這樣的基于電商數(shù)據(jù)的電商征信,或者順豐以快遞為基礎(chǔ)的快遞征信,等等——我比較大膽的預(yù)測,每個場景可能只有一家征信公司能存活下來;第二類是跨領(lǐng)域跨平臺的征信公司,可能有5到7家就差不多了。
最后一點,人工智能在征信領(lǐng)域中有哪些運用?
我簡單舉兩個例子,第一個是深度學習。深度學習并不一定在所有金融領(lǐng)域中都有應(yīng)用,其本質(zhì)是需要有場景經(jīng)驗來調(diào)優(yōu)的更復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)。所以,實際上我們要做的是在缺乏有效的很多的好壞標簽的情況下,如何利用有效的人工神經(jīng)網(wǎng)絡(luò)來做遞推和歸納。
那么另外一點就是自然語言處理。當我們獲得一個企業(yè)的名字的同時,我們可以在全網(wǎng)對企業(yè)相關(guān)信息進行爬取,然后對所有文本進行精準機器學習的建模分析,然后在規(guī)定的時間中檢查其輿情反響,來進行征信工作。在我看來,很多人工智能讀到的領(lǐng)域都可以討論,但深度學習和自然語言處理是最重要的。
關(guān)于中國征信今后的發(fā)展趨勢,您提到“好的情況是可能有十幾家征信公司,這十幾家征信公司術(shù)業(yè)有專攻”,您能再講一下十幾家征信公司并存是什么情形嗎?
我剛才的想說的是這十幾家并存的征信公司會分成兩類,一類是有因為有積累了獨有的數(shù)據(jù)源而形成獨有場景的征信公司,比如像阿里巴巴這樣的基于電商數(shù)據(jù)的電商征信,或者順豐以快遞為基礎(chǔ)的快遞征信,等等。還有一個是跨領(lǐng)域或者跨界的,以第三方征信平臺為特色的征信公司。
而跨界征信平臺出現(xiàn)的原因是因為積累了獨有的數(shù)據(jù)源的企業(yè),雖然他們本身足夠強大,但也因此引起其他公司的警惕,以至于他們想和其他公司交換數(shù)據(jù)或者獲取其他公司的數(shù)據(jù)變得不可能,所以只有第三方征信公司才能緩解這樣的問題。
說到機器出錯的問題,舉一個特定的例子,比如我們這種媒體從業(yè)者,因為職業(yè)需要天天瀏覽P2P、套現(xiàn)等等的網(wǎng)站,機器會不會把我判斷為信用狀況很差、償還能力很低的人?會怎么修正?
這是有意思的問題。我想以“什么數(shù)據(jù)最重要、最容易建模”的說法來回答這個問題。
很多人認為,外圍的行為數(shù)據(jù)能夠比較準確地說明一個人的還貸能力,而事實上并不是這樣子的。從機器學習建模的角度來說,所有的數(shù)據(jù)或者說獨立變量可以分為三個部分:第一部分是核心金融數(shù)據(jù),如經(jīng)濟能力、經(jīng)濟行為是怎樣的,有沒有還錢等;第二是泛金融數(shù)據(jù),比如住在什么小區(qū),購物消費記錄是怎樣;第三個才是社交數(shù)據(jù),比如網(wǎng)上瀏覽的鼠標軌跡如何。
但是,這三類數(shù)據(jù)的重要性是完全不一樣的,核心金融數(shù)據(jù)的重要性遠遠強于后面二者,而第三類所謂的網(wǎng)上行為或者社交數(shù)據(jù)用來反欺詐或許有用,但用來判斷還貸能力是及其不靠譜的,所以說提問這個例子,會是眾多變量中放到模型去考慮的一個,但絕對不可能因為這樣的情況而把償還能力拉低,或者判斷為你的信用狀況很差。
對個人建立數(shù)據(jù)肖像,是不是意味著對一個團隊也可以建立數(shù)據(jù)肖像?這兩者的差異大嗎?
答案是肯定的。而個人征信和企業(yè)征信的差異,是在于當各個不同的團體產(chǎn)生后,數(shù)據(jù)的離散性,包括數(shù)據(jù)的可持續(xù)性都會是很有意思的問題,這些在建模過程中都會是不一樣的。
舉個例子,比如我們對一個餐館進行征信,那么這個餐館的成員就可以看成是一個小團隊,里面有老板、老板娘,還有廚師、采購和服務(wù)員,但這個團隊中個體的差異很大,以及個體角色的重要性不同,就決定了我們建模過程中,方法就會遇到很多挑戰(zhàn)。比如自己的老板小三上位,老板娘從一個四川妹子變成一個湖南妹子,那么這個餐廳的風味就有可能從一個川菜館變成湘菜館。從這個角度講,他們的經(jīng)營數(shù)據(jù)就全部都改變了。
當我們回頭看,雖然是同一個老板同一個餐廳,但實際上其經(jīng)營模式、客戶群體、菜單價等都改變了,在這樣的情況下,如果用對個人建立數(shù)據(jù)肖像的方法來對團體進行數(shù)據(jù)建模的話,就會有極大的差異。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。