丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
AI+ 正文
發(fā)私信給張利
發(fā)送

0

專訪【友盟+】CDO李丹楓:“互聯(lián)網(wǎng)行為數(shù)據(jù)與風(fēng)控看似毫不相關(guān),卻會產(chǎn)生意想不到的效果”

本文作者: 張利 2017-06-05 09:37
導(dǎo)語:到今年為止,大數(shù)據(jù)的概念已經(jīng)火了7年,如今“落地應(yīng)用”已經(jīng)變身為大數(shù)據(jù)產(chǎn)業(yè)的核心。

到今年為止,大數(shù)據(jù)的概念已經(jīng)火了7年,如今“落地應(yīng)用”已經(jīng)變身為大數(shù)據(jù)產(chǎn)業(yè)的核心,第三方全域數(shù)據(jù)服務(wù)商【友盟+】將今年定為“實(shí)現(xiàn)全面商業(yè)化”的一年,目前其直接服務(wù)客戶群依然是互聯(lián)網(wǎng)企業(yè),“未來傳統(tǒng)企業(yè)客戶將是重要服務(wù)客群”,【友盟+】CDO李丹楓稱。

在2017年【友盟+】主辦的2017UBDC全域大數(shù)據(jù)峰會上,李丹楓與在場觀眾分享了【友盟+】的幾個應(yīng)用案例。

  • 在融360平臺推出了基于用戶互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)行為的風(fēng)險控制分析模型,幾乎對于任何設(shè)備,我們就能找到這個設(shè)備的相關(guān)信息以及用戶在設(shè)備上的行為信息,并且最終效果為提高風(fēng)控效果20%。這個項(xiàng)目充分證明了結(jié)合企業(yè)數(shù)據(jù)和【友盟+】數(shù)據(jù)探索具體應(yīng)用落地的可能性。

  • 我們與平安科技進(jìn)行了合作,基于互聯(lián)網(wǎng)上的用戶行為數(shù)據(jù),判斷哪些人有申請信用卡傾向、哪些有貸款傾向等,使用了該模型之后,廣告花費(fèi)明顯降低。

  • 【友盟+】與梨視頻合作,用我們的數(shù)據(jù)幫他們解決冷啟動的問題。

  • 在廣告投放領(lǐng)域,機(jī)器能根據(jù)后臺大數(shù)據(jù)判斷哪些是企業(yè)的核心用戶、哪些與其客群相近,基于此進(jìn)行廣告投放。

李丹楓稱,目前【友盟+】重點(diǎn)關(guān)注3個領(lǐng)域:互聯(lián)網(wǎng)應(yīng)用、新零售和廣告營銷行業(yè)?!巴瑫r也會做一些摸索性的項(xiàng)目,對行業(yè)沒有太多限制?!?/p>

大數(shù)據(jù)火了多久,數(shù)據(jù)相關(guān)性弱、數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)處理過程復(fù)雜等問題就存在了多久,對此,雷鋒網(wǎng)采訪了李丹楓。

專訪【友盟+】CDO李丹楓:“互聯(lián)網(wǎng)行為數(shù)據(jù)與風(fēng)控看似毫不相關(guān),卻會產(chǎn)生意想不到的效果”

數(shù)據(jù)相關(guān)

“數(shù)據(jù)已經(jīng)成為一種資產(chǎn)”已是行業(yè)共識,而【友盟+】基于其提供的數(shù)據(jù)監(jiān)測工具采集互聯(lián)網(wǎng)公開數(shù)據(jù)、APP端以及用戶行為數(shù)據(jù),進(jìn)行簡單清洗梳理后向企業(yè)提供數(shù)據(jù)資源。

據(jù)悉,目前有125萬個APP、680萬個網(wǎng)站用了【友盟+】的數(shù)據(jù)服務(wù),每天可搜集的數(shù)據(jù)設(shè)備是14億?!爸袊W(wǎng)民數(shù)大概是7億多,一個人可能有多個設(shè)備,【友盟+】基本覆蓋了全網(wǎng)用戶。”李丹楓如是說。

雷鋒網(wǎng):【友盟+】的數(shù)據(jù)屬于強(qiáng)相關(guān)還是弱相關(guān)?

李丹楓:營銷場景的數(shù)據(jù)在很多情況下是強(qiáng)相關(guān)性的,用戶在移動互聯(lián)網(wǎng)上耗費(fèi)的時間很多,通過網(wǎng)上行為對人們興趣做判斷是很靠譜的,營銷場景的數(shù)據(jù)是強(qiáng)相關(guān)的數(shù)據(jù)。

對于風(fēng)控場景,數(shù)據(jù)是分散的,最上面一層是借款、還款相關(guān)的數(shù)據(jù),這部分?jǐn)?shù)據(jù)屬于強(qiáng)相關(guān)但數(shù)據(jù)量比小,并非所有人都有借款還款的記錄;再下面是銀行卡、信用卡交易消費(fèi)數(shù)據(jù);再往下可能是一些社交數(shù)據(jù);最后是用戶行為數(shù)據(jù)。用戶行為數(shù)據(jù)可能看起來與風(fēng)控沒太大關(guān)系,但我們的優(yōu)勢是數(shù)據(jù)體量大,覆蓋率高。另外,這些貌似不是強(qiáng)相關(guān)的數(shù)據(jù)往往會產(chǎn)生一些意想不到的附加效果,比如,一個人的互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)行為數(shù)據(jù)實(shí)際上對這個人是很好的描述,如果某用戶在金融領(lǐng)域有一些特定的行為,實(shí)際上在其他領(lǐng)域也會顯露出來。

我們開始做這個項(xiàng)目時,也是抱著試一試的心態(tài),后來發(fā)現(xiàn)效果非常好。融360本身會集合各方面相關(guān)的數(shù)據(jù)做模型,我們發(fā)現(xiàn)在有些案例中【友盟+】的數(shù)據(jù)能排第二。

另外,用戶在互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)行為數(shù)據(jù)是很難造假的。金融數(shù)據(jù)可以造假,可能開始非常守信的用戶在貸款額提高時不還款,行為數(shù)據(jù)能真實(shí)反映情況,看似不相關(guān)的數(shù)據(jù)往往會產(chǎn)生意想不到的效果。

雷鋒網(wǎng):目前,【友盟+】的興趣標(biāo)簽、人口屬性標(biāo)簽有多少類呢?

李丹楓:興趣標(biāo)簽固定體系有400多類,但現(xiàn)在很多時候客戶會要求跟場景相關(guān),客戶有某個需求可以定制標(biāo)簽,這是自動化的生成流程。人口屬性標(biāo)簽是性別、年齡、收入、是否有房、是否有車、是否有小孩兒等這些信息。

雷鋒網(wǎng):定制標(biāo)簽的過程是怎樣的?

李丹楓:標(biāo)簽定制有兩種方式,一種人工一點(diǎn),通過觀察客戶目標(biāo)群體的屬性,判斷哪些屬性是突出屬性,進(jìn)行標(biāo)簽定制,這個過程基本是半機(jī)器半人工的狀態(tài)。另一種是自動化的:用戶直接上傳它的核心用戶數(shù)據(jù),基于這些數(shù)據(jù)找出我們這里所有與其核心用戶相近的數(shù)據(jù),比如對十幾億設(shè)備進(jìn)行排序,排在最前面的是最相近的,排在最后的是不相近的,這是自動化的一個過程。

我們更希望客戶通過這個過程來進(jìn)行人群定位、廣告投放,但這需要時間,因?yàn)槠髽I(yè)一般很難明確地說出其目標(biāo)人群特點(diǎn),而模型是發(fā)現(xiàn)一些內(nèi)在的聯(lián)系,有時候也是難以解釋的。

雷鋒網(wǎng):您講到企業(yè)本身要提供一部分?jǐn)?shù)據(jù)進(jìn)行放大,如果企業(yè)沒有數(shù)據(jù)呢?

李丹楓:整個過程需要閉環(huán),如果沒有數(shù)據(jù),企業(yè)一般對其目標(biāo)群體有大概的概念,我們可以先做投放,有一定客戶積累之后再放大,整個操作流程是很簡單的。

雷鋒網(wǎng):形成標(biāo)簽的過程是怎么的?

李丹楓:每天都有新數(shù)據(jù)進(jìn)來,我們每天都會處理這些數(shù)據(jù)做標(biāo)簽更新,有些標(biāo)簽變化不會太大,對性別預(yù)測不會產(chǎn)生太大的變化,但不排除在一些場景下,性別標(biāo)簽會變化。

比如一個男性用戶老婆懷孕,那他的行為轉(zhuǎn)變?yōu)橐粋€女性行為了,這是用戶的行為性別。一個人的行為性別可以隨著其人生階段變化,在這個意義上,行為性別可能比真實(shí)性別更有意義。如果標(biāo)簽體系中用戶的真實(shí)性別為男性,并且不知道其人生階段,那么,與母嬰、育兒相關(guān)的內(nèi)容不會推送給他。一個用戶原來的行為性別是男性但現(xiàn)在看起來像女性,可能是他的人生階段發(fā)生變化。

還有興趣標(biāo)簽,比如我是一個比較喜歡看金融類新聞的人,但我從來不點(diǎn)金融類新聞廣告,如果做效果類廣告標(biāo)簽,我是沒有的,但如果做品牌廣告我是有標(biāo)簽的,根據(jù)不同應(yīng)用場景每一個標(biāo)簽會有不同的設(shè)置。所以一個400維的標(biāo)簽,在同一個設(shè)備不同場景下,可能變成800維或1200維。

數(shù)據(jù)收集上來后的第一步工作就是做基礎(chǔ)標(biāo)簽。一般來說我們很少會直接使用原始數(shù)據(jù),因?yàn)樵紨?shù)據(jù)一是體量大,二是占有的空間大,而且不同的業(yè)務(wù)用到的數(shù)據(jù)往往都要經(jīng)過標(biāo)簽生產(chǎn)的過程。所以,基礎(chǔ)標(biāo)簽肯定要生成的,場景標(biāo)簽、高級標(biāo)簽是按需求來做的。我們平時做的工作是建立自動化或半自動化的體系讓效率更高。比如我們最開始做風(fēng)控的時候,我們做一個模型可能需要一個多月兩個月,現(xiàn)在可能一個星期就把做出來了。我們是在工具層把它體系搭建好,這樣如果場景來了我們就可以高效地生成。

雷鋒網(wǎng):數(shù)據(jù)的質(zhì)量是怎么把關(guān)的呢?收集上來的數(shù)據(jù)如何判斷這個數(shù)據(jù)好還是不好?

李丹楓:首先是原始數(shù)據(jù)收集,我們第一步做的事情其實(shí)很簡單,就是通過常識判斷數(shù)據(jù)是不是合理。如果發(fā)現(xiàn)一個人一天的行為很多,那判斷這可能是機(jī)器而不是人,在這個層面上,通過一些規(guī)則或統(tǒng)計模型刪除一部分。在互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)上,這種假的人或機(jī)器還挺多的,所以第一步會篩掉不是真實(shí)的人的信息,而這些信息本身對開發(fā)者也是有幫助的。比如做渠道質(zhì)量判斷,通過這個過程可以判斷哪些渠道是垃圾設(shè)備,后續(xù)就不太用這些渠道。

第二可能需要一個應(yīng)用場景用以驗(yàn)證。比如廣告投放場景中,用了我們的標(biāo)簽后,發(fā)現(xiàn)結(jié)果沒改善,或者改善不明顯。我們就會回過頭來看標(biāo)簽生產(chǎn)過程是不是有問題,再往后推數(shù)據(jù)會不會有問題,應(yīng)用場景越多,數(shù)據(jù)質(zhì)量檢驗(yàn)的方式越多。

我們認(rèn)為在某個場景中應(yīng)該有效果但實(shí)際沒有的,往往會去追究其原因。實(shí)際上,這個過程能幫助我們把數(shù)據(jù)質(zhì)量不斷做好,有時候會發(fā)現(xiàn)這是系統(tǒng)性的原因,系統(tǒng)修好后,數(shù)據(jù)質(zhì)量問題就解決了。

整個過程有兩層,一層是統(tǒng)計級別,第二層是在應(yīng)用級別做質(zhì)量把控。

雷鋒網(wǎng):多少天沒效果就會懷疑數(shù)據(jù)質(zhì)量問題?

李丹楓:比如投放,一般投放幾天到一星期,幾天到一星期沒有效果,我們判斷是模型的原因是數(shù)據(jù)的原因,這個跟場景相關(guān)。比如風(fēng)控周期會長,一般30天逾期、90天逾期,今天貸了款可能6個月之后才用還,我需要等6個月才能發(fā)現(xiàn)這個問題。當(dāng)然我們做這個模型時,會有一些歷史的數(shù)據(jù),用歷史的數(shù)據(jù)來檢驗(yàn),如果發(fā)現(xiàn)歷史數(shù)據(jù)一點(diǎn)效果沒有可能就會有問題。

雷鋒網(wǎng):打通PC、移動和線下數(shù)據(jù),目前是怎樣一種狀況?

李丹楓:現(xiàn)在有兩種方式:一種是通過阿里強(qiáng)ID體系打通的,它會判斷一個人有哪幾臺設(shè)備;但在很多場景下,我們不能直接輸出基于阿里數(shù)據(jù)的結(jié)果,那我們就會用算法打通,這聽起來很高大上,原理是很簡單的,比如兩個設(shè)備經(jīng)常在同一個IP出現(xiàn),那屬于同一個人的概率非常大。當(dāng)然我們的模型沒有這么簡單,我們還會采集一些其他的行為信息。

我們最大的好處是我們有阿里強(qiáng)賬號體系,訓(xùn)練模型時數(shù)據(jù)量是非常大的,如果有大量數(shù)據(jù),可能并不需要特別厲害的數(shù)據(jù)科學(xué)家,不需要特別高精尖的算法,就能把整個系統(tǒng)弄好。

我們現(xiàn)在是會用算法把PC、移動包括線下的數(shù)據(jù)打通。我們平臺的打通是有一定概率的,我們說兩個設(shè)備背后有一個人,意思是有 70%或80%的可能性。畢竟沒有一個算法是完美的,通過算法的方式只能提供一個概率。

雷鋒網(wǎng):概率大概是多少?

李丹楓:你給我兩個ID,我會告訴你這兩個ID可能是一個設(shè)備的可能性為90%或70%。用戶在不同的場景下,對精準(zhǔn)的要求不同,比如有的用戶認(rèn)為概率在90%以上才會認(rèn)為是同一設(shè)備;而有的認(rèn)為70%就可以接受了。

模型產(chǎn)出一個連續(xù)的分?jǐn)?shù),但用戶在具體使用時,會基于分?jǐn)?shù)判斷操作點(diǎn),當(dāng)然我們會輔助他們。根本問題在于你要求精確度高還是覆蓋率大,這兩者是相矛盾的。

技術(shù)相關(guān)

對于大數(shù)據(jù)服務(wù)商而言,數(shù)據(jù)有效性將直接影響到大數(shù)據(jù)的應(yīng)用水平,從數(shù)據(jù)源到分析樣本的采集過程需要大量技術(shù)支撐和人工干預(yù)。據(jù)悉,在數(shù)據(jù)融合與處理相關(guān)的領(lǐng)域,主要解決包含兩個方面的問題:一是數(shù)據(jù)標(biāo)準(zhǔn)化與有效性整理;二是面向過程(具體目的)的數(shù)據(jù)處理與粗提取。 

雷鋒網(wǎng):應(yīng)用于不同行業(yè)時,技術(shù)遷移容易嗎?

李丹楓:技術(shù)是分層的。收集數(shù)據(jù)后,會基于事實(shí)標(biāo)記最底層的興趣標(biāo)簽、人口屬性標(biāo)簽。其中人口屬性標(biāo)簽可能是通過人群預(yù)測的,通過標(biāo)注的數(shù)據(jù),訓(xùn)練一個模式,基于這個模型去判斷其它不知道某些標(biāo)簽的用戶??傮w來說,底層標(biāo)簽基于事實(shí)和預(yù)測,其上會有對標(biāo)簽的深加工,對特定營銷場景定制的標(biāo)簽,客戶也會對我們提一些需求進(jìn)行標(biāo)簽定制。再往上是真正的深度加工,比如建立風(fēng)控模型,需要建立一些目標(biāo)函數(shù),這也是基于底層的興趣標(biāo)簽和屬性標(biāo)簽的。

所以,我們其實(shí)并不需要做遷移,因?yàn)槲覀兊募夹g(shù)是一層層,已經(jīng)把整個架構(gòu)都搭好了。如果要應(yīng)用于某個復(fù)雜的應(yīng)用場景中,只需要基于相應(yīng)的場景數(shù)據(jù)訓(xùn)練模型即可。

雷鋒網(wǎng):您剛才說半機(jī)器半人工,機(jī)器做什么?人工做什么?

李丹楓:上文說的場景中,機(jī)器更多做的是“人群畫像”的工作,數(shù)據(jù)拿來之后,打上人群屬性標(biāo)簽、興趣標(biāo)簽,然后進(jìn)行匹配,將這群客戶人群與整體人群做比較。拿性別來說,整體上男女比例是1:1,如果這個群體男女比例是3:1,那么,男性是人群里比較顯著的特征。

機(jī)器做的事情,第一是計算做匹配自動畫像;第二找出最顯著的特征,至于是不是用顯著特征作為目標(biāo)畫像,這需要人和機(jī)器結(jié)合。人群放大環(huán)節(jié),希望人力介入之后能越來越少。

雷鋒網(wǎng):【友盟+】DIP平臺內(nèi)部集成了哪些智能化的數(shù)據(jù)管理方式呢?

李丹楓:首先,我們現(xiàn)在不把自己叫DMP平臺,而叫DIP平臺,很大的目的是和DMP區(qū)分。DMP平臺會使人自然聯(lián)想到廣告營銷場景,但廣告營銷場景只是我們業(yè)務(wù)的一部分,我們涉及的場景包括金融風(fēng)控、推薦、營銷等。

關(guān)于智能算法,風(fēng)控模型算一個,原來我們做風(fēng)控模型時,需要一到兩個月?,F(xiàn)在做風(fēng)控,如果客戶數(shù)據(jù)質(zhì)量好,模型一兩周就可以上線了。我們已經(jīng)建好一個建模體系,只要把輸入輸出告訴我,基本上可以自動化生成一個模型。

另外人群放大背后也是一個算法。按理說,現(xiàn)在很多DMP平臺中都應(yīng)該有人群放大的功能。我們的好處是數(shù)據(jù)體量非常大,人群放大有兩個要點(diǎn):一是能不能夠找到非常相似的人?搜集一個人的行為數(shù)據(jù)越多,描述越豐富,相似性越好;二是覆蓋量的問題,我們每天有14億設(shè)備,池子大得很,客戶想找多少的人可以找多少的人,而且這么大的池子里,同樣相似度找到人的數(shù)量更多。

還有我們的推薦引擎也具智能功能,我們不是一個數(shù)據(jù)管理平臺,是一個數(shù)據(jù)智能平臺。

落地應(yīng)用相關(guān)

據(jù)悉,目前【友盟+】的業(yè)務(wù)由三大產(chǎn)品線和一個智能數(shù)據(jù)平臺組成。所謂三大產(chǎn)品線分別是:U-Dplus一站式數(shù)據(jù)管理運(yùn)營平臺、U-ADplus全鏈路營銷解決方案和基于大數(shù)據(jù) & 智能感知技術(shù)的整套線下數(shù)據(jù)服務(wù)解決方案U-Oplus;智能數(shù)據(jù)平臺U-DIP是3大產(chǎn)品后面的大腦。

雷鋒網(wǎng):企業(yè)數(shù)據(jù)分析用excel比較多,用這些分析工具較少,您怎么看?

李丹楓:其中有很多因素,第一是很多企業(yè)在做事的時候并沒有意識到數(shù)據(jù)能夠帶來什么好處,所以很多場景里他們并沒有采集數(shù)據(jù)。但實(shí)際上如果你采集了這些數(shù)據(jù),之后可能做到運(yùn)營更高效、更精準(zhǔn)。

我舉個例子,為什么電商運(yùn)營這么高效,而實(shí)體店中,大家都不太能說清楚顧客的狀況是怎樣的,活動促銷也沒有具體的數(shù)據(jù)指導(dǎo)。我們的產(chǎn)品U-Oplus能收集進(jìn)店人的信息。

大家都說新零售的核心是人,但如果你對顧客知道的少之又少,怎么能夠精細(xì)化運(yùn)營?U-Oplus能通過感知方式去探測進(jìn)店人的移動設(shè)備。

感知到移動設(shè)備有這幾個好處:一是實(shí)現(xiàn)點(diǎn)對點(diǎn)連接,即一個人多次進(jìn)入店鋪能確認(rèn)其是一個人,而原來的紅外設(shè)備會認(rèn)定是多個人,不僅如此,還能知道客戶的停留時長,甚至可以與后臺數(shù)據(jù)打通,基于后臺更豐富的標(biāo)簽體系,對運(yùn)營做出更多的指導(dǎo)。

目前,我們面對的還是非常簡單、非常表面的數(shù)據(jù),任何一個企業(yè)都能產(chǎn)生大量的數(shù)據(jù)。主要看這個企業(yè)第一有沒有收集數(shù)據(jù)的意識;第二有沒有分析數(shù)據(jù)的能力;第三是如何結(jié)合數(shù)據(jù)和智能解決方案提升效率、降低成本,這些實(shí)際是企業(yè)發(fā)展需要著重強(qiáng)調(diào)的能力。

數(shù)據(jù)量少時用excel處理很高效,但數(shù)據(jù)搜集上了之后,我們就有很多想象空間、運(yùn)營空間。

雷鋒網(wǎng):如今,【友盟+】的客戶主要是大公司嗎?

李丹楓:移動端的客戶大、小企業(yè)都有,像今日頭條、墨跡天氣等。企業(yè)類客戶主要面向大企業(yè),因?yàn)榇笃髽I(yè)可能會對數(shù)據(jù)精細(xì)化運(yùn)營有較多需求,它也有足夠大的場景,有能力來配合我們把這個事情做好。我們希望漸漸把智能化做到標(biāo)準(zhǔn)產(chǎn)品里面,讓小企業(yè)也能享受到這個產(chǎn)品。畢竟我們服務(wù)企業(yè)端的,應(yīng)該說從今年年初剛剛開始。

我們的計劃是通過標(biāo)準(zhǔn)化的工具服務(wù)小企業(yè),目前,已經(jīng)把DIP平臺放到所有工具后面,會把這些能力不斷往工具里輸送,也是使我們工具和其他的工具區(qū)分的一個重要的因素。

我們的決策是帶著后臺大數(shù)據(jù)的,希望最后提供給客戶的是整個一套產(chǎn)品體系,用戶可以根據(jù)其需求像拼樂高一樣拼接起來。我們現(xiàn)在實(shí)際上已經(jīng)把執(zhí)行端拼接進(jìn)去了,U-Dplus已經(jīng)包括執(zhí)行。接下來把更多智能功能推送到平臺中去,這個平臺小企業(yè)是可以使用的。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

我是雷鋒網(wǎng)醫(yī)療科技編輯,歡迎與我交流:zhangli@leiphone.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說