丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
AI+ 正文
發(fā)私信給李秀琴
發(fā)送

5

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

本文作者: 李秀琴 2017-07-19 23:09 專題:GAIR 2017
導(dǎo)語:不明白分片線性機(jī)器學(xué)習(xí)算法、大規(guī)模ID特征和MLR算法的應(yīng)用實(shí)踐、深層用戶興趣分布網(wǎng)絡(luò)的進(jìn)展?阿里蓋坤給你全解鎖!

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

7月9日,雖然已是中國計(jì)算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)和香港中文大學(xué)(深圳)承辦的第二屆CCF-GAIR全球人工智能與機(jī)器人峰會的最后一天,但仍然不影響各位童鞋到場學(xué)習(xí)的激情。機(jī)器人專場不僅滿座,連走道上都擠滿了小伙伴。繼Facebook田淵棟結(jié)束其演講之后,阿里媽媽精準(zhǔn)展示廣告技術(shù)總監(jiān)蓋坤作為第二場主題演講嘉賓,也上臺為大家分享了在過去5、6年間阿里巴巴基于互聯(lián)網(wǎng)大數(shù)據(jù)做的機(jī)器學(xué)習(xí)模型方面的一些探索,以及一些研究成果背后的思考。

蓋坤這次給大家?guī)淼难葜v主題是《互聯(lián)網(wǎng)大數(shù)據(jù)下的模型結(jié)構(gòu)挑戰(zhàn)》,主要分為以下幾個(gè)部分:

1、互聯(lián)網(wǎng)數(shù)據(jù)和經(jīng)典模型

2、分片線性模型和學(xué)習(xí)算法MLR模型

3、大規(guī)模ID特征+MLR實(shí)踐

4、深層用戶興趣分布網(wǎng)絡(luò)

(因?yàn)樯w坤講的非常干貨,所以這次雷鋒網(wǎng)將其演講全文和PPT都貼在了下文,以便未能到場的童鞋也能直觀的“聽”演講。)

以下是蓋坤本次主題演講的原文,雷鋒網(wǎng)做了不改變原意的編輯:

蓋坤:大家好,非常高興能來到CCF-GAIR的會場。今天想跟大家分享的是過去5、6年間在阿里做的基于互聯(lián)網(wǎng)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型方面的一些探索,還有除了研究結(jié)果之外背后的一些思考。

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這是我今天主題分享的提綱。我會先介紹一下互聯(lián)網(wǎng)大數(shù)據(jù),因?yàn)樽陨碇饕鲭娚袒ヂ?lián)網(wǎng)的用戶行為數(shù)據(jù)。那么,在這個(gè)經(jīng)典業(yè)界處理方式下,阿里都做了哪些改進(jìn)?其中主要包括提出分片線性機(jī)器學(xué)習(xí)算法,也稱MLR。之后,我會講一下大規(guī)模ID特征和MLR算法配合在業(yè)務(wù)里面的應(yīng)用實(shí)踐。最后,我會分享這兩年,我們在深度學(xué)習(xí)網(wǎng)絡(luò)上的一些進(jìn)展,介紹下深層用戶興趣分布網(wǎng)絡(luò)。

一、互聯(lián)網(wǎng)數(shù)據(jù)和經(jīng)典模型

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

典型問題:CTR預(yù)估

機(jī)器學(xué)習(xí)可以讓互聯(lián)網(wǎng)數(shù)據(jù)發(fā)揮出巨大價(jià)值,而其在工業(yè)界應(yīng)用最早也最成功的一個(gè)案例,就是點(diǎn)擊率(CTR)預(yù)估。CTR預(yù)估在廣告、推薦、搜索等都是比較重要的業(yè)務(wù),對業(yè)務(wù)指標(biāo)和收入指標(biāo)的影響非常巨大。

以CTR預(yù)估為例,在此有三種經(jīng)典做法:

簡單線性模型Logistic Regression

稀疏正則L1-Norm特征篩選

處理非線性:人工特征工程

經(jīng)典方法一:ID特征

ID特征,這里指的是稀疏鑒別式特征。舉個(gè)例子,假如有1億個(gè)用戶,可以把1億個(gè)用戶表示為1億維的01向量,01向量的第一個(gè)用戶就命中第一維,第二個(gè)用戶就命中為第二維,所以一種特征可以用這種ID類表示展現(xiàn)成一個(gè)非常長的01稀疏向量。如果有很多組特征,就可以把這些向量拼起來,形成一個(gè)更長的向量。

就原始特征而言,一般用戶量大的公司可能是上億級,而大的互聯(lián)網(wǎng)公司,是上億、上十億甚至上百億級的。所以原始ID特征在表示上,可以輕松將其表示成十幾億或者幾十億級。此外,我們還可以做特征的交叉組合,只要工程能力夠,可以輕松上千億,這個(gè)特征維度很大。

經(jīng)典方法二:邏輯回歸

邏輯回歸是線性模型加上非線性的變換,變成一個(gè)概率形式。邏輯回歸在工業(yè)界使用的方式很不一樣。第一,它能處理非常大規(guī)模的數(shù)據(jù),所以其模型和數(shù)據(jù)都必須是并行處理的,這對工程和算法上的要求都特別高。第二,對于特別大的特征來講,通常我們會用稀疏正則L1-Norm特征篩選的方法。

經(jīng)典方法三:人工特征工程

如果想用這個(gè)經(jīng)典方法將更多有用的信息尤其是非線性的壓榨出來,還需要用到人工特征工程的方法。比如剛才說的兩個(gè)特征,如果兩個(gè)特征的交互對目標(biāo)影響很大,那么拼起來的線性模型可能不夠,我們就要做交叉等很多特征。

這些方法是我在5、6年前剛進(jìn)阿里時(shí)看到的一個(gè)狀態(tài),那時(shí)候國內(nèi)大多數(shù)公司基本上都在沿用這套方法做研發(fā)。但是這里面有兩個(gè)問題

1、人工能力有限,很難對非線性模式完全挖掘充分。

2、依賴人力和領(lǐng)域經(jīng)驗(yàn),方法推廣到其他問題的代價(jià)太大,不夠智能。

Kernel、Tree based、矩陣分解和分解機(jī)器模型和其存在的問題

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

1、Kernel方法:不適用工業(yè)界

Kernel方法是當(dāng)時(shí)學(xué)術(shù)界使用的一些主流的非線性方法。為什么Kernel方法在工業(yè)界不怎么用?因?yàn)橛?jì)算不可行。一般Kernel方法,其矩陣是數(shù)據(jù)量的平方級。當(dāng)數(shù)據(jù)量特別大的時(shí)候,工業(yè)界只能使用線性級別。

2、Tree based方法:在ID特征上表現(xiàn)不夠好

Tree based方法在一些低維的強(qiáng)特征上效果特別好,但在ID特征上反而作用不太好。

這里舉一個(gè)例子:在推薦場景中,需要預(yù)估一個(gè)用戶和一個(gè)寶貝的點(diǎn)擊率,先不取歷史行為就用用戶ID和寶貝ID兩種特征。有這兩個(gè)特征,對于協(xié)同過濾的方法就已經(jīng)夠了。但是,如果用Tree based方法,要建樹就會帶來很多麻煩,樹根到樹葉的路徑等價(jià)于是否是某個(gè)用戶和是否是某個(gè)寶貝的聯(lián)合判斷。在這種情況下,它已經(jīng)變成了一個(gè)歷史記憶。這就是為什么Tree based的方法在稀疏大規(guī)模ID數(shù)據(jù)上表現(xiàn)不行的原因。

Facebook也做了一個(gè)方法,就是在強(qiáng)特征上用Tree based方法做數(shù)據(jù)篩選,再用一些LR聚合類的方法利用弱特征。

3、矩陣分解和分解機(jī)器模型:無法處理高階關(guān)系

矩陣分解和分解機(jī)器模型,這兩類模型其實(shí)有點(diǎn)共通。以分解機(jī)器模型為例,它主要處理的是有限次關(guān)系,經(jīng)典的方法是二次關(guān)系。對于一些高階關(guān)系是沒法處理的。

二、分片線性模型和學(xué)習(xí)算法MLR模型

分片線性模型:優(yōu)點(diǎn)、使用模型形式和其他

1、優(yōu)點(diǎn):可在大規(guī)模數(shù)據(jù)中挖掘推廣性好的非線性模式

分片線性模型MLR是2011年我在阿里提出的方法。該模型的優(yōu)點(diǎn)在于,可將整個(gè)數(shù)據(jù)分成不同的區(qū)域,在每個(gè)不同區(qū)域都用一個(gè)簡單的模型預(yù)測,再將全部信息聚合起來,得到可以比較復(fù)雜的分片線性模型。如此一來,就能平衡欠擬合和過擬合的問題,從而在大規(guī)模數(shù)據(jù)中挖掘出推廣性好的非線性信息。而其一個(gè)基本原則,就在于要使每分片對應(yīng)足夠量的樣本。

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

如上圖所示,我們訓(xùn)練了一些數(shù)據(jù)。其顯示為一個(gè)菱形的分界面,用MLR模型能夠得到一個(gè)很好的結(jié)果。這里稍微插一句,這個(gè)例子只是為了展示,其實(shí)這個(gè)例子非常不好學(xué)。分片線性模型里分片隸屬度一般用軟的非離散的函數(shù),這種銳角折線而非平滑曲線會使得隸屬度在局部變化非常劇烈而在其它地方又很平坦,給學(xué)習(xí)造成嚴(yán)重的局部極值問題,所以學(xué)習(xí)到這個(gè)結(jié)果是挺不容易的。

2、使用的模型形式:分而治之

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

上圖這個(gè)模型我們參考了MOE的模型,不過我們的形式更加泛化。借此我們用一個(gè)函數(shù)做整個(gè)空間的區(qū)域劃分,在其中有參數(shù)可以跟進(jìn)數(shù)據(jù)自動(dòng)學(xué)習(xí),每個(gè)區(qū)域劃分都含有一個(gè)預(yù)測器。當(dāng)區(qū)域劃分選擇Softmax時(shí),區(qū)域內(nèi)則有LR預(yù)測,這是我們主要在用的模型之一。還有一種,是MOE&LR級聯(lián),這個(gè)模型也是我們非常主要使用的模型。

從神經(jīng)網(wǎng)絡(luò)的視角看,整個(gè)特征會學(xué)到表示所有分片隸屬度的的向量,也會學(xué)到每個(gè)預(yù)測器的值,不同預(yù)測器會組成一個(gè)向量,最后是兩個(gè)向量作為一個(gè)內(nèi)積,變成一個(gè)預(yù)估值。這其實(shí)很像神經(jīng)網(wǎng)絡(luò)的Embedding方法,或者基本上可以判斷是Embedding 方法的一種。

3、如何學(xué)習(xí)參數(shù)?

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

一個(gè)復(fù)雜的模型,實(shí)際上對于機(jī)器學(xué)習(xí)而言,重要的是這個(gè)模型是否工作,能不能學(xué)習(xí)?這個(gè)學(xué)習(xí)也和轉(zhuǎn)化形式有關(guān)。其實(shí)跟邏輯回歸一樣,對于特別高維度的特征而言,我們希望學(xué)習(xí)的時(shí)候也有稀疏和泛化的作用并能做特征選擇,所以選擇了L21范數(shù)正則做分組稀疏

為什么要分組稀疏?因?yàn)槊烤S特征對應(yīng)一組參數(shù),這組參數(shù)在訓(xùn)練的時(shí)候要同時(shí)為0,這個(gè)特征才真的意味著我們在使用的時(shí)候不用了,才能做特征選擇。如果這個(gè)參數(shù)里面有任何一個(gè)不為0,這個(gè)特征是不能被過濾掉的,于是我們用分組稀疏。這是機(jī)器學(xué)習(xí)里面非常經(jīng)典的方法,經(jīng)驗(yàn)損失加上正則,用L1和L21范數(shù)同時(shí)做正則。

4、目標(biāo)函數(shù)分析

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

存在難度和挑戰(zhàn):非凸、非光滑、高維度

有了這個(gè)目標(biāo)函數(shù),下面最關(guān)鍵的是怎么優(yōu)化。這里的挑戰(zhàn)在于,前面是一個(gè)非凸函數(shù),后面的L1范數(shù)和L21范數(shù)都是非光滑函數(shù),就會導(dǎo)致困難耦合不太好解。而如果是凸問題不可導(dǎo),數(shù)學(xué)上凸問題都會有次梯度,可以用次梯度方法。但是這里不是凸問題,所以次梯度不存在。

為什么不用EM算法?

并且,在大規(guī)模的互聯(lián)網(wǎng)大數(shù)據(jù)的情況下,維度也非常高。我們?nèi)绾尾拍苷业揭粋€(gè)快速的求解方法?EM很經(jīng)典,為什么不像傳統(tǒng)MOE一樣使用EM算法?

因?yàn)镋M算法只適用于概率連乘的模型形式,而我們的方法對非正則部分可導(dǎo)的形式通用。其實(shí)EM算法是用E-Step把一個(gè)非凸問題變成一個(gè)凸問題,用M-Step來解這個(gè)問題,如果容易求解,EM就是合適。如果局限于MOE模型,它就會轉(zhuǎn)化成凸問題,它的正則還是帶著的,就變成一個(gè)參數(shù)量非常大的非光滑的凸問題,維度特別高。然而,超大維度非光滑的凸問題非常不好求解。所以這個(gè)非凸問題用EM轉(zhuǎn)化并不比原始問題好求解。我們也就沒有用EM,因?yàn)槠洳⒉荒芙o實(shí)際求解帶來任何的便利性。

MLR算法的特性和實(shí)驗(yàn)

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這個(gè)算法適用于一般的經(jīng)驗(yàn)損失加上L21正則再加上1范數(shù)正則的函數(shù),在此其中,其關(guān)鍵點(diǎn)在于怎樣求解。首先,我們證明了這個(gè)函數(shù)是處處方向可導(dǎo)的,雖然它可能不是處處可導(dǎo)的,但是它處處方向可導(dǎo)。這種情況下,就可以用這個(gè)方法。

為什么處處方向可導(dǎo)?

比如說L21范數(shù)在數(shù)學(xué)上會形成一個(gè)圓錐點(diǎn),圓錐點(diǎn)那個(gè)點(diǎn)是沒有切面的,所以它不可導(dǎo)。但是從它出發(fā)沿任何一個(gè)方向都有切線,所以其方向可導(dǎo),而所有部分都方向可導(dǎo),疊加起來就是處處方向可導(dǎo)。

這個(gè)證明也可以從我們的論文里求證,借此我們就能求出方向可導(dǎo)的最速下降方向。在此用最速下降方向代替梯度,用LBFGS做一個(gè)二階加速。在其中,如OWL-QN,這是LR+L1正則,是微軟提出的一個(gè)經(jīng)典方法。我們像它一樣進(jìn)行象限約束,約束一次更新最多到達(dá)象限邊界,下一次才能跨到這個(gè)象限。而Line Search是一個(gè)經(jīng)典方法。我們會對收斂性做一個(gè)強(qiáng)保證,如果二階加速不能下降,會直接用最速下降方向進(jìn)行補(bǔ)償搜索,直到兩種方法都不能下降的時(shí)候才停止。

1、MLR特性:5大特點(diǎn)

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

結(jié)合前文,可將MLR的特點(diǎn)總結(jié)如下五點(diǎn):

分而治之;

分片數(shù)足夠多時(shí),有非常強(qiáng)的非線性能力;

模型復(fù)雜度可控:有較好泛化能力;

具有自動(dòng)特征選擇作用;

可以適用于大規(guī)模高維度數(shù)據(jù);

實(shí)驗(yàn)1:聚類和分類聯(lián)動(dòng)

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

如圖,這是演示的一次實(shí)驗(yàn),圖中第一張圖表示為原始數(shù)據(jù)。像邏輯回歸、二階方法,對于高度的非線性方法都不太適合,所以基本上其結(jié)果沒有什么區(qū)分能力,但是MLR能夠做到非常好的區(qū)分。而利用K-means先做聚類再做分類的方法,也沒辦法做很好的區(qū)域劃分——我們先給K-means用4分片,但其區(qū)域怎么劃分和后面怎么預(yù)測不聯(lián)動(dòng),所以它就變成上圖第二排第二個(gè)的分界面。我們再把K-means加上10分片,其實(shí)也沒有變成一個(gè)很完美的分界面。

實(shí)驗(yàn)2:高階擬合

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這里是一個(gè)高階擬合應(yīng)用。我們用了一組數(shù)據(jù)來驗(yàn)證3個(gè)ID組合的方式。3個(gè)ID組合時(shí),Libfm是沒有辦法很好抓住這個(gè)組合的特性的,但是借用MLR就可以很好的實(shí)現(xiàn)。

2、MLR 和LR 、GBDT模型的對比

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

如圖,是一個(gè)實(shí)際業(yè)務(wù)數(shù)據(jù)的對比。在推薦場景里,我們的MLR和LR相比而言,在CTR預(yù)估和CVR(轉(zhuǎn)化率)預(yù)估上的效果都有一個(gè)非常明顯的提升。和GBDT(雷鋒網(wǎng)注:一種迭代的決策樹算法)對比,這是一個(gè)稠密數(shù)據(jù)的對比,大概是400多維的稠密數(shù)據(jù)。小維度稠密數(shù)據(jù)上GBDT表現(xiàn)還是不錯(cuò)的,到400多維的時(shí)候,MLR在預(yù)測性能上就已經(jīng)優(yōu)于GBDT。我們特意取了MLR還未收斂,訓(xùn)練集準(zhǔn)確率和GBDT相同時(shí)候的模型,會發(fā)現(xiàn)測試集性能已經(jīng)優(yōu)于GBDT。

三、大規(guī)模ID特征+MLR實(shí)踐

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

再來說說具體的實(shí)踐。當(dāng)用戶用到寶貝維度時(shí),對于阿里來講是預(yù)估一個(gè)用戶對一個(gè)寶貝的CTR或者轉(zhuǎn)化率。在此其中的特征設(shè)計(jì),一般設(shè)置的是ID特征。對于用戶的行為,我們會用這些元素來表示:他訪問、收藏、購買過哪個(gè)店鋪、哪個(gè)類目等等,一系列的行為就會變成ID特征,來表示用戶行為。用戶除了行為之后,還有一個(gè)用戶屬性特征,比如性別、年齡、地域等等。

大規(guī)模ID特征:為什么不用用戶ID?

如果用用戶ID做特征的話,在建模的時(shí)候,每個(gè)用戶ID會帶來一個(gè)Embedding向量,這個(gè)向量可以稱為用戶的興趣點(diǎn)。在訓(xùn)練的時(shí)候,通過用戶興趣點(diǎn)去擬合訓(xùn)練集中正樣本寶貝的興趣點(diǎn)。其實(shí)這個(gè)東西是在興趣點(diǎn)的空間里做了一個(gè)歷史記憶,雖然興趣點(diǎn)本身會有一定的聚合作用,但其本質(zhì)上還是歷史記憶的作用。所以我們認(rèn)為推廣性并不好。

如果用行為ID去擬合正樣本寶貝興趣點(diǎn),我們認(rèn)為,從歷史行為興趣點(diǎn)到后續(xù)行為興趣點(diǎn)這種模式的擬合是更具有推廣意義,在實(shí)際業(yè)務(wù)中也會更有用。

那么,為什么會傾向于用戶行為ID而不是用戶ID。當(dāng)然用戶ID也有用,其是在訓(xùn)練的時(shí)候可幫助減少訓(xùn)練時(shí)的偏差,做一個(gè)偏置項(xiàng)。如果行為還不足夠表達(dá)數(shù)據(jù)的全部特性,用戶ID用來做偏置輔助訓(xùn)練,而我們在做預(yù)測的時(shí)候是完全用用戶的行為ID來做的,這樣才有更好的推廣性。

如上圖最下方所示,這是一個(gè)實(shí)際業(yè)務(wù)上的對比,MLR,也就是LS-PLM是第一行,LR是第二行。一般來講,在工業(yè)界生產(chǎn)環(huán)境里面,訓(xùn)練集和測試集按時(shí)間分開,前一個(gè)時(shí)間段的數(shù)據(jù)做訓(xùn)練,后一個(gè)時(shí)間段做測試。上圖顯示的是連續(xù)7天的測試結(jié)果,MLR都在第一行,相比LR,其明顯在AUC上都有提升1個(gè)點(diǎn)以上。

MLR如何能用的更好,就此我想給大家分享幾招↓

MLR實(shí)踐

?  Trick One:結(jié)構(gòu)化先驗(yàn)

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

首先是結(jié)構(gòu)化先驗(yàn)。在實(shí)際應(yīng)用中,我們一般只用用戶特征做聚類,只用廣告特征做分類,就會有非常好的直觀意義。這樣一來,就把用戶分成不同的群體,每個(gè)群體做一個(gè)LR的預(yù)估。

實(shí)驗(yàn)顯示,分組訓(xùn)練比不做分組全放開所有參數(shù)直接訓(xùn)練效果要好。后面我們在分組模型的基礎(chǔ)上,再放開所有參數(shù)做refine效果更好。因?yàn)槿砰_尋優(yōu)空間特別大,很難找到一個(gè)比較好的路徑和比較好的點(diǎn),所以通過結(jié)構(gòu)化先驗(yàn)會使其找到一個(gè)比較好的點(diǎn),在其基礎(chǔ)上把參數(shù)全放開,會有更大的自由度,整個(gè)訓(xùn)練過程也會處理得更好。

前面也有提及,我們在實(shí)際應(yīng)用的時(shí)候會有一個(gè)模型級聯(lián),在其中會有兩種特征放在后面的級聯(lián)里面:

?  位置偏差:在預(yù)測的時(shí)候,為了計(jì)算考慮,我們不會考慮位置之間的協(xié)同性。比如說做一個(gè)位置歸一的點(diǎn)擊率排序,根據(jù)排序的順序放在第一位、第二位、第三位,位置偏差只在訓(xùn)練時(shí)去偏置,使用時(shí)是不用的。

?  強(qiáng)特征:有一些將用戶行為序列的模型用來強(qiáng)特征,這些特征跟點(diǎn)擊率非常相關(guān)。我們發(fā)現(xiàn),如果直接放在原始特征里面去學(xué),并沒有直接和目標(biāo)放在一個(gè)線性偏置里那么好。從模型能力上來講,如果訓(xùn)練方法能夠找到全局最優(yōu)解那都可以放在非線性部分不用放在線性部分,但是我們發(fā)現(xiàn),如果它跟最終目標(biāo)有一個(gè)比較短的路徑連接,對于整個(gè)尋優(yōu)是更有幫助的。

?  Trick Two:Common Feature

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

Common Feature是在使用過程中一個(gè)非常重要的方法。比如,在淘寶的場景中可能會推薦200個(gè)寶貝或者幾十個(gè)寶貝,我們將一個(gè)用戶和一個(gè)寶貝組成一個(gè)樣本,這樣對應(yīng)幾十或上百個(gè)樣本。實(shí)際上,同一個(gè)用戶在一天或一星期內(nèi)或在一段時(shí)間之內(nèi)可能會多次訪問淘寶,其用戶特征有大部分是冗余的。

我們發(fā)現(xiàn),Common Feature在一些情況下其實(shí)可以不用展開,如果每個(gè)樣本都展開表示成一個(gè)完整的向量,就需要多次復(fù)制用戶特征。而在不展開的情況下,可以極大的節(jié)省存儲空間。像MLR,在其背后運(yùn)用的是矩陣運(yùn)算,而Common Feature在矩陣運(yùn)算部分計(jì)算也是共用的,可以節(jié)省。這樣一來,不僅可以節(jié)省存儲,也可以節(jié)省計(jì)算。

為此,我們還做了一次實(shí)際對比。我們用不展開的結(jié)構(gòu)化數(shù)據(jù)來表示數(shù)據(jù)存儲,結(jié)果表明,在訓(xùn)練算法里內(nèi)存量的占用有一個(gè)非常明顯的下降,每臺機(jī)器從90GB下降到3GB,而每一輪時(shí)間也因?yàn)橛?jì)算量減少從120s變成10s。

在過去幾年,以MLR為核心的預(yù)估模型的持續(xù)迭代和優(yōu)化,是直通車定向、鉆展等業(yè)務(wù)線提升的主要?jiǎng)恿χ弧?/span>

四、新結(jié)構(gòu):深層用戶興趣網(wǎng)絡(luò)分布

(注:如雷鋒網(wǎng)此前報(bào)道,深度興趣網(wǎng)絡(luò)是蓋坤團(tuán)隊(duì)在CTR預(yù)估方面利用深度學(xué)習(xí)達(dá)到的最新進(jìn)展。通過觀察阿里巴巴采集的用戶歷史行為數(shù)據(jù),蓋坤團(tuán)隊(duì)發(fā)現(xiàn)有兩個(gè)指標(biāo)對廣告CTR預(yù)測準(zhǔn)確率有重大影響,一個(gè)是“多樣性(Diversity)”,一個(gè)用戶可以對很多不同品類的東西感興趣;另一個(gè)指標(biāo)是“部分對應(yīng)(Local activation)”,只有一部分的數(shù)據(jù)可以用來預(yù)測用戶的點(diǎn)擊偏好,比如系統(tǒng)自動(dòng)向用戶推薦的太陽鏡會跟用戶買的泳衣產(chǎn)生關(guān)聯(lián),但是跟用戶買的書就沒什么關(guān)系了。)

深度學(xué)習(xí)

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

最后一部分,我稍講一下深度學(xué)習(xí)。

?  如何看待深度學(xué)習(xí)?

其實(shí)前面也介紹了MLR從模型設(shè)計(jì)到算法設(shè)計(jì)到應(yīng)用。模型設(shè)計(jì)和算法設(shè)計(jì)是耦合的。對復(fù)雜模型,加上設(shè)計(jì)優(yōu)化方法整個(gè)工作是比較重的。如果有一個(gè)很好的模型,沒有優(yōu)化方法也是不行的。而深度學(xué)習(xí)一個(gè)很重要的特性,就是用戶方法和模型是解耦的,這些方法和模型設(shè)計(jì)不是綁定的。

第一個(gè)是解耦,第二是模型設(shè)計(jì)組件化。組件化可以自己分層搭建,也可以自己設(shè)計(jì),開發(fā)者也可以根據(jù)大牛事先設(shè)計(jì)組件來搭建,從而組合出以前完全不能想像的復(fù)雜模型。

借助深度學(xué)習(xí)的以上兩點(diǎn)特征,可以Handle原來完全沒法實(shí)現(xiàn)的復(fù)雜模型。

?  復(fù)雜就足夠了么?

如果只是擬合能力跟最終的應(yīng)用效果有關(guān),單隱層神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)上,其擬合能力是可以無限高的。雖然它擬合能力足夠,記憶性非常強(qiáng),但其泛化能力不夠。深度學(xué)習(xí)里有兩個(gè)非常關(guān)鍵的東西:

?  第一是深度和寬度。相較而言,深度網(wǎng)絡(luò)比寬度網(wǎng)絡(luò),至少在實(shí)際實(shí)踐中的泛化推廣能力更好。

?  第二是模型結(jié)構(gòu)和數(shù)據(jù)匹配度深度神經(jīng)網(wǎng)絡(luò)里面網(wǎng)絡(luò)結(jié)構(gòu)非常關(guān)鍵,比如圖像中CNN幾乎是主導(dǎo),而LSTM在對應(yīng)的應(yīng)用領(lǐng)域就展現(xiàn)出非常好的性能。

這些都是整個(gè)學(xué)術(shù)界和業(yè)界已經(jīng)有的基礎(chǔ)能力,而在互聯(lián)網(wǎng)行為數(shù)據(jù)上,我們還要考慮CNN、LSTM是否足夠,這些模型結(jié)構(gòu)和互聯(lián)網(wǎng)行為數(shù)據(jù)并不是直接完全匹配的。那么,在互聯(lián)網(wǎng)行為數(shù)據(jù)下,我們應(yīng)該用什么樣的網(wǎng)絡(luò)結(jié)構(gòu)組件?

用戶興趣分布

用戶興趣表示

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

在此其中,我們做了一個(gè)工作,就是用戶興趣分布表示。前文有提及,用戶行為一般會先表示為ID,經(jīng)典的方法就是每個(gè)ID會取一個(gè)embedding向量,這個(gè)embedding 向量典型的方法會有Pooling和RNN,來聚合成一個(gè)固定長度向量。

前面的向量相當(dāng)于用戶興趣點(diǎn),后面的目標(biāo)廣告也會embedding出來一個(gè)目標(biāo)寶貝興趣點(diǎn)。這兩個(gè)興趣向量拼起來,可在后面再接一個(gè)比較復(fù)雜的神經(jīng)網(wǎng)絡(luò)。而一個(gè)問題在于,一個(gè)K維的向量最多能表達(dá)K個(gè)獨(dú)立的興趣,用戶的興趣紛紜復(fù)雜,獨(dú)立的興趣也非常多,卻用一個(gè)向量表示,怎么能夠增大興趣的容納能力?簡單的方法就是增加K或者增大embedding 向量空間的維度。但是這里會帶來一個(gè)問題,一是極大地增大計(jì)算負(fù)擔(dān),二是增大維度可能會導(dǎo)致過擬合。所以,我們的動(dòng)機(jī)是,能不能在低維空間表達(dá)非常復(fù)雜的用戶興趣?

這里有一個(gè)想法,用戶的興趣不再用K維向量的一個(gè)點(diǎn)來表示,而是用一個(gè)分布來表示。目標(biāo)寶貝興趣點(diǎn)也在同樣的空間里用點(diǎn)來表示。這樣,互相獨(dú)立的寶貝興趣點(diǎn)可以放在并不是正交的方向上,所以K維空間也可以容納理論上無限多個(gè)獨(dú)立的興趣。

?  用戶興趣分布

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

就此,來看一下實(shí)際數(shù)據(jù)。用戶的行為序列在電商行為上有兩個(gè):

第一,用戶是多需求并發(fā)的。

第二,用戶在看一個(gè)單獨(dú)商品的時(shí)候,其實(shí)只跟其中一個(gè)或部分興趣有關(guān),并沒有跟背后的所有興趣都有關(guān)。

我們把用戶興趣的向量點(diǎn)表示成一個(gè)X的函數(shù),這個(gè)X就是測試點(diǎn),在不同測試點(diǎn)上用戶興趣向量是不同的,這樣它就變成一個(gè)分布,因?yàn)樗鶻有關(guān)。在預(yù)估模型場景里,X就是我們要預(yù)估的寶貝。這樣來看,用戶興趣其實(shí)是用Embedding 加Pooling 的方式,把用戶行為蘊(yùn)含的embedding 向量固定并疊加起來,在疊加前面加一個(gè)系數(shù),該系數(shù)與目標(biāo)有關(guān)。在此其中,我們要用預(yù)估的目標(biāo)反向激活和過濾用戶的歷史行為,把整個(gè)長序列變成相關(guān)的子序列,再就子序列來做一個(gè)處理。

那么,到底怎么學(xué)習(xí)?這里面就要設(shè)置模型和參數(shù),利用數(shù)據(jù)去學(xué)習(xí)。為了實(shí)現(xiàn)用戶興趣多峰分布的目的,我們根據(jù)用戶行為數(shù)據(jù)特點(diǎn)設(shè)計(jì)了反向局部激活網(wǎng)絡(luò),其中反向激活權(quán)重用一個(gè)帶參數(shù)的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。完成整個(gè)網(wǎng)絡(luò)設(shè)計(jì)后,發(fā)現(xiàn)局部激活想法等價(jià)于NLP里提出的Attention機(jī)制,可以看做實(shí)現(xiàn)用戶興趣多峰分布的一種帶attention網(wǎng)絡(luò)。

深層用戶興趣分布網(wǎng)絡(luò)

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這是整個(gè)用戶興趣分布網(wǎng)絡(luò)。用戶的歷史行為和要預(yù)估的廣告密切相關(guān),我們會用廣告激活歷史行為,利用權(quán)重調(diào)制,變成子序列,子序列上面再做Pooling建模。這里稍微介紹細(xì)節(jié)部分,在激活的時(shí)候要拿歷史行為的興趣向量和目標(biāo)的興趣向量連接起來。通過簡單的多層全連接,我們發(fā)現(xiàn)內(nèi)積的形式并不能完全很好的學(xué)出來,所以就把內(nèi)積人工的添加到此結(jié)構(gòu)里。

?  方法1:利用結(jié)構(gòu)化數(shù)據(jù)

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這是我們實(shí)際在用的更復(fù)雜的網(wǎng)絡(luò),主要探索運(yùn)用了結(jié)構(gòu)化數(shù)據(jù)。在歷史行為上,如果用戶點(diǎn)擊過一個(gè)寶貝,這個(gè)寶貝及其相關(guān)數(shù)據(jù)如圖片、文本、評論等,以及用戶的行為時(shí)間、行為場景包括是在搜索場景還是推薦行為去點(diǎn)擊的,我們都會把整個(gè)結(jié)構(gòu)化的數(shù)據(jù)打包起來,做一個(gè)整個(gè)反向激活的函數(shù)。

拿時(shí)間舉例,我們會做一個(gè)時(shí)間差,時(shí)間差越小,激活應(yīng)該更大。還有哪些場景對預(yù)估更有幫助,哪些場景是你隨便點(diǎn)擊的,都放在反向激活里。

?  方法2:機(jī)器學(xué)習(xí)的自適應(yīng)正則

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

在實(shí)際業(yè)務(wù)中使用深度學(xué)習(xí)的時(shí)候,我們發(fā)現(xiàn)深度學(xué)習(xí)可能會過擬合,尤其是在大規(guī)模的ID特征上,參數(shù)量非常大,模型特別復(fù)雜,隨便一用就發(fā)現(xiàn)過擬合特別嚴(yán)重。所以我們希望找一些方法,比如在機(jī)器學(xué)習(xí)里的經(jīng)典的正則類方法。

正則方法在稀疏數(shù)據(jù)深度學(xué)習(xí)上的使用,還沒有一個(gè)公認(rèn)的好方法。在這其中,其特征是稀疏的,很多特征是0,每個(gè)樣本只有局部特征非零。直接使用正則,不管特征是不是0都是要正則的,要梯度計(jì)算。

假如說一個(gè)樣本,有100億維度,非0的也要算一遍,一個(gè)樣本都很難算出來,更別說要幾百億樣本一起算。如果0值特征有這么多計(jì)算,計(jì)算是不可接受的。我們設(shè)計(jì)的正則方法只在非0值上計(jì)算,此外,正則還跟頻次有關(guān),頻次越高正則壓制越少,出現(xiàn)頻次越低的特征,正則壓制越大。

另外我們把Prelu也做了一個(gè)改進(jìn)。Prelu是一個(gè)折線,我們中間將折點(diǎn)變成光滑變化的,光滑方式也跟數(shù)據(jù)分布有關(guān),整個(gè)激活函數(shù)變化之后的效果會更好。

?  方法3:激活權(quán)重展示

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這是一個(gè)反向激活權(quán)重的展示,在此要預(yù)估的是一件衣服的點(diǎn)擊率。真實(shí)的用戶歷史行為是這些,我們用目標(biāo)衣服反向激活,發(fā)現(xiàn)預(yù)估CTR跟某些東西完全不相關(guān),那就可以不用,而有些東西就比較相關(guān)。

用戶興趣分布展示:聚類性非常好

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這是用戶實(shí)際訓(xùn)練出來的興趣分布,我們做了一個(gè)低維展示。如圖,顏色越暖分布興趣度越高,顏色越深興趣度越低,在這個(gè)方法中,整個(gè)興趣空間的聚類性都特別好,基本上一類寶貝的興趣點(diǎn)都聚在一起。值得注意的是,它是多峰的,比如說這兩個(gè)峰比較高,另外兩個(gè)峰都比較低,從而呈現(xiàn)一個(gè)多峰的性質(zhì)。

實(shí)現(xiàn)的正則效果

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這是我們的正則效果,這個(gè)藍(lán)線表示不用正則或者壓制過擬合的方法在大維度上直接訓(xùn)練深度學(xué)習(xí)的結(jié)果。我們發(fā)現(xiàn),訓(xùn)練之后其訓(xùn)練損失一下子就下來了,但是測試損失也同步增高了。對此,我們試了很多方法,最上面的黃線是我們提出的正則方法,其比很多方法都好。而且在大規(guī)模特征下,簡單的用頻次做過濾比Dropout的方法也會好一些,但不如自適應(yīng)正則。

深度丨110億美金還不夠,阿里使用這種AI手段創(chuàng)造更多廣告收入(附PPT)丨CCF-GAIR 2017

這是剛才提出的整個(gè)深度學(xué)習(xí)方法得出的效果,最上面的綠線是疊加了我剛才講的一系列用戶興趣分布、函數(shù)改進(jìn)、正則改進(jìn)等呈現(xiàn)的效果。當(dāng)然,這里的全部數(shù)據(jù)都在論文里。

如前文所示,基本上講完了阿里媽媽一路下來從線性模型、非線性模型再到深度學(xué)習(xí)的考慮和實(shí)際業(yè)務(wù)的應(yīng)用。

最后稍微做個(gè)廣告?,F(xiàn)在阿里巴巴對人工智能非常重視,我們既重視目前業(yè)務(wù)上的應(yīng)用效果,也重視未來長期的儲備。我所在的團(tuán)隊(duì)就是精準(zhǔn)展示廣告部,我們會分機(jī)器學(xué)習(xí)模型算法、機(jī)器學(xué)習(xí)平臺、視覺圖像、NLP、廣告機(jī)制和策略、客戶端優(yōu)化、在線引擎和工程架構(gòu)等方向。除了今天講的模型的進(jìn)展之外,我們?nèi)ツ暝贠CR ICDAR上也刷新了最好的成績(雷鋒網(wǎng)注:ICDAR Robust Reading競賽是當(dāng)前OCR(圖中文字識別)技術(shù)領(lǐng)域全球最具影響力的比賽。),OCPC算法將在下個(gè)月KDD大會跟大家見面。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

記者

跟蹤Fintech和區(qū)塊鏈(微信:cqmm16,備注身份姓名來意,thx)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說