阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手

本文作者：楊曉凡

編輯：郭奕欣

2017-06-26 10:44

導(dǎo)語(yǔ)：團(tuán)隊(duì)低調(diào)，但是解決的問(wèn)題非常實(shí)際

雷鋒網(wǎng) AI 科技評(píng)論按：相比于Facebook和谷歌時(shí)不時(shí)發(fā)出機(jī)器學(xué)習(xí)方面的論文，國(guó)內(nèi)BAT要顯得沉默一點(diǎn)，拿出的非常前沿的成果也不那么多。但這可絲毫不能抹殺他們以實(shí)際應(yīng)用問(wèn)題為導(dǎo)向做出的努力。雷鋒網(wǎng)了解到，阿里的技術(shù)團(tuán)隊(duì)就剛剛在arXiv上公開(kāi)了一篇論文，用他們?cè)O(shè)計(jì)的深度興趣網(wǎng)絡(luò)（Deep Interest Network，DIN）解決準(zhǔn)確預(yù)測(cè)點(diǎn)擊量的問(wèn)題。

阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手

團(tuán)隊(duì)背景

這篇論文來(lái)自阿里媽媽?zhuān)ò⒗锇桶图瘓F(tuán)的大數(shù)據(jù)營(yíng)銷(xiāo)推廣平臺(tái)）的精準(zhǔn)定向檢索及基礎(chǔ)算法團(tuán)隊(duì)，團(tuán)隊(duì)負(fù)責(zé)人是清華博士蓋坤。他們團(tuán)隊(duì)的目的是幫商家更準(zhǔn)確地預(yù)測(cè)用戶(hù)的行為，投放更精準(zhǔn)的廣告——也就讓用戶(hù)更容易踏上剁手的不歸路，說(shuō)起來(lái)真是讓人糾結(jié)。

阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手

蓋坤（靖世）

據(jù)雷鋒網(wǎng) AI 科技評(píng)論了解，蓋坤本科畢業(yè)于清華大學(xué)自動(dòng)化專(zhuān)業(yè)，然后直博模式識(shí)別與智能系統(tǒng)方向，畢業(yè)后就加入了阿里巴巴任技術(shù)專(zhuān)家，花名靖世，現(xiàn)在已經(jīng)是阿里媽媽事業(yè)部精準(zhǔn)展示廣告技術(shù)部P10級(jí)別的技術(shù)總監(jiān)。

蓋坤在頂級(jí)期刊和會(huì)議（NIPS／CVPR／AAAI / TPAMI等）上發(fā)表過(guò)多篇論文，前幾年就提出過(guò)MLR（Mixture of Logistic Regression，分片線性學(xué)習(xí)）算法用來(lái)提高阿里巴巴對(duì)廣告點(diǎn)擊率預(yù)測(cè)的準(zhǔn)確度。相比傳統(tǒng)線性模型，MLR可以自動(dòng)挖掘數(shù)據(jù)中的非線性模式，避免了大量人工特征設(shè)計(jì)；同時(shí)MLR引入的范數(shù)正則可以使最終訓(xùn)練出的模型有較高的稀疏度，模型的學(xué)習(xí)能力和在線預(yù)測(cè)能力顯著高于傳統(tǒng)線性模型。蓋坤本人也對(duì)MLR做過(guò)一份PPT介紹，可以看這里海量數(shù)據(jù)下的非線性模型探索 - 蓋坤。

新結(jié)構(gòu) - 深度興趣網(wǎng)絡(luò)

這篇名為「Deep Interest Network for Click-Through Rate Prediction」的新論文展示了蓋坤團(tuán)隊(duì)在廣告點(diǎn)擊率預(yù)測(cè)方面利用深度學(xué)習(xí)達(dá)到的最新進(jìn)展。

深度學(xué)習(xí)在模式識(shí)別、非線性關(guān)聯(lián)方面的優(yōu)勢(shì)吸引到了蓋坤團(tuán)隊(duì)的注意，但是他們發(fā)現(xiàn)直接把基本的多層全連接神經(jīng)元用來(lái)做訓(xùn)練和預(yù)測(cè)的時(shí)候會(huì)出現(xiàn)對(duì)用戶(hù)歷史行為數(shù)據(jù)利用不夠好的問(wèn)題，他們認(rèn)為準(zhǔn)確率還有進(jìn)一步提升的空間。

通過(guò)觀察阿里巴巴采集的用戶(hù)歷史行為數(shù)據(jù)，蓋坤團(tuán)隊(duì)發(fā)現(xiàn)有兩個(gè)指標(biāo)對(duì)廣告點(diǎn)擊率預(yù)測(cè)準(zhǔn)確率有重大影響，一個(gè)是“多樣性（Diversity）”，一個(gè)用戶(hù)可以對(duì)很多不同品類(lèi)的東西感興趣；另一個(gè)指標(biāo)是“部分對(duì)應(yīng)（Local activation）”，只有一部分的數(shù)據(jù)可以用來(lái)預(yù)測(cè)用戶(hù)的點(diǎn)擊偏好，比如系統(tǒng)自動(dòng)向用戶(hù)推薦的太陽(yáng)鏡會(huì)跟用戶(hù)買(mǎi)的泳衣產(chǎn)生關(guān)聯(lián)，但是跟用戶(hù)買(mǎi)的書(shū)就沒(méi)什么關(guān)系了。

阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手

用戶(hù)歷史購(gòu)買(mǎi)商品與廣告中商品間對(duì)應(yīng)程度的計(jì)算

基于這兩個(gè)指標(biāo)，蓋坤團(tuán)隊(duì)受到用于機(jī)器翻譯的注意力模型啟發(fā)，對(duì)基本的多層全連接神經(jīng)元架構(gòu)（左圖）進(jìn)行了修改，從而提出了深度興趣網(wǎng)絡(luò)（Deep Interest Network，DIN，右圖）的新結(jié)構(gòu)。

阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手

基本模型架構(gòu)與DIN模型架構(gòu)對(duì)比

DIN把用戶(hù)的興趣看作一個(gè)分布，然后借助類(lèi)似注意力模型的新增網(wǎng)絡(luò)結(jié)構(gòu)對(duì)用戶(hù)的歷史數(shù)據(jù)和待估算的廣告之間部分匹配、計(jì)算權(quán)重，再輸出給累加器和池化層，這樣一來(lái)，匹配度越高的歷史數(shù)據(jù)就對(duì)結(jié)果的影響越大。據(jù)論文介紹，這樣的網(wǎng)絡(luò)結(jié)構(gòu)可以對(duì)多樣性和部分對(duì)應(yīng)兩種指標(biāo)都形成有效利用，而以往的網(wǎng)絡(luò)模型是很難利用到部分對(duì)應(yīng)這一指標(biāo)的。

阿里巴巴在生產(chǎn)環(huán)境中測(cè)試了DIN模型，用20天的數(shù)據(jù)進(jìn)行訓(xùn)練，用第21天的數(shù)據(jù)進(jìn)行測(cè)試，使用的指標(biāo)是論文中提出的泛化AUC（基于用戶(hù)的分組加權(quán)平均AUC）。與基礎(chǔ)模型對(duì)比，DIN的準(zhǔn)確性有可見(jiàn)提升，達(dá)到1.08%。

阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手

基礎(chǔ)模型與DIN測(cè)試結(jié)果對(duì)比

實(shí)現(xiàn)方法

除了新的網(wǎng)絡(luò)架構(gòu)本身，蓋坤團(tuán)隊(duì)還在論文中介紹了一些為了順利把模型用于生產(chǎn)所用到的方法。

把稀疏特征嵌入向量

阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手特征空間中的商品向量

如圖，論文中隨機(jī)選取了9個(gè)類(lèi)別、各100種商品，每類(lèi)商品用同樣形狀的點(diǎn)表示。展現(xiàn)在特征空間中的向量很好地展現(xiàn)出了DIN網(wǎng)絡(luò)的聚類(lèi)屬性。另外，圖中點(diǎn)的顏色代表了網(wǎng)絡(luò)預(yù)測(cè)的用戶(hù)購(gòu)買(mǎi)的可能性，紅色最高，藍(lán)色最低。

處理過(guò)擬合

基礎(chǔ)模型和DIN模型都遇到了大量參數(shù)、稀疏輸入時(shí)過(guò)擬合的問(wèn)題。所以蓋坤團(tuán)隊(duì)設(shè)計(jì)了一個(gè)自適應(yīng)性的正則化方法，它可以對(duì)出現(xiàn)頻率不同的項(xiàng)目給予不同的懲罰，犧牲了一點(diǎn)訓(xùn)練速度避免了過(guò)擬合的出現(xiàn)。論文中對(duì)比了多種不同的正則化方法，這個(gè)自適應(yīng)方法的表現(xiàn)還不錯(cuò)。

阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手

不同正則化方法間效果對(duì)比

基于XDL平臺(tái)構(gòu)建分布式系統(tǒng)

為了實(shí)現(xiàn)工業(yè)級(jí)的大規(guī)模稀疏輸入、百億級(jí)參數(shù)訓(xùn)練，蓋坤團(tuán)隊(duì)基于XDL平臺(tái)構(gòu)建了多GPU的并行模型、并行數(shù)據(jù)平臺(tái)。

阿里蓋坤團(tuán)隊(duì)提出深度興趣網(wǎng)絡(luò)，更懂用戶(hù)什么時(shí)候會(huì)剁手

由于XDL平臺(tái)高性能、高靈活性的特點(diǎn)，蓋坤團(tuán)隊(duì)借助分布式嵌入層（Distributed Embedding Layer）、本地后端（Local Backend）、溝通組件（Communication Component）幾個(gè)模塊構(gòu)建出的系統(tǒng)訓(xùn)練速度提升了10倍，調(diào)節(jié)參數(shù)的效率也提升了不少。

論文就介紹到這里，原文地址 https://arxiv.org/abs/1706.06978 。巧的是，蓋坤博士也會(huì)親臨今年雷鋒網(wǎng)與香港中文大學(xué)（深圳）承辦的 CCF-GAIR2017大會(huì)現(xiàn)場(chǎng)，并發(fā)表主題演講。想了解蓋坤博士最新研究動(dòng)態(tài)的讀者們，距離大會(huì)開(kāi)幕只剩兩周啦，抓緊購(gòu)票，不要錯(cuò)過(guò)現(xiàn)場(chǎng)感受蓋坤博士在內(nèi)的大牛們學(xué)術(shù)風(fēng)采的機(jī)會(huì)。

阿里云肖力：讓數(shù)據(jù)從孤島一隅，跨越到智能之路

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。