丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

本文作者: 楊曉凡 編輯:郭奕欣 2017-06-26 10:44
導(dǎo)語:團隊低調(diào),但是解決的問題非常實際

雷鋒網(wǎng) AI 科技評論按:相比于Facebook和谷歌時不時發(fā)出機器學(xué)習(xí)方面的論文,國內(nèi)BAT要顯得沉默一點,拿出的非常前沿的成果也不那么多。但這可絲毫不能抹殺他們以實際應(yīng)用問題為導(dǎo)向做出的努力。雷鋒網(wǎng)了解到,阿里的技術(shù)團隊就剛剛在arXiv上公開了一篇論文,用他們設(shè)計的深度興趣網(wǎng)絡(luò)(Deep Interest Network,DIN)解決準確預(yù)測點擊量的問題。

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

團隊背景

這篇論文來自阿里媽媽(阿里巴巴集團的大數(shù)據(jù)營銷推廣平臺)的精準定向檢索及基礎(chǔ)算法團隊,團隊負責(zé)人是清華博士蓋坤。他們團隊的目的是幫商家更準確地預(yù)測用戶的行為,投放更精準的廣告——也就讓用戶更容易踏上剁手的不歸路,說起來真是讓人糾結(jié)。

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

 蓋坤(靖世)

據(jù)雷鋒網(wǎng) AI 科技評論了解,蓋坤本科畢業(yè)于清華大學(xué)自動化專業(yè),然后直博模式識別與智能系統(tǒng)方向,畢業(yè)后就加入了阿里巴巴任技術(shù)專家,花名靖世,現(xiàn)在已經(jīng)是阿里媽媽事業(yè)部精準展示廣告技術(shù)部P10級別的技術(shù)總監(jiān)。

蓋坤在頂級期刊和會議(NIPS/CVPR/AAAI / TPAMI等)上發(fā)表過多篇論文,前幾年就提出過MLR(Mixture of  Logistic Regression,分片線性學(xué)習(xí))算法用來提高阿里巴巴對廣告點擊率預(yù)測的準確度。相比傳統(tǒng)線性模型,MLR可以自動挖掘數(shù)據(jù)中的非線性模式,避免了大量人工特征設(shè)計;同時MLR引入的范數(shù)正則可以使最終訓(xùn)練出的模型有較高的稀疏度,模型的學(xué)習(xí)能力和在線預(yù)測能力顯著高于傳統(tǒng)線性模型。蓋坤本人也對MLR做過一份PPT介紹,可以看這里 海量數(shù)據(jù)下的非線性模型探索 - 蓋坤。

新結(jié)構(gòu) - 深度興趣網(wǎng)絡(luò)

這篇名為「Deep Interest Network for Click-Through Rate Prediction」的新論文展示了蓋坤團隊在廣告點擊率預(yù)測方面利用深度學(xué)習(xí)達到的最新進展。

深度學(xué)習(xí)在模式識別、非線性關(guān)聯(lián)方面的優(yōu)勢吸引到了蓋坤團隊的注意,但是他們發(fā)現(xiàn)直接把基本的多層全連接神經(jīng)元用來做訓(xùn)練和預(yù)測的時候會出現(xiàn)對用戶歷史行為數(shù)據(jù)利用不夠好的問題,他們認為準確率還有進一步提升的空間。

通過觀察阿里巴巴采集的用戶歷史行為數(shù)據(jù),蓋坤團隊發(fā)現(xiàn)有兩個指標對廣告點擊率預(yù)測準確率有重大影響,一個是“多樣性(Diversity)”,一個用戶可以對很多不同品類的東西感興趣;另一個指標是“部分對應(yīng)(Local activation)”,只有一部分的數(shù)據(jù)可以用來預(yù)測用戶的點擊偏好,比如系統(tǒng)自動向用戶推薦的太陽鏡會跟用戶買的泳衣產(chǎn)生關(guān)聯(lián),但是跟用戶買的書就沒什么關(guān)系了。

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

用戶歷史購買商品與廣告中商品間對應(yīng)程度的計算

基于這兩個指標,蓋坤團隊受到用于機器翻譯的注意力模型啟發(fā),對基本的多層全連接神經(jīng)元架構(gòu)(左圖)進行了修改,從而提出了深度興趣網(wǎng)絡(luò)(Deep Interest Network,DIN,右圖)的新結(jié)構(gòu)。

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

基本模型架構(gòu)與DIN模型架構(gòu)對比

DIN把用戶的興趣看作一個分布,然后借助類似注意力模型的新增網(wǎng)絡(luò)結(jié)構(gòu)對用戶的歷史數(shù)據(jù)和待估算的廣告之間部分匹配、計算權(quán)重,再輸出給累加器和池化層,這樣一來,匹配度越高的歷史數(shù)據(jù)就對結(jié)果的影響越大。據(jù)論文介紹,這樣的網(wǎng)絡(luò)結(jié)構(gòu)可以對多樣性和部分對應(yīng)兩種指標都形成有效利用,而以往的網(wǎng)絡(luò)模型是很難利用到部分對應(yīng)這一指標的。

阿里巴巴在生產(chǎn)環(huán)境中測試了DIN模型,用20天的數(shù)據(jù)進行訓(xùn)練,用第21天的數(shù)據(jù)進行測試,使用的指標是論文中提出的泛化AUC(基于用戶的分組加權(quán)平均AUC)。與基礎(chǔ)模型對比,DIN的準確性有可見提升,達到1.08%。

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

基礎(chǔ)模型與DIN測試結(jié)果對比

實現(xiàn)方法

除了新的網(wǎng)絡(luò)架構(gòu)本身,蓋坤團隊還在論文中介紹了一些為了順利把模型用于生產(chǎn)所用到的方法。

把稀疏特征嵌入向量

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手特征空間中的商品向量

如圖,論文中隨機選取了9個類別、各100種商品,每類商品用同樣形狀的點表示。展現(xiàn)在特征空間中的向量很好地展現(xiàn)出了DIN網(wǎng)絡(luò)的聚類屬性。另外,圖中點的顏色代表了網(wǎng)絡(luò)預(yù)測的用戶購買的可能性,紅色最高,藍色最低。

處理過擬合

基礎(chǔ)模型和DIN模型都遇到了大量參數(shù)、稀疏輸入時過擬合的問題。所以蓋坤團隊設(shè)計了一個自適應(yīng)性的正則化方法,它可以對出現(xiàn)頻率不同的項目給予不同的懲罰,犧牲了一點訓(xùn)練速度避免了過擬合的出現(xiàn)。論文中對比了多種不同的正則化方法,這個自適應(yīng)方法的表現(xiàn)還不錯。

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

不同正則化方法間效果對比

基于XDL平臺構(gòu)建分布式系統(tǒng)

為了實現(xiàn)工業(yè)級的大規(guī)模稀疏輸入、百億級參數(shù)訓(xùn)練,蓋坤團隊基于XDL平臺構(gòu)建了多GPU的并行模型、并行數(shù)據(jù)平臺。

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

由于XDL平臺高性能、高靈活性的特點,蓋坤團隊借助分布式嵌入層(Distributed Embedding Layer)、本地后端(Local Backend)、溝通組件(Communication Component)幾個模塊構(gòu)建出的系統(tǒng)訓(xùn)練速度提升了10倍,調(diào)節(jié)參數(shù)的效率也提升了不少。

論文就介紹到這里,原文地址 https://arxiv.org/abs/1706.06978  。巧的是,蓋坤博士也會親臨今年雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的 CCF-GAIR2017大會現(xiàn)場,并發(fā)表主題演講。想了解蓋坤博士最新研究動態(tài)的讀者們,距離大會開幕只剩兩周啦,抓緊購票,不要錯過現(xiàn)場感受蓋坤博士在內(nèi)的大牛們學(xué)術(shù)風(fēng)采的機會。

相關(guān)文章:

阿里巴巴AI實驗室首席科學(xué)家王剛:構(gòu)建智能之物是阿里AI的下一步| EmTech香港峰會

阿里云肖力:讓數(shù)據(jù)從孤島一隅,跨越到智能之路

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

阿里蓋坤團隊提出深度興趣網(wǎng)絡(luò),更懂用戶什么時候會剁手

分享:

讀論文為生

日常笑點滴,學(xué)術(shù)死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說