重讀 Youtube 深度學(xué)習(xí)推薦系統(tǒng)論文，字字珠璣，驚為神文

本文作者：汪思穎

2018-12-24 15:51

導(dǎo)語：處處是套路，處處是經(jīng)驗(yàn)

雷鋒網(wǎng) AI 科技評(píng)論按，本文作者王喆，本文首發(fā)于知乎專欄王喆的機(jī)器學(xué)習(xí)筆記，雷鋒網(wǎng) AI 科技評(píng)論獲得作者授權(quán)轉(zhuǎn)載。

這里是王喆的機(jī)器學(xué)習(xí)筆記，每隔一到兩周我會(huì)站在算法工程師的角度講解一些計(jì)算廣告、推薦系統(tǒng)相關(guān)的文章。選擇文章必須滿足一下三個(gè)條件：

一是工程導(dǎo)向的；

二是阿里、Facebook、Google 等一線互聯(lián)網(wǎng)公司出品的；

三是前沿或者經(jīng)典的。

這周我們一起討論一下 Youtube 的深度推薦系統(tǒng)論文《Deep Neural Networks for YouTube Recommendations》，這是 2016 年的論文，按照今天的標(biāo)準(zhǔn)來看，已經(jīng)沒有什么新穎的地方，我也是兩年前讀過這篇文章之后就放下了，但前幾天重讀這篇文章，竟讓發(fā)現(xiàn)了諸多亮點(diǎn)，幾乎處處是套路，處處是經(jīng)驗(yàn)，不由驚為神文。這篇神文給我留下的深刻印象有兩點(diǎn)：

這毫無疑問是工業(yè)界論文的典范，是我非常推崇的工程導(dǎo)向的，算法工程師必讀的文章；

我以為毫不起眼的地方，也藏著 Youtube 工程師寶貴的工程經(jīng)驗(yàn)，相比上周介紹的阿里的深度興趣網(wǎng)絡(luò) DIN，最重要的價(jià)值就在于 Attention 機(jī)制，這篇文章你應(yīng)該精確到句子來體會(huì)，這是我驚為神文的原因。

廢話不多說，下面就跟大家分享一下兩次拜讀這篇論文的不同體驗(yàn)和收獲。

第一遍讀這篇論文的時(shí)候，我想所有人都是沖著算法的架構(gòu)去的，在深度學(xué)習(xí)推薦系統(tǒng)已經(jīng)成為各大公司“基本操作”的今天，Youtube 在算法架構(gòu)上并無驚奇之處，我們來快速介紹一下文章中的深度學(xué)習(xí)推薦系統(tǒng)的算法架構(gòu)。

重讀 Youtube 深度學(xué)習(xí)推薦系統(tǒng)論文，字字珠璣，驚為神文

Youtube 的用戶推薦場景自不必多說，作為全球最大的 UGC 的視頻網(wǎng)站，需要在百萬量級(jí)的視頻規(guī)模下進(jìn)行個(gè)性化推薦。由于候選視頻集合過大，考慮 online 系統(tǒng)延遲問題，不宜用復(fù)雜網(wǎng)絡(luò)直接進(jìn)行推薦，所以 Youtube 采取了兩層深度網(wǎng)絡(luò)完成整個(gè)推薦過程：

第一層是 Candidate Generation Model 完成候選視頻的快速篩選，這一步候選視頻集合由百萬降低到了百的量級(jí)。

第二層是用 Ranking Model 完成幾百個(gè)候選視頻的精排。

首先介紹 candidate generation 模型的架構(gòu)。

重讀 Youtube 深度學(xué)習(xí)推薦系統(tǒng)論文，字字珠璣，驚為神文

Youtube Candidate Generation Model

我們自底而上看這個(gè)網(wǎng)絡(luò)，最底層的輸入是用戶觀看過的 video 的 embedding 向量，以及搜索詞的 embedding 向量。至于這個(gè) embedding 向量是怎么生成的，作者的原話是這樣的：

Inspired by continuous bag of words language models, we learn high dimensional embeddings for each video in a xed vocabulary and feed these embeddings into a feedforward neural network

所以作者是先用 word2vec 方法對 video 和 search token 做了 embedding 之后再作為輸入的，這也是做 embedding 的“基本操作”，不用過多介紹；當(dāng)然，除此之外另一種大家應(yīng)該也比較熟悉，就是通過加一個(gè) embedding 層跟上面的 DNN 一起訓(xùn)練，兩種方法孰優(yōu)孰劣，有什么適用場合，大家可以討論一下。

特征向量里面還包括了用戶的地理位置的 embedding，年齡，性別等。然后把所有這些特征 concatenate 起來，喂給上層的 ReLU 神經(jīng)網(wǎng)絡(luò)。

三層神經(jīng)網(wǎng)絡(luò)過后，我們看到了 softmax 函數(shù)。這里 Youtube 的同學(xué)們把這個(gè)問題看作為用戶推薦 next watch 的問題，所以輸出應(yīng)該是一個(gè)在所有 candidate video 上的概率分布，自然是一個(gè)多分類問題。

好了，這一套深度學(xué)習(xí)的“基本操作”下來，就構(gòu)成了 Youtube 的 candidate generation 網(wǎng)絡(luò)，看似平淡無奇，其實(shí)還是隱藏著一些問題的，比如：

架構(gòu)圖的左上角，為什么在 online serving 的時(shí)候不直接用這套網(wǎng)絡(luò)進(jìn)行預(yù)測而要使用 nearest neighbor search 的方法？
多分類問題中，Youtube 的 candidate video 有百萬之巨，意味著有幾百萬個(gè)分類，這必然會(huì)影響訓(xùn)練效果和速度，如何改進(jìn)？

這些問題在讀第一遍的時(shí)候我也沒有深想深看，但卻是工程實(shí)現(xiàn)中必然會(huì)遇到的問題，我們隨后再深入介紹論文中的解決方法。

既然得到了幾百個(gè)候選集合，下一步就是利用 ranking 模型進(jìn)行精排序，下面是 ranking 深度學(xué)習(xí)網(wǎng)絡(luò)的架構(gòu)圖。

重讀 Youtube 深度學(xué)習(xí)推薦系統(tǒng)論文，字字珠璣，驚為神文

Youtube Ranking Model

乍一看上面的 ranking model 似乎與 candidate generation 模型沒有什么區(qū)別，模型架構(gòu)還是深度學(xué)習(xí)的“基本操作”，唯一的區(qū)別就是特征工程，那么我們就講講特征工程。

事實(shí)上原文也明確說明了，引入另一套 DNN 作為 ranking model 的目的就是引入更多描述視頻、用戶以及二者之間關(guān)系的特征，達(dá)到對候選視頻集合準(zhǔn)確排序的目的。

During ranking, we have access to many more features describing the video and the user's relationship to the video because only a few hundred videos are being scored rather than the millions scored in candidate generation.

具體一點(diǎn)，從左至右的特征依次是：

impression video ID embedding: 當(dāng)前要計(jì)算的 video 的 embedding
watched video IDs average embedding: 用戶觀看過的最后 N 個(gè)視頻 embedding 的 average pooling
language embedding: 用戶語言的 embedding 和當(dāng)前視頻語言的 embedding
time since last watch: 自上次觀看同 channel 視頻的時(shí)間
#previous impressions: 該視頻已經(jīng)被曝光給該用戶的次數(shù)

上面五個(gè)特征中，我想重點(diǎn)談?wù)劦?4 個(gè)和第 5 個(gè)。因?yàn)檫@兩個(gè)很好的引入了對用戶行為的觀察。

第 4 個(gè)特征背后的思想是：

We observe that the most important signals are those that describe a user's previous interaction with the item itself and other similar items.

有一些引入 attention 的意思，這里是用了 time since last watch 這個(gè)特征來反映用戶看同類視頻的間隔時(shí)間。從用戶的角度想一想，假如我們剛看過“DOTA 經(jīng)典回顧”這個(gè) channel 的視頻，我們很大概率是會(huì)繼續(xù)看這個(gè) channel 的視頻的，那么該特征就很好的捕捉到了這一用戶行為。

第 5 個(gè)特征 #previous impressions 則一定程度上引入了 exploration 的思想，避免同一個(gè)視頻持續(xù)對同一用戶進(jìn)行無效曝光，盡量增加用戶沒看過的新視頻的曝光可能性。

至此，我的第一遍論文閱讀就結(jié)束了，對 Youtube 的算法框架有了概念，但總覺得不過如此，沒什么太多新穎的地方。

但如果真這么想，還是太 naive 了，與上一篇阿里的深度興趣網(wǎng)絡(luò) DIN 不同的是，你讀懂了 DIN 的 attention 機(jī)制，你就抓住了其論文 70% 的價(jià)值，但這篇文章，如果你只讀懂了 Youtube 的推薦系統(tǒng)架構(gòu)，你只抓住了 30% 的價(jià)值。那么剩下的 70% 的價(jià)值在哪里呢？

在重讀這篇文章的時(shí)候，我從一個(gè)工程師的角度，始終繃著“如何實(shí)現(xiàn)”這根弦，發(fā)現(xiàn)這篇論文的工程價(jià)值之前被我大大忽略了。下面我列出十個(gè)文中解決的非常有價(jià)值的問題：

文中把推薦問題轉(zhuǎn)換成多分類問題，在 next watch 的場景下，每一個(gè)備選 video 都會(huì)是一個(gè)分類，因此總共的分類有數(shù)百萬之巨，這在使用 softmax 訓(xùn)練時(shí)無疑是低效的，這個(gè)問題 Youtube 是如何解決的？
在 candidate generation model 的 serving 過程中，Youtube 為什么不直接采用訓(xùn)練時(shí)的model進(jìn)行預(yù)測，而是采用了一種最近鄰搜索的方法？
Youtube 的用戶對新視頻有偏好，那么在模型構(gòu)建的過程中如何引入這個(gè) feature？
在對訓(xùn)練集的預(yù)處理過程中，Youtube 沒有采用原始的用戶日志，而是對每個(gè)用戶提取等數(shù)量的訓(xùn)練樣本，這是為什么？
Youtube 為什么不采取類似 RNN 的 Sequence model，而是完全摒棄了用戶觀看歷史的時(shí)序特征，把用戶最近的瀏覽歷史等同看待，這不會(huì)損失有效信息嗎？
在處理測試集的時(shí)候，Youtube 為什么不采用經(jīng)典的隨機(jī)留一法（random holdout），而是一定要把用戶最近的一次觀看行為作為測試集？
在確定優(yōu)化目標(biāo)的時(shí)候，Youtube 為什么不采用經(jīng)典的 CTR，或者播放率（Play Rate），而是采用了每次曝光預(yù)期播放時(shí)間（expected watch time per impression）作為優(yōu)化目標(biāo)？
在進(jìn)行 video embedding 的時(shí)候，為什么要直接把大量長尾的 video 直接用 0 向量代替？
針對某些特征，比如 #previous impressions，為什么要進(jìn)行開方和平方處理后，當(dāng)作三個(gè)特征輸入模型？
為什么 ranking model 不采用經(jīng)典的 logistic regression 當(dāng)作輸出層，而是采用了 weighted logistic regression？

因?yàn)槲乙彩窃谝曨l推薦領(lǐng)域工作，所以可以很負(fù)責(zé)任的說以上的十個(gè)問題都是非常有價(jià)值的。

PS：大家可以先思考一番，雷鋒網(wǎng) AI 科技評(píng)論將馬上推出下篇問題解答。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

21人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章

重讀 Youtube 深度學(xué)習(xí)推薦系統(tǒng)論文，字字珠璣，驚為神文

重讀 Youtube 深度學(xué)習(xí)推薦系統(tǒng)論文，字字珠璣，驚為神文