丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給skura
發(fā)送

0

Netflix推薦系統(tǒng)模型的快速線上評(píng)估方法——Interleaving

本文作者: skura 2019-06-20 14:17
導(dǎo)語(yǔ):如果能夠?qū)⒛P驮u(píng)估和線上AB Test的效率提高,那一定是大大解放算法工程師效率的事情。

雷鋒網(wǎng) AI 科技評(píng)論按,本文作者是硅谷高級(jí)工程師王喆,雷鋒網(wǎng)獲授權(quán)轉(zhuǎn)載于微信號(hào)「王喆的機(jī)器學(xué)習(xí)筆記」,作者的知乎專欄地址是:https://zhuanlan.zhihu.com/p/68509372

這里是「王喆的機(jī)器學(xué)習(xí)筆記」的第十八篇文章,今天我們關(guān)注模型的評(píng)估和線上測(cè)試。有經(jīng)驗(yàn)的算法工程師肯定非常清楚,在一個(gè)模型的開(kāi)發(fā)周期中,占工作量大頭的其實(shí)是特征工程和模型評(píng)估及上線的過(guò)程。在機(jī)器學(xué)習(xí)平臺(tái)已經(jīng)非常成熟的現(xiàn)在,模型結(jié)構(gòu)的實(shí)現(xiàn)和調(diào)整反而僅僅是幾行代碼的事情。所以如果能夠?qū)⒛P驮u(píng)估和線上 AB Test 的效率提高,那一定是大大解放算法工程師效率的事情。

今天這篇文章我們就介紹一下流媒體巨頭 Netflix 的「獨(dú)門(mén)線上評(píng)估秘笈」——Interleaving。

周所周知,Netflix 是美國(guó)的流媒體巨頭,其廣為人知的原因不僅是因?yàn)槠涠嗖恐脑瓌?chuàng)劇,高昂的市值,在推薦技術(shù)領(lǐng)域,Netflix 也一直走在業(yè)界的最前沿。那么驅(qū)動(dòng) Netflix 實(shí)現(xiàn)推薦系統(tǒng)快速迭代創(chuàng)新的重要技術(shù),就是我們今天要介紹的快速線上評(píng)估方法——Interleaving。

Netflix 推薦系統(tǒng)問(wèn)題背景

Netflix 幾乎所有頁(yè)面都是推薦算法驅(qū)動(dòng)的,每種算法針對(duì)不同的推薦場(chǎng)景進(jìn)行優(yōu)化。如圖 1 所示,主頁(yè)上的「Top Picks 行」根據(jù)視頻的個(gè)性化排名提供推薦,而「Trending Now 行」包含了最近的流行趨勢(shì)。這些個(gè)性化的行共同構(gòu)成了 Netflix 將近 1 億會(huì)員「千人千面」的個(gè)性化主頁(yè)。

Netflix推薦系統(tǒng)模型的快速線上評(píng)估方法——Interleaving

圖 1: 個(gè)性化 Netflix 主頁(yè)示例。每一行是一個(gè)推薦類(lèi)別,對(duì)于給定的行,從左到右的視頻排序由特定的排序算法確定。

對(duì)于強(qiáng)算法驅(qū)動(dòng)的 Netflix 來(lái)說(shuō),算法的迭代創(chuàng)新當(dāng)然是必不可少的。為了通過(guò)算法最大化 Netflix 的商業(yè)目標(biāo)(這些商業(yè)指標(biāo)包括每月用戶訂閱數(shù)、觀看總時(shí)長(zhǎng)等等),需要進(jìn)行大量的 AB Test 來(lái)驗(yàn)證新算法能否有效提升這些關(guān)鍵的產(chǎn)品指標(biāo)。

這就帶來(lái)一個(gè)矛盾,就是算法工程師們?nèi)找嬖鲩L(zhǎng)的 AB Test 需求和線上 AB Test 資源嚴(yán)重不足之間的矛盾。因?yàn)榫€上 AB Test 必然要占用寶貴的線上流量資源,還有可能會(huì)對(duì)用戶體驗(yàn)造成損害,但線上流量資源顯然是有限的,而且只有小部分能夠用于 AB Test;而算法研發(fā)這側(cè),算法驅(qū)動(dòng)的使用場(chǎng)景不斷增加,大量候選算法需要逐一進(jìn)行 AB Test。這二者之間的矛盾必然愈演愈烈。這就迫切需要設(shè)計(jì)一個(gè)快速的線上評(píng)估方法。

為此,Netflix 設(shè)計(jì)了一個(gè)兩階段的線上測(cè)試過(guò)程(如圖 2)。

  • 第一階段利用被稱為 Interleaving 的測(cè)試方法進(jìn)行候選算法的快速篩選,從大量初始想法中篩選出少量「優(yōu)秀的」Ranking 算法。

  • 第二階段是對(duì)縮小的算法集合進(jìn)行傳統(tǒng)的 AB Test,以測(cè)量它們對(duì)用戶行為的長(zhǎng)期影響。

大家一定已經(jīng)對(duì)傳統(tǒng)的 AB Test 方法駕輕就熟,所以這篇文章專注于介紹 Netflix 是怎樣通過(guò) Interleaving 方法進(jìn)行線上快速測(cè)試的。

Netflix推薦系統(tǒng)模型的快速線上評(píng)估方法——Interleaving

圖 2:使用 Inter leaving 進(jìn)行快速線上測(cè)試。用燈泡代表候選算法。其中,最優(yōu)的獲勝算法用紅色表示。Interleaving 能夠快速地將最初的候選算法集合進(jìn)行縮減,相比傳統(tǒng)的 AB Test 更快地確定最優(yōu)算法。

傳統(tǒng) AB Test 存在的問(wèn)題

傳統(tǒng)的 AB Test 除了存在效率問(wèn)題,還存在一些統(tǒng)計(jì)學(xué)上的顯著性差異問(wèn)題。下面用一個(gè)很典型的 AB Test 問(wèn)題來(lái)進(jìn)行說(shuō)明。

這里設(shè)計(jì)一個(gè) AB Test 來(lái)驗(yàn)證用戶群體是否對(duì)「可口可樂(lè)」和「百事可樂(lè)」存在口味傾向。那么按照傳統(tǒng)的做法,我們會(huì)將測(cè)試人群隨機(jī)分成兩組然后進(jìn)行「盲測(cè)」,即在不告知可樂(lè)品牌的情況下進(jìn)行測(cè)試。第一組只提供可口可樂(lè),第二組只提供百事可樂(lè),然后根據(jù)大家一定時(shí)間內(nèi)的可樂(lè)消耗量來(lái)觀察人們是更喜歡「可口可樂(lè)」還是「百事可樂(lè)」。

這個(gè)實(shí)驗(yàn)一般意義上確實(shí)是有效的,很多時(shí)候我們也是這么做的。但也確實(shí)存在一些潛在的問(wèn)題:

  1. 總的測(cè)試人群中,對(duì)于可樂(lè)的消費(fèi)習(xí)慣肯定各不相同,從幾乎不喝可樂(lè)到每天喝大量可樂(lè)的人都有。

  2. 可樂(lè)的重消費(fèi)人群肯定只占總測(cè)試人群的一小部分,但他們可能占整體汽水消費(fèi)的較大比例。

這兩個(gè)問(wèn)題導(dǎo)致了,即使 AB 兩組之間重度可樂(lè)消費(fèi)者的微小不平衡也可能對(duì)結(jié)論產(chǎn)生不成比例的影響。

在互聯(lián)網(wǎng)場(chǎng)景下,這樣的問(wèn)題同樣存在。比如 Netflix 場(chǎng)景下,非?;钴S用戶的數(shù)量是少數(shù),但其貢獻(xiàn)的觀看時(shí)長(zhǎng)卻占較大的比例,因此 Netflix AB Test 中活躍用戶被分在 A 組的多還是被分在 B 組的多,將對(duì)結(jié)果產(chǎn)生較大影響,從而掩蓋模型的真實(shí)效果。

那么如何解決這個(gè)問(wèn)題呢?一個(gè)方法是不對(duì)測(cè)試人群進(jìn)行分組,而是讓所有測(cè)試者都可以自由選擇百事可樂(lè)和可口可樂(lè)(測(cè)試過(guò)程中仍沒(méi)有品牌標(biāo)簽,但能區(qū)分是兩種不同的可樂(lè))。在實(shí)驗(yàn)結(jié)束時(shí),統(tǒng)計(jì)每個(gè)人可口可樂(lè)和百事可樂(lè)的消費(fèi)比例,然后進(jìn)行平均后得到整體的消費(fèi)比例。

這個(gè)測(cè)試方案的優(yōu)點(diǎn)在于:

  1. 消除了 AB 組測(cè)試者自身屬性分布不均的問(wèn)題;

  2. 通過(guò)給予每個(gè)人相同的權(quán)重,降低了重度消費(fèi)者對(duì)結(jié)果的過(guò)多影響。

這個(gè)測(cè)試思路應(yīng)用于 Netflix 的場(chǎng)景,就是 Interleaving。

Netflix 的快速線上評(píng)估方法——Interleaving

圖 3 描繪了 AB Test 和 Interleaving 之間的差異。

  • 在傳統(tǒng)的 AB Test 中,Netflix 會(huì)選擇兩組訂閱用戶:一組接受 Ranking 算法 A 的推薦結(jié)果,另一組接受 Ranking 算法 B 的推薦結(jié)果。

  • 在 Interleaving 測(cè)試中,只有一組訂閱用戶,這些訂閱用戶會(huì)接受到通過(guò)混合算法 A 和 B 的排名生成的交替排名。

這就使得用戶同時(shí)可以在一行里同時(shí)看到算法 A 和 B 的推薦結(jié)果(用戶無(wú)法區(qū)分一個(gè) item 是由算法 A 推薦的還是算法 B 推薦的)。進(jìn)而可以通過(guò)計(jì)算觀看時(shí)長(zhǎng)等指標(biāo)來(lái)衡量到底是算法 A 好還是算法 B 好。

Netflix推薦系統(tǒng)模型的快速線上評(píng)估方法——Interleaving

圖 3:傳統(tǒng) AB Test 和 Interleaving 在傳統(tǒng) AB Test 中,測(cè)試用戶分為兩組,一組暴露于排名算法 A,另一組暴露于算法 B,在兩組之間進(jìn)行比較觀看時(shí)長(zhǎng)等核心評(píng)估指標(biāo)。另一方面,Interleaving 將所有測(cè)試用戶暴露于算法 A 和 B 的混合排名,再比較算法相對(duì)應(yīng)的 item 的指標(biāo)

當(dāng)然,在用 Interleaving 方法進(jìn)行測(cè)試的時(shí)候,必須要考慮位置偏差的存在,避免來(lái)自算法 A 的視頻總排在第一位。因此需要以相等的概率讓算法 A 和算法 B 交替領(lǐng)先。這類(lèi)似于在野球場(chǎng)打球時(shí),兩個(gè)隊(duì)長(zhǎng)先通過(guò)扔硬幣的方式?jīng)Q定誰(shuí)先選人,然后在交替選隊(duì)員的過(guò)程。

Netflix推薦系統(tǒng)模型的快速線上評(píng)估方法——Interleaving

圖 4:使用「隊(duì)長(zhǎng)選人」的方式來(lái)混合兩個(gè)排名算法的視頻。ranking 算法 A 和 B 分別產(chǎn)生了推薦視頻列表。通過(guò)隨機(jī)拋硬幣確定是 ranking 算法 A 還是 B 貢獻(xiàn)第一個(gè)視頻。然后,輪流從算法 A 和 B 中從高到底選擇視頻。

在清楚了 Interleaving 方法之后,還需要驗(yàn)證這個(gè)評(píng)估方法到底能不能替代傳統(tǒng)的 AB Test,會(huì)不會(huì)得出錯(cuò)誤的結(jié)論。Netflix 從兩個(gè)方面進(jìn)行了驗(yàn)證,一是 Interleaving 的「靈敏度」,二是 Interleaving 的「正確性」。

Interleaving 與傳統(tǒng) AB Test 的靈敏度比較

Netflix 的這組實(shí)驗(yàn)希望驗(yàn)證的是 Interleaving 方法相比傳統(tǒng) AB Test,需要多少樣本就能夠驗(yàn)證出算法 A 和算法 B 的優(yōu)劣。我們之前一再?gòu)?qiáng)調(diào)線上測(cè)試資源的緊張,因此這里自然希望 Interleaving 能夠利用較少的線上資源,較少的測(cè)試用戶就解決評(píng)估問(wèn)題。這就是所謂的「靈敏度比較」。

圖 5 是實(shí)驗(yàn)結(jié)果,橫軸是參與實(shí)驗(yàn)的樣本數(shù)量,縱軸 Netflix 沒(méi)有給出非常精準(zhǔn)的解釋,但我們可以理解為是判定算法 A 是否比算法 B 好的「錯(cuò)誤」概率??梢钥闯龅氖?interleaving 的方法利用 10^3 個(gè)樣本就能夠判定算法 A 是否比 B 好,而 AB test 則需要 10^5 個(gè)樣本才能夠?qū)㈠e(cuò)誤率降到 5% 以下。這就意味著利用一組 AB Test 的資源,我們可以做 100 組 Interleaving 實(shí)驗(yàn)。這無(wú)疑大大加強(qiáng)了線上測(cè)試的能力。

Netflix推薦系統(tǒng)模型的快速線上評(píng)估方法——Interleaving

圖 5:對(duì) Interleaving 與傳統(tǒng) AB Test 指標(biāo)的靈敏度。與最敏感的 AB Test 指標(biāo)相比,Interleaving 也只需要 1/100 的訂閱用戶樣本就能夠確定用戶更偏愛(ài)哪個(gè)算法

Interleaving 指標(biāo)與 AB Test 指標(biāo)的相關(guān)性

除了能夠利用小樣本快速進(jìn)行算法評(píng)估外,Interleaving 的判斷結(jié)果是否與 AB Test 一致,也是檢驗(yàn) Interleaving 能否在線上評(píng)估第一階段取代 AB Test 的關(guān)鍵。

圖 6 顯示了 Interleaving 中的實(shí)驗(yàn)指標(biāo)與 AB Test 指標(biāo)之間的相關(guān)性。每個(gè)數(shù)據(jù)點(diǎn)代表一個(gè) Ranking 算法。我們發(fā)現(xiàn) Interleaving 指標(biāo)與 AB Test 評(píng)估指標(biāo)之間存在非常強(qiáng)的相關(guān)性,這就驗(yàn)證了在 Interleaving 實(shí)驗(yàn)中勝出的算法也極有可能在之后的 AB Test 中勝出。

Netflix推薦系統(tǒng)模型的快速線上評(píng)估方法——Interleaving

圖 6:Interleaving 指標(biāo)與 AB Test 指標(biāo)的相關(guān)性。每個(gè)點(diǎn)表示一個(gè) Ranking 算法的實(shí)驗(yàn)結(jié)果。Interleaving 指標(biāo)與 AB Test 指標(biāo)存在很強(qiáng)的相關(guān)性

結(jié)論

通過(guò)實(shí)驗(yàn)我們已經(jīng)知道 Interleaving 是一種強(qiáng)大快捷的算法驗(yàn)證方法,它加速了 Netflix 各類(lèi) Ranking 算法的迭代創(chuàng)新。

但我們也要清楚的是 Interleaving 方法也存在一定的局限性,主要是下面兩點(diǎn):

  1. 工程實(shí)現(xiàn)的框架較傳統(tǒng) AB Test 復(fù)雜。由于 Interleaving 實(shí)驗(yàn)的邏輯和業(yè)務(wù)邏輯糾纏在一起,因此業(yè)務(wù)邏輯可能會(huì)被干擾。而且為了實(shí)現(xiàn) Interleaving,需要將大量輔助性的數(shù)據(jù)標(biāo)示添加到整個(gè)數(shù)據(jù) pipeline 中,這都是工程實(shí)現(xiàn)的難點(diǎn);

  2. Interleaving 畢竟只是對(duì)用戶對(duì)算法推薦結(jié)果偏好程度的相對(duì)測(cè)量,不能得出一個(gè)算法完整的表現(xiàn)。比如我們想知道算法 A 能夠?qū)⒂脩粽w的觀看時(shí)長(zhǎng)提高多少,使用 Interleaving 是無(wú)法得出這樣的結(jié)論的。為此 Netflix 才設(shè)計(jì)了 Interleaving+AB Test 兩級(jí)實(shí)驗(yàn)結(jié)構(gòu),完善整個(gè)線上測(cè)試的框架。

文章最后按慣例跟大家討論幾個(gè)問(wèn)題,希望大家能分享自己的觀點(diǎn),討論出真知:

  1. 文中的靈敏度測(cè)試到底是在進(jìn)行什么測(cè)試?縱軸是 P value 嗎?(可以參考文末的原文鏈接)

  2. 除了 AB Test 和 Interleaving,工作中你還是使用過(guò)哪些線上測(cè)試方法?

  3. 在筆者看來(lái),Interleaving 除了最后介紹的兩個(gè)弊端外,還有一些其他潛在的問(wèn)題,你覺(jué)得還有哪些?

最后歡迎大家關(guān)注我的微信公眾號(hào):王喆的機(jī)器學(xué)習(xí)筆記(wangzhenotes),跟蹤計(jì)算廣告、推薦系統(tǒng)等機(jī)器學(xué)習(xí)領(lǐng)域前沿。

想進(jìn)一步交流的同學(xué)也可以通過(guò)公眾號(hào)加我的微信一同探討技術(shù)問(wèn)題。

注:文章大部分基于 Netflix 的官方技術(shù)博客原文(https://medium.com/netflix-techblog/interleaving-in-online-experiments-at-netflix-a04ee392ec5)翻譯,進(jìn)行了有效補(bǔ)充。                

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

Netflix推薦系統(tǒng)模型的快速線上評(píng)估方法——Interleaving

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)