多目標學(xué)習(xí)系統(tǒng)：如何讓知乎互動率提升100%？

本文作者： songwenhui

2019-03-25 12:11

導(dǎo)語：如何過濾掉無效的信息，從而給用戶提供最為精準的內(nèi)容推薦？

本文轉(zhuǎn)自 | 公眾號 AI 前線（ID：ai-front），未經(jīng)授權(quán)不得轉(zhuǎn)載
采訪嘉賓｜張瑞（知乎首頁技術(shù)團隊負責(zé)人）
作者｜Vincent
編輯｜Debra
導(dǎo)讀：知乎是一個問答社區(qū)和知識分享平臺，各行各業(yè)的從業(yè)者在這里分享自己領(lǐng)域的知識，來這里的人也是抱著學(xué)習(xí)的態(tài)度，希望有所收獲。推薦系統(tǒng)作為知乎的核心功能，一直希望為用戶提供最佳的內(nèi)容推薦，隨著移動互聯(lián)網(wǎng)的發(fā)展，內(nèi)容平臺迎來了黃金時代，但也不可避免的出現(xiàn)了很多問題和挑戰(zhàn)。作為用戶，最關(guān)心的是推薦內(nèi)容的質(zhì)量以及相關(guān)度。如何過濾掉無效的信息，從而給用戶提供最為精準的內(nèi)容推薦，這也是知乎一直在思考的問題。

如今，推薦系統(tǒng)已經(jīng)在各行各業(yè)中有所應(yīng)用，在知乎，推薦系統(tǒng)更是一項核心功能。

據(jù)了解，目前知乎的推薦系統(tǒng)主要分為兩部分：一部分是首頁信息流的個性化推薦；另一部分是在各種用戶場景，比如問題路由、相關(guān)推薦等等功能上的推薦。

在這些場景下面，知乎用到的技術(shù)并不是完全一樣的，所采用的技術(shù)架構(gòu)也并不相同，張瑞告訴記者：主要還是根據(jù)用戶場景來決定使用什么樣的架構(gòu)和技術(shù)。

在首頁的個性化推薦里，主要采用的技術(shù)包括：對圖文內(nèi)容、視頻內(nèi)容的基本的識別和畫像，對用戶的畫像，以及圖文內(nèi)容和視頻內(nèi)容里面的實體識別以及關(guān)聯(lián)，張瑞表示這些都是基礎(chǔ)的組件；而上層在召回排序環(huán)節(jié)則大量的采用了 DNN，也就是深度神經(jīng)網(wǎng)絡(luò)技術(shù)。

由于平臺的發(fā)展，早先單純以圖文為主的交流方式已經(jīng)不足以讓用戶滿足，于是知乎平臺上也出現(xiàn)了不少視頻、音頻的內(nèi)容，但是文字仍然占據(jù)了大量的比重，這對于知乎的推薦系統(tǒng)來說是個好事兒。

為什么這么說呢？張瑞解釋道，圖文推薦系統(tǒng)和其他推薦系統(tǒng)的區(qū)別在于：目前的 AI 算法技術(shù)對圖文內(nèi)容的理解會比視頻和音頻多媒體更加深入。而且對于絕大部分公司來說，在圖文推薦系統(tǒng)中對圖文內(nèi)容本身做深入理解，從成本上也是可接受的。這種理解不只是從用戶的交互入手，或者把一個圖文內(nèi)容看成單個、原子的 item，而是更深入的去了解某篇圖文到底講的是什么、它的質(zhì)量是什么樣子等等一系列的信息。所以其實相對于商品推薦、視頻推薦等等領(lǐng)域，圖文推薦會有更多的信息可以使用。

“當(dāng)然現(xiàn)在業(yè)界在做圖文推薦系統(tǒng)的時候，也會使用到這些信息?！睆埲鹫f：“大家在這一領(lǐng)域的競爭還是很激烈的。這個激烈就在于：每家公司對圖文內(nèi)容的刻畫、選擇的維度都是不一樣的，能做到的深度也是不一樣的，而這個維度和深度本身就決定了圖文推薦能做到用戶的體驗的上限有多少?！?/p>

為了提升用戶體驗的上限，知乎推薦系統(tǒng)也經(jīng)歷了升級改造。

張瑞告訴我們，知乎最初的推薦系統(tǒng)版本非常簡單，僅僅是根據(jù)用戶的關(guān)注行為進行推薦，比如有新的話題出現(xiàn)，用戶一旦關(guān)注了就推薦給 TA 相關(guān)的內(nèi)容，不關(guān)注就不推薦。此外，推薦的排序也是非常簡單的，就是依靠時間流，即使后來引入了 EdgeRank 之類的簡單的算法，做到的也僅僅是時間、文本內(nèi)容質(zhì)量等相關(guān)的權(quán)重的一個簡單的信息加權(quán)。

隨著新用戶的進入，研發(fā)團隊發(fā)現(xiàn)：在 Feed 流推薦場景下，用戶都是越來越“懶”的，大部分用戶希望不進行繁瑣的操作，就能得到非常好的推薦結(jié)果。于是，推薦系統(tǒng)團隊針對性的進行了一些優(yōu)化，比如：在召回環(huán)節(jié)，引入更多根據(jù)用戶的行為來召回內(nèi)容的方式；在排序環(huán)節(jié)，把用戶的各種行為，以及內(nèi)容的各種細致刻畫都引入進來，通過 DNN 神經(jīng)網(wǎng)絡(luò)進行排序，無論是老用戶也好，新用戶也好，整體上去優(yōu)化他們的體驗。

多目標學(xué)習(xí)系統(tǒng)：如何讓知乎互動率提升100%？

知乎多召回源融合的推薦結(jié)果生成框架

張瑞說：“從效果來看，新的系統(tǒng)上線了之后，對比最初的版本，分發(fā)量等等指標基本上都增長了至少三倍?！?/p>

多目標學(xué)習(xí)的推薦系統(tǒng)

知乎 CTO 李大海曾經(jīng)在去年的一次演講中提到了“多目標學(xué)習(xí)”的推薦系統(tǒng)，據(jù)了解這也是知乎優(yōu)化推薦系統(tǒng)的一個方向。那么這個“多目標學(xué)習(xí)”該如何解釋呢？

張瑞告訴我們，一般來說在搜索和推薦等信息檢索場景下，最基礎(chǔ)的一個目標就是用戶的 CTR，即用戶看見了一篇內(nèi)容之后會不會去點擊閱讀。但其實用戶在產(chǎn)品上的行為是多種多樣的。尤其在知乎，用戶可以對某個內(nèi)容進行點贊，可以收藏這個內(nèi)容，可以把它分享出去，甚至某個問題如果他覺得比較符合他的興趣，想去回答，也可以進行一些創(chuàng)作。

雖然可以對用戶的 CTR 進行單個目標的優(yōu)化，但是這樣的做法也會帶來的負面影響：靠用戶點擊這個行為推薦出來的內(nèi)容并不一定是用戶非常滿意的內(nèi)容，比如有人可能看到一些熱門的內(nèi)容就會去點擊，或者看到一些閱讀門檻低的內(nèi)容，像一些引發(fā)討論的熱點事件、社會新聞，或者是一些輕松娛樂的內(nèi)容，用戶也會點擊。這樣造成的后果就是：CTR 的指標非常高，但是用戶接收到的推薦結(jié)果并不是他們最滿意的。

后來，知乎的產(chǎn)品研發(fā)團隊發(fā)現(xiàn)：用戶的每種行為代表在一定程度上都代表了某個內(nèi)容是否能滿足他不同層面的需求。比如說點擊，代表著用戶在這個場景下，想要看這個內(nèi)容；贊同，代表用戶認為這個內(nèi)容其實寫的很不錯的；收藏，代表這個內(nèi)容對用戶特別有用，要把它收藏起來，要仔細的再去看一看；分享，代表用戶希望其他的人也能看到這個內(nèi)容。

而單目標 CTR 優(yōu)化到了一個比較高的點之后，用戶的閱讀量雖然上去了，但是其他的各種行為（收藏、點贊、分享等等）是下降的。這個下降代表著：用戶接收到太多的東西是他認為不實用的。

于是，推薦系統(tǒng)團隊陷入了思考：能不能預(yù)估用戶在其他行為上的概率？這些概率實際上就是模型要學(xué)習(xí)的目標，多種目標綜合起來，包括閱讀、點贊、收藏、分享等等一系列的行為，就能綜合到一個模型里面進行學(xué)習(xí)，這就是推薦系統(tǒng)的多目標學(xué)習(xí)。

多目標學(xué)習(xí)系統(tǒng)：如何讓知乎互動率提升100%？

"多目標"預(yù)估模型

與所有的系統(tǒng)類似，知乎的多目標推薦系統(tǒng)最初也是一個比較簡單的版本，僅僅是給各個目標學(xué)習(xí)一個模型。這種情況下，模型本身的訓(xùn)練和在線預(yù)測的負擔(dān)就會非常嚴重，每一個模型的訓(xùn)練和預(yù)測都要耗費同樣的資源，這樣對于工程資源壓力是非常大的。這些模型之間還有互相的交叉、驗證；每個模型還需要評估，離線評估一遍，在線評估一遍，之后再合并... 林林總總的行為加起來，對研發(fā)資源造成的負擔(dān)是非常大的。

所以，在多目標推薦系統(tǒng)的第一版做出來之后，團隊就在考慮：能不能使用模型之間共享一些參數(shù)的方式，或者共享模型本身以及訓(xùn)練流程的方式，來減少在訓(xùn)練上的負擔(dān)，以及它在工程成本、研發(fā)成本上的負擔(dān)？

以此想法為基礎(chǔ)，團隊做出了一個能夠在底層共享相關(guān)參數(shù)，在頂層根據(jù)各種模型、目標本身特點而學(xué)習(xí)的特有的神經(jīng)網(wǎng)絡(luò)架構(gòu)，張瑞說，這套架構(gòu)中參考了很多現(xiàn)有的多目標學(xué)習(xí)的研究進展。

雖然解決了一部分問題，但是把多個模型融合在一起，通過一個模型去學(xué)習(xí)一個目標的方式仍然存在問題。

首先，目標之間的相關(guān)性決定了這個模型學(xué)習(xí)的上限能有多少。比如：如果一個模型中點贊和點擊是完全耦合的，那么這個模型在學(xué)習(xí)點贊的過程中，也就學(xué)習(xí)了點擊。但是對用戶來講，它的意義是不一樣的，這并不是一個完全耦合的系統(tǒng)。

在這個學(xué)習(xí)任務(wù)下，如果去共享底層網(wǎng)絡(luò)參數(shù)的話，可能會造成底層的每個目標都能學(xué)習(xí)一點，但是每個目標學(xué)習(xí)的都不夠充分，這是多目標學(xué)習(xí)系統(tǒng)實現(xiàn)的一個難點。為了解決這個問題，研發(fā)團隊參考了 Google 發(fā)表的一篇論文，叫做 Multi-gate Mixture-of-Experts，簡稱 MMOE。

MMOE 的核心思想是：把底層的網(wǎng)絡(luò)劃分成一些專用的模塊，雖然底層參數(shù)是共享的，但是通過目標和網(wǎng)絡(luò)參數(shù)之間的一個 gate（門）來學(xué)習(xí)，讓每部分網(wǎng)絡(luò)充分學(xué)習(xí)到對每個目標的貢獻最大的一組參數(shù)結(jié)構(gòu)，通過這種方式來保證，底層網(wǎng)絡(luò)參數(shù)共享的時候，不會出現(xiàn)目標之間相互抵消的作用。

張瑞告訴我們，經(jīng)過嘗試之后，交互層面的預(yù)估子任務(wù)的 AUC 值得到了至少千分之二的提升，在模型的主任務(wù)也就是預(yù)測閱讀的任務(wù)中，AUC 也沒有下降。上線之后，取得的效果也是非常正向的。

張瑞還跟我們同步了一些數(shù)據(jù)。從數(shù)據(jù)來看，在引入多目標學(xué)習(xí)之前，知乎的預(yù)測模型已經(jīng)做到了非常高的準確率，在引入多目標學(xué)習(xí)之后，或多或少都會對閱讀行為有一定的負向作用：多目標學(xué)習(xí)在上線以來，閱讀行為下降了 2% 左右，但是用戶的其他行為（比如點贊、收藏、評論、分享等），分別提高了 50%~100%。

如果看最直接關(guān)系到用戶體驗的數(shù)據(jù)，也就是用戶的留存率，上線多目標學(xué)習(xí)之后，知乎的整體用戶留存率大概提升了 5% 左右?！皩τ谌魏我粋€推薦系統(tǒng)來說，整體的用戶留存率能提升 5% 都是非常高的收益。”張瑞補充道。

至于用戶反饋，張瑞告訴我們，現(xiàn)在知乎有一些固定的渠道方便用戶提供反饋。他告訴我們：“在引入多目標學(xué)習(xí)之前，我們接到的最多的反饋就是用戶覺得在 Feed 流里，內(nèi)容越來越淺顯。這些反饋主要來自于知乎的重度用戶和一些比較老的用戶，他們對知乎的期望都是非常高的，希望知乎能夠把一些特別有用的知識帶給他們。之前，機器的優(yōu)化閱讀會帶來一些反向作用，有用戶覺得知乎推薦的內(nèi)容雖然都特別抓人眼球，但實際的用處并沒有那么大。在新的推薦系統(tǒng)上線之后，很多人表示 Feed 流里面的內(nèi)容質(zhì)量變高了，用戶沉浸式的體驗感變得更深了?！?/p>

引入多目標學(xué)習(xí)的推薦系統(tǒng)在知乎已經(jīng)收獲了不少的正面效果，但是張瑞表示，團隊目前遇到的一個令人困擾的問題是：多個目標中，到底以什么樣的方式去對目標進行權(quán)衡和融合，才能得到用戶收益和平臺收益的最大化？

打個比方，用戶其實在 Feed 流里面消費內(nèi)容的時候，他期望的并不是非常單一的場景，系統(tǒng)提供一些供消遣而淺顯的內(nèi)容，閱讀量會上漲，但是用戶會覺得體驗不好；但如果推薦的全是一些收藏率特別高的內(nèi)容，對于用戶來講，雖然這類內(nèi)容非常有用，但閱讀起來會很累。

張瑞說：“對于平臺來講，我們最關(guān)注的是用戶在 Feed 流的場景下面的體驗如何。這直接關(guān)系到我們用戶的留存和用戶的活躍?！?/p>

所以現(xiàn)在知乎在嘗試一些解決方案，包括對用戶進行分群，看某個群體的用戶最在意的是什么樣的內(nèi)容。但這是一個通過產(chǎn)品經(jīng)理，或者通過人的觀察來確定的事情，比如說某些領(lǐng)域的重度用戶會特別在意推薦的內(nèi)容對他們有沒有用；一些輕度的用戶，他們來到知乎的主要的目的是為了輕量閱讀，一些易于消化的內(nèi)容對他們更友好。

對用戶分群之后，就可以動態(tài)調(diào)整每個目標的權(quán)重，給出一個最終的排序。這對于推薦系統(tǒng)當(dāng)然是有收益的，但是張瑞認為在現(xiàn)在還沒有一個非常完善的方法來判斷，什么樣的群體、什么樣的目標，他們之間以什么樣的比例去進行融合，從而給最終全局一個最好的收益。

現(xiàn)在業(yè)界的各種推薦系統(tǒng)的方法，大家都會去預(yù)測 CTR（點擊率）、預(yù)測 CVR（轉(zhuǎn)化率），預(yù)測各種各樣行為的概率，但是很少有公司去做預(yù)測用戶的留存。這也是整個推薦行業(yè)，或者說推薦技術(shù)圈面臨的一個挑戰(zhàn)：所有的這些行為概率，都是用戶體驗的一個方面，不能代表用戶體驗的整體最優(yōu)，那么，用什么樣的方式能夠給用戶的體驗帶來最大化的收益，仍然是業(yè)界目前面臨的一項挑戰(zhàn)。張瑞認為，通過多目標學(xué)習(xí)來間接的達到這個目標，間接的達到全局最優(yōu)化，對于提升用戶體驗也許是一種解決方式。

未來規(guī)劃

除了多目標學(xué)習(xí)，有兩個方面的技術(shù)發(fā)展也是張瑞極其關(guān)注的，他認為，這兩項技術(shù)對推薦系統(tǒng)也是很有幫助的。

首先是對于內(nèi)容質(zhì)量的判別。

知乎的場景主要是圖文，所以開發(fā)人員也會更在意圖文質(zhì)量的判別。圖文質(zhì)量的判別包括細粒度特征，比如某個內(nèi)容對于什么樣的用戶來說是好內(nèi)容，對于什么樣的用戶來說不是。舉例來說，一篇講機器學(xué)習(xí)基本知識的內(nèi)容，對于機器學(xué)習(xí)的入門初學(xué)者可能是非常好的內(nèi)容，但是對于知乎上面的一些機器學(xué)習(xí)大牛就是一個并沒有多少信息量的東西。

張瑞表示，怎么能夠?qū)崿F(xiàn)對內(nèi)容質(zhì)量，或者內(nèi)容價值的細粒度的刻畫是非常難的一件事，好在業(yè)界一直在技術(shù)上推進，現(xiàn)在取得了一些進展，包括 Google 最近發(fā)表的論文 BERT，它能夠?qū)ξ淖謨?nèi)容進行不同于往常的 embedding 嵌入式表示。

其次是對于深度神經(jīng)網(wǎng)絡(luò)的解析。

現(xiàn)在的很多場景都用到了深度神經(jīng)網(wǎng)絡(luò)，但是張瑞告訴我們：對于深度神經(jīng)網(wǎng)絡(luò)來說，絕大多數(shù)的場景仍然是黑盒子，即使再往前進一步，不是絕對的一個黑盒子，起碼也是一個灰盒子。

在中間的輸入和輸出之間到底有什么樣的關(guān)聯(lián)？哪個輸入的因子能夠?qū)敵銎鸬阶钪匾淖饔?？這個作用能不能可量化的去評估？現(xiàn)在業(yè)內(nèi)在這一領(lǐng)域的研究的成果并不是非常多，所以張瑞覺得，怎么去解析一個 DNN 的網(wǎng)絡(luò)，實際上是對應(yīng)到開發(fā)者能不能真正的去了解這個模型，能不能去準確的判定它是怎么工作的，以至于，能不能對下一步的工作提供指導(dǎo)，比如什么樣的特征，或者什么樣的網(wǎng)絡(luò)構(gòu)型能夠產(chǎn)生更大的收益？

現(xiàn)在大部分情況下還是靠人的經(jīng)驗，一點點的去嘗試，如果能夠把 DNN 的解析給做好，在未來的各種迭代的效率，以及研發(fā)的效率可能就會出現(xiàn)一個質(zhì)的飛躍。

深度神經(jīng)網(wǎng)絡(luò)解析對于推薦系統(tǒng)可能會更重要。張瑞強調(diào)道，現(xiàn)在有些研究是在針對推薦系統(tǒng)的可解釋性，但是很多時候用戶看到的推薦內(nèi)容，實際上是不清楚為什么推給他，如果不清楚原因，有些用戶就沒有動力仔細的去看。比如在網(wǎng)上上買東西，電商平臺推薦的商品根據(jù)用戶性別甚至是消費級別進行推薦的，但是對用戶來說，如果不給出一個解釋理由的話，用戶或許很難去想到這個東西到底跟自己有什么關(guān)聯(lián)。

張瑞認為：“如果對于深度神經(jīng)網(wǎng)絡(luò)的解析，能夠有一個比較大的進步，我們可以反向倒推出來，把哪些東西推給用戶是最重要的，同時也就可以給這個用戶解釋，我為什么給你推這個東西，能夠提高用戶的篩選效率，并且提高用戶的在整個推薦系統(tǒng)上的黏性和消費意愿。”

最后張瑞談了談對知乎推薦系統(tǒng)未來發(fā)展的規(guī)劃與期待。

從用戶的決策面來說，知乎推薦系統(tǒng)團隊希望能夠多樣的提升用戶和信息之間的匹配的準確性，盡量把更多的信息帶給用戶?？赡苄枰ㄟ^上文提到的各種各樣的方式去一點一點實現(xiàn)這個目標。

從平臺方面來說，首頁的推薦系統(tǒng)在知乎流量來源里面占有非常大的比重，同時也支撐著知乎各個業(yè)務(wù)的發(fā)展，所以，張瑞希望打造出一套非常靈活的系統(tǒng)，能夠根據(jù)業(yè)務(wù)當(dāng)前的需求，或者公司目前的運營狀態(tài)，把流量導(dǎo)去對平臺、公司和用戶有益的地方，最終實現(xiàn)流量分配之后，對流量使用的價值進行評估的一種機制。

多目標學(xué)習(xí)系統(tǒng)：如何讓知乎互動率提升100%？

采訪嘉賓介紹
首頁技術(shù)團隊負責(zé)人張瑞
張瑞，畢業(yè)于北京郵電大學(xué)，先后在百度、豌豆莢等從事搜索、搜索廣告、推薦系統(tǒng)中的機器學(xué)習(xí)、自然語言處理、推薦算法等方向的工作。目前擔(dān)任知乎首頁技術(shù)團隊負責(zé)人、首頁業(yè)務(wù)總監(jiān)，負責(zé)知乎信息流產(chǎn)品的技術(shù)研發(fā)及產(chǎn)品運營團隊。
原文傳送門：https://mp.weixin.qq.com/s/J0j9NwSNhxab6bXqBBzaUw

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

songwenhui

編輯

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章