快手的推薦系統(tǒng)背后，英特爾做了什么？

本文作者：吳優(yōu)

2020-08-05 18:05

導(dǎo)語(yǔ)：推薦系統(tǒng)加速戰(zhàn)中，快手率先與英特爾展開(kāi)合作。

大數(shù)據(jù)時(shí)代，個(gè)人信息越來(lái)越透明，以至于手機(jī)APP都能讀懂你我的心思，甚至能將信息精準(zhǔn)地送達(dá)到每一個(gè)移動(dòng)端。APP開(kāi)發(fā)者將其稱之為“算法推薦”，商家將其稱之為“個(gè)性化定制”。有人為推薦機(jī)制津津樂(lè)道，“原來(lái)手機(jī)比男朋友更懂我”，聽(tīng)到更多合口味的音樂(lè)，看更多愛(ài)好的視頻；也有人感嘆其恐怖，擔(dān)心陷入算法布局好的陷阱，陷入信息繭房。

價(jià)值巨大的推薦系統(tǒng)

雖然我們開(kāi)始警惕推薦機(jī)制可能帶來(lái)的危害，但對(duì)于企業(yè)而言，推薦機(jī)制蘊(yùn)藏著巨大的價(jià)值，推薦系統(tǒng)的加速不會(huì)停止。

根據(jù)王喆老師的論文《深度學(xué)習(xí)推薦系統(tǒng)》[1]中的例子，2019年天貓“雙11”的成交額是2684億元，天貓推薦系統(tǒng)實(shí)現(xiàn)了首頁(yè)商品的個(gè)性化推薦，其目標(biāo)是提高轉(zhuǎn)化轉(zhuǎn)化率和點(diǎn)擊率。假設(shè)推薦系統(tǒng)進(jìn)行了優(yōu)化，整體的轉(zhuǎn)化率提高1%，那么增加的成交額大約為26.84億元。由此可見(jiàn)，相比于對(duì)信息繭房的擔(dān)憂，互聯(lián)網(wǎng)巨頭當(dāng)然是更關(guān)心這筆數(shù)目不小的收益增長(zhǎng)，進(jìn)一步加速各自的推薦系統(tǒng)，短視頻玩家快手也不例外。

根據(jù)快手官網(wǎng)數(shù)據(jù)顯示，2015年6月，快手的單日用戶上傳視頻量突破260萬(wàn)；2016年4月總用戶數(shù)突破3億。截止目前為止，快手累計(jì)200億條短視頻庫(kù)存，每天仍有超過(guò)1500萬(wàn)條視頻新增、千億條視頻曝光，早已從一個(gè)Gif生成工具蛻變成為一個(gè)日活3億、日播放量200億的短視頻社區(qū)。

當(dāng)構(gòu)建起龐大的數(shù)字世界后，快手需要面對(duì)的問(wèn)題是，如何在承載高峰期每秒數(shù)十萬(wàn)并發(fā)調(diào)用量的同時(shí)，從上億級(jí)別的短視頻庫(kù)中，通過(guò)千億參數(shù)級(jí)別的深度模型向不同的用戶對(duì)象推送合適的內(nèi)容，即其推薦系統(tǒng)的加速問(wèn)題。

快手的推薦系統(tǒng)背后，英特爾做了什么？

為此，快手基于異構(gòu)設(shè)備構(gòu)建了計(jì)算與存儲(chǔ)分離的推薦系統(tǒng)架構(gòu)。在該架構(gòu)的內(nèi)部，主要由兩部分任務(wù)組成，一部分是包括推薦服務(wù)、預(yù)估服務(wù)、召回服務(wù)在內(nèi)的計(jì)算敏感性服務(wù)，另一部分是包括用戶畫像、參數(shù)服務(wù)器以及分布式服務(wù)器索引的存儲(chǔ)敏感性服務(wù)，這些模塊需要實(shí)現(xiàn)大容量?jī)?nèi)存的數(shù)據(jù)存儲(chǔ)及快速的數(shù)據(jù)訪問(wèn)。

提升訓(xùn)練速度的英特爾Cooper Lake

實(shí)際上，推薦系統(tǒng)加速的本質(zhì)，一方面是人工智能應(yīng)用的升級(jí)，機(jī)器需要對(duì)圖片、視頻等信息進(jìn)行學(xué)習(xí)和分類；另一方面，則是對(duì)存儲(chǔ)和訪問(wèn)的進(jìn)一步需求。

今年6月，英特爾推出的第三代至強(qiáng)可擴(kuò)展處理器Cooper Lake就是專為當(dāng)今內(nèi)置人工智能數(shù)據(jù)密集型服務(wù)而設(shè)計(jì)的處理器。雷鋒網(wǎng)了解到，英特爾第三代可擴(kuò)展處理器進(jìn)一步升級(jí)了DLBoost深度學(xué)習(xí)加速技術(shù)，同時(shí)，在深度學(xué)習(xí)加速架構(gòu)下的VNNI神經(jīng)網(wǎng)絡(luò)指令支持bfloat16數(shù)據(jù)格式。與上一代平臺(tái)Cascade Lake最頂級(jí)的CPU 8280相比，在圖像分類處理上，Cooper Lake的計(jì)算性能提升1.93倍。

快手的推薦系統(tǒng)背后，英特爾做了什么？

在對(duì)人工智能的支持上，區(qū)別于第二代至強(qiáng)可擴(kuò)展處理器支持的Int8數(shù)據(jù)格式和傳統(tǒng)的FP32數(shù)據(jù)格式，bfloat16數(shù)據(jù)格式是采用16位存取一個(gè)數(shù)據(jù)，包括1個(gè)符號(hào)位，8個(gè)指數(shù)和7個(gè)尾數(shù)位，同時(shí)保證了數(shù)據(jù)的范圍和精度。

快手的推薦系統(tǒng)背后，英特爾做了什么？

雷鋒網(wǎng)了解到，雖然bfloat16的精度沒(méi)有FP32的精度高，但是7位尾數(shù)對(duì)于大多數(shù)人工智能的推理計(jì)算模型而言，精度已足夠使用。英特爾技術(shù)人員透露，相比于上一代基于FP32數(shù)據(jù)格式做訓(xùn)練，VNNI搭配bfloat16能使訓(xùn)練性能提高93%，推理性能提高90%。

Cooper Lake或?qū)⑹强焓旨铀偻扑]系統(tǒng)的好選擇。

依托傲騰持久內(nèi)存，加速存儲(chǔ)與訪問(wèn)

更好地存儲(chǔ)與訪問(wèn)，是快手在加速推薦系統(tǒng)過(guò)程中，需要面臨的另一個(gè)問(wèn)題。

在傳統(tǒng)的存儲(chǔ)架構(gòu)中，大容量持久化存儲(chǔ)主要在硬盤或者固態(tài)盤中，對(duì)于快手的推薦系統(tǒng)而言，尤其是參數(shù)服務(wù)器和分布式索引服務(wù)，從硬盤或固態(tài)盤中索引數(shù)據(jù)，工作量大，時(shí)延長(zhǎng)。若將索引工作直接在內(nèi)存中進(jìn)行，就會(huì)降低訪問(wèn)延時(shí)，提高推薦系統(tǒng)的響應(yīng)。

不過(guò)，在內(nèi)存存儲(chǔ)金字塔中，金字塔頂端的存儲(chǔ)方案，性能高，存儲(chǔ)低，單位容量成本高，金字塔低端則是容量大、性能低，成本低的存儲(chǔ)方案，存在斷層現(xiàn)象，比如常規(guī)的DDR4的內(nèi)存和NAND的閃存，訪問(wèn)的延遲相差1000倍，典型的容量相差100倍，而單位容量的成本相差10倍。這一斷層現(xiàn)象導(dǎo)致很多應(yīng)用在選擇方案時(shí)，難以找到比較平衡的設(shè)計(jì)。

基于這一難題，英特爾推出了傲騰持久內(nèi)存，與上一代產(chǎn)品相比，其內(nèi)存帶寬提升25%，若搭配之后發(fā)布Ice Lake的平臺(tái)，每處理器可帶來(lái)4.5TB的總內(nèi)存容量。同時(shí)，在做數(shù)據(jù)寫入時(shí)，其訪問(wèn)延遲只有幾百納秒，而一個(gè)普通的NAND SSD的訪問(wèn)時(shí)間則在100微秒左右。

英特爾技術(shù)專家介紹，英特爾第三代至強(qiáng)可擴(kuò)展平臺(tái)與傲騰持久內(nèi)存結(jié)合，可將服務(wù)器上每個(gè)節(jié)點(diǎn)的容量從原來(lái)的幾百GB擴(kuò)展至TB級(jí)別，例如一個(gè)4路、4個(gè)插槽的第三代至強(qiáng)可擴(kuò)展處理器平臺(tái)，每個(gè)插槽都搭配傲騰持久內(nèi)存，支持的最大內(nèi)存就可達(dá)到18T。

基于此，快手率先與英特爾展開(kāi)合作，結(jié)合英特爾至強(qiáng)可擴(kuò)展處理器平臺(tái)和傲騰持久內(nèi)存，快手推薦系統(tǒng)性能及TCO得到了優(yōu)化和提升。不僅大大降低了數(shù)據(jù)訪問(wèn)延遲時(shí)間，還縮短了系統(tǒng)故障恢復(fù)時(shí)長(zhǎng)。

快手的推薦系統(tǒng)背后，英特爾做了什么？