0
大數(shù)據(jù)時代,個人信息越來越透明,以至于手機APP都能讀懂你我的心思,甚至能將信息精準地送達到每一個移動端。APP開發(fā)者將其稱之為“算法推薦”,商家將其稱之為“個性化定制”。有人為推薦機制津津樂道,“原來手機比男朋友更懂我”,聽到更多合口味的音樂,看更多愛好的視頻;也有人感嘆其恐怖,擔心陷入算法布局好的陷阱,陷入信息繭房。
價值巨大的推薦系統(tǒng)
雖然我們開始警惕推薦機制可能帶來的危害,但對于企業(yè)而言,推薦機制蘊藏著巨大的價值,推薦系統(tǒng)的加速不會停止。
根據(jù)王喆老師的論文《深度學(xué)習(xí)推薦系統(tǒng)》[1]中的例子,2019年天貓“雙11”的成交額是2684億元,天貓推薦系統(tǒng)實現(xiàn)了首頁商品的個性化推薦,其目標是提高轉(zhuǎn)化轉(zhuǎn)化率和點擊率。假設(shè)推薦系統(tǒng)進行了優(yōu)化,整體的轉(zhuǎn)化率提高1%,那么增加的成交額大約為26.84億元。由此可見,相比于對信息繭房的擔憂,互聯(lián)網(wǎng)巨頭當然是更關(guān)心這筆數(shù)目不小的收益增長,進一步加速各自的推薦系統(tǒng),短視頻玩家快手也不例外。
根據(jù)快手官網(wǎng)數(shù)據(jù)顯示,2015年6月,快手的單日用戶上傳視頻量突破260萬;2016年4月總用戶數(shù)突破3億。截止目前為止,快手累計200億條短視頻庫存,每天仍有超過1500萬條視頻新增、千億條視頻曝光,早已從一個Gif生成工具蛻變成為一個日活3億、日播放量200億的短視頻社區(qū)。
當構(gòu)建起龐大的數(shù)字世界后,快手需要面對的問題是,如何在承載高峰期每秒數(shù)十萬并發(fā)調(diào)用量的同時,從上億級別的短視頻庫中,通過千億參數(shù)級別的深度模型向不同的用戶對象推送合適的內(nèi)容,即其推薦系統(tǒng)的加速問題。
為此,快手基于異構(gòu)設(shè)備構(gòu)建了計算與存儲分離的推薦系統(tǒng)架構(gòu)。在該架構(gòu)的內(nèi)部,主要由兩部分任務(wù)組成,一部分是包括推薦服務(wù)、預(yù)估服務(wù)、召回服務(wù)在內(nèi)的計算敏感性服務(wù),另一部分是包括用戶畫像、參數(shù)服務(wù)器以及分布式服務(wù)器索引的存儲敏感性服務(wù),這些模塊需要實現(xiàn)大容量內(nèi)存的數(shù)據(jù)存儲及快速的數(shù)據(jù)訪問。
提升訓(xùn)練速度的英特爾Cooper Lake
實際上,推薦系統(tǒng)加速的本質(zhì),一方面是人工智能應(yīng)用的升級,機器需要對圖片、視頻等信息進行學(xué)習(xí)和分類;另一方面,則是對存儲和訪問的進一步需求。
今年6月,英特爾推出的第三代至強可擴展處理器Cooper Lake就是專為當今內(nèi)置人工智能數(shù)據(jù)密集型服務(wù)而設(shè)計的處理器。雷鋒網(wǎng)了解到,英特爾第三代可擴展處理器進一步升級了DLBoost深度學(xué)習(xí)加速技術(shù),同時,在深度學(xué)習(xí)加速架構(gòu)下的VNNI神經(jīng)網(wǎng)絡(luò)指令支持bfloat16數(shù)據(jù)格式。與上一代平臺Cascade Lake最頂級的CPU 8280相比,在圖像分類處理上,Cooper Lake的計算性能提升1.93倍。
在對人工智能的支持上,區(qū)別于第二代至強可擴展處理器支持的Int8數(shù)據(jù)格式和傳統(tǒng)的FP32數(shù)據(jù)格式,bfloat16數(shù)據(jù)格式是采用16位存取一個數(shù)據(jù),包括1個符號位,8個指數(shù)和7個尾數(shù)位,同時保證了數(shù)據(jù)的范圍和精度。
雷鋒網(wǎng)了解到,雖然bfloat16的精度沒有FP32的精度高,但是7位尾數(shù)對于大多數(shù)人工智能的推理計算模型而言,精度已足夠使用。英特爾技術(shù)人員透露,相比于上一代基于FP32數(shù)據(jù)格式做訓(xùn)練,VNNI搭配bfloat16能使訓(xùn)練性能提高93%,推理性能提高90%。
Cooper Lake或?qū)⑹强焓旨铀偻扑]系統(tǒng)的好選擇。
依托傲騰持久內(nèi)存,加速存儲與訪問
更好地存儲與訪問,是快手在加速推薦系統(tǒng)過程中,需要面臨的另一個問題。
在傳統(tǒng)的存儲架構(gòu)中,大容量持久化存儲主要在硬盤或者固態(tài)盤中,對于快手的推薦系統(tǒng)而言,尤其是參數(shù)服務(wù)器和分布式索引服務(wù),從硬盤或固態(tài)盤中索引數(shù)據(jù),工作量大,時延長。若將索引工作直接在內(nèi)存中進行,就會降低訪問延時,提高推薦系統(tǒng)的響應(yīng)。
不過,在內(nèi)存存儲金字塔中,金字塔頂端的存儲方案,性能高,存儲低,單位容量成本高,金字塔低端則是容量大、性能低,成本低的存儲方案,存在斷層現(xiàn)象,比如常規(guī)的DDR4的內(nèi)存和NAND的閃存,訪問的延遲相差1000倍,典型的容量相差100倍,而單位容量的成本相差10倍。這一斷層現(xiàn)象導(dǎo)致很多應(yīng)用在選擇方案時,難以找到比較平衡的設(shè)計。
基于這一難題,英特爾推出了傲騰持久內(nèi)存,與上一代產(chǎn)品相比,其內(nèi)存帶寬提升25%,若搭配之后發(fā)布Ice Lake的平臺,每處理器可帶來4.5TB的總內(nèi)存容量。同時,在做數(shù)據(jù)寫入時,其訪問延遲只有幾百納秒,而一個普通的NAND SSD的訪問時間則在100微秒左右。
英特爾技術(shù)專家介紹,英特爾第三代至強可擴展平臺與傲騰持久內(nèi)存結(jié)合,可將服務(wù)器上每個節(jié)點的容量從原來的幾百GB擴展至TB級別,例如一個4路、4個插槽的第三代至強可擴展處理器平臺,每個插槽都搭配傲騰持久內(nèi)存,支持的最大內(nèi)存就可達到18T。
基于此,快手率先與英特爾展開合作,結(jié)合英特爾至強可擴展處理器平臺和傲騰持久內(nèi)存,快手推薦系統(tǒng)性能及TCO得到了優(yōu)化和提升。不僅大大降低了數(shù)據(jù)訪問延遲時間,還縮短了系統(tǒng)故障恢復(fù)時長。
同時,傲騰持久內(nèi)存與DRAM內(nèi)存性能表現(xiàn)相似,前者相比于后者更具成本和容量優(yōu)勢。因此在同英特爾的合作中,快手推薦系統(tǒng)的總擁有成本(CTO)降低了30%。
除了在推薦系統(tǒng)方面同英特爾合作,改善存儲與訪問速度之外,快手也正在同英特爾探討成立聯(lián)合實驗室,推動業(yè)務(wù)創(chuàng)新及升級數(shù)據(jù)中心。
作為推薦系統(tǒng)的受益者,快手或?qū)⒃谶M一步加速生態(tài)系統(tǒng)的過程中再次嘗到甜頭。
[1] 王喆,《深度學(xué)習(xí)推薦系統(tǒng)》,電子工業(yè)出版社
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
顛覆性變革!青松智慧攜手英特爾AI百佳創(chuàng)新激勵計劃引領(lǐng)網(wǎng)絡(luò)安全AI時代
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。