0
“天空為什么是藍的?螢火蟲為什么可以發(fā)光?為什么雙眼總是一起轉動?”面對小朋友的十萬個為什么,父母、老師總會借助儲備的知識,或者查閱書籍解答疑問。
但隨著內容的爆發(fā)性增長,想要得到一個問題精準的答案難度越來越大。
早年使用網上購物平臺的用戶,需要一步步根據商品的分類搜索,才能在海量的商品中找到適合自己的商品。
2022年的雙十一,普通的消費者不僅可以輕輕松松就篩選出自己想要的商品,還會收到非常符合自己喜好的商品、直播的推薦。
這背后隱藏了推薦系統(tǒng)的變遷,在小朋友問父母問題的場景里,父母其實就充當?shù)氖切∨笥训耐扑]系統(tǒng),但普通人的知識儲備畢竟有限?;ヂ?lián)網時代,有了搜索引擎,但還不足夠。
再后來,AI技術的興起,幫助了推薦系統(tǒng)大步前進,無論是購物平臺的商品推薦,直播平臺的主播推薦,還是視頻平臺的視頻內容推薦,越來越多的人開始感嘆,AI更懂自己。
AI推薦系統(tǒng),也默默成為了互聯(lián)網公司業(yè)務中重要的組成部分。數(shù)據顯示,在一些全球大型在線網站上,即使推薦內容的相關性僅提高 1%,其銷量也會增加數(shù)十億,AI推薦系統(tǒng)無疑是藏在眾多互聯(lián)網應用背后的高價值系統(tǒng)。
不過,高價值的AI推薦系統(tǒng)目前還有被少數(shù)公司負擔得起,如何才能實現(xiàn)AI推薦系統(tǒng)的普及?我們又合適才能擁有完美的AI推薦系統(tǒng)呢?
推薦系統(tǒng)背后的算力演進
推薦系統(tǒng)并不新鮮,互聯(lián)網公司們?yōu)榱四軌蛱嵘龢I(yè)績和客戶滿意度,十多年前就開始了推薦系統(tǒng)的研究與應用,早年間他們采用傳統(tǒng)的方法,比如協(xié)同過濾等,CPU也足以滿足那時推薦系統(tǒng)的需求。
但隨著推薦系統(tǒng)應用需求和算法的演進,系統(tǒng)越來越復雜,需要更加強大的底層算力作為支撐,推薦系統(tǒng)的開發(fā)者發(fā)現(xiàn)一個問題,通信節(jié)點間的性能遇到了瓶頸。也就是說,在服務器達到一定的規(guī)模之后,繼續(xù)增加服務器的數(shù)量已經很難提升推薦系統(tǒng)的效果。
這就促使推薦系統(tǒng)的推動者們尋找更強大且更合適的算力支撐。當然,這個過程中還有一個重要的推動力——AI。在推薦系統(tǒng)中引入AI之后,能夠增加推薦系統(tǒng)的效果,但與此同時也讓推薦系統(tǒng)變得越來越復雜。
一個典型的推薦系統(tǒng),包含了召回、過濾等過程,AI的引入,需要使用越來越多的數(shù)據進行訓練,以達到預期的效果。
“推薦系統(tǒng)中引入深度學習之后,大家還是會習慣性先用CPU,但后來發(fā)現(xiàn)在深度學習的算法里多加幾層神經網絡可能就算不動了。”NVIDIA亞太區(qū)開發(fā)與技術部總經理李曦鵬在2022云棲大會期間對雷峰網說,“GPU此時有明顯的優(yōu)勢,GPU的算力遠高于CPU,同時GPU的帶寬比CPU高非常多,我們的Hopper架構GPU的帶寬已經達到3TB / s。”
但要加速推薦系統(tǒng),不止是從CPU遷移到GPU這么簡單。
GPU如何加速AI推薦系統(tǒng)?
推薦系統(tǒng)中AI的引入,讓推薦系統(tǒng)變得更加復雜的同時,對算力的需求也呈現(xiàn)出指數(shù)級的上升。
在推薦系統(tǒng)中,有大量的嵌入表(Embedding),包含各種推薦系統(tǒng)所需的特征,比如性別、年齡等等,嵌入表被用于將輸入數(shù)據中的離散特征映射到向量,以便下游的神經網絡進行處理,大小可以達到TB級。嵌入表通常是內存帶寬和容量密集型,對于計算的需求不大,需要很大的內容容量和帶寬進行快速讀取,這對于CPU而言是一個明顯的挑戰(zhàn)。
此時,采用GPU有兩個顯著的優(yōu)勢,李曦鵬說:“一個是GPU的內存帶寬遠高于普通服務器,另一個是遷移之后將原來節(jié)點上的通信從原來CPU和GPU的PCIe通信,變成了GPU和GPU之間的NVLink通信,速度提升幾倍?!?/p>
接下來,就需要用AI模型進行計算,此時可能是計算密集也可能是內存帶寬密集。更麻煩的是,由于模型越來越大,超出了GPU板載的存儲容量,沒辦法存儲完整的模型,需要把它分塊,嵌入表就需要做模型并行,而DNN部分需要數(shù)據并行。在這個過程中,從模型并行到數(shù)據并行,需要做非常多數(shù)據交換,成了大量計算節(jié)點間密集的通信。
“推薦系統(tǒng)需要的不僅僅是GPU,而是加速計算?!?strong>李曦鵬指出,“加速計算不是一個簡單的芯片或者硬件,而是一個包含硬件、軟件以及上層應用的一整套解決方案?!?/strong>
比如英偉達為推薦系統(tǒng)推出的NVIDIA Merlin。在預處理方面,NVIDIA Merlin NVTabular可以實現(xiàn)加速。
針對嵌入表,Merlin Distributed-Embeddings可以方便TensorFlow 2 用戶用短短幾行代碼輕松完成大規(guī)模的推薦模型訓練。并且,NVIDIA Merlin Distributed-Embeddings 的性能表現(xiàn)也十分突出,DGX-A100上的Merlin Distributed-Embeddings 方案比僅使用 CPU 的解決方案實現(xiàn)了驚人的683倍加速。
NVIDIA Merlin還有HugeCTR的開源框架,目標是優(yōu)化 NVIDIA GPU 上的大規(guī)模推薦。
也就是說,NVIDIA Merlin是一個針對推薦系統(tǒng),近似于一個端到端的解決方案。
即便如此,推薦系統(tǒng)的普及依舊面臨著巨大的挑戰(zhàn)。
普及推薦系統(tǒng)的兩大挑戰(zhàn)
推薦系統(tǒng)作為高價值的AI系統(tǒng),普及面臨的兩大挑戰(zhàn)就是差異化以及高門檻。
“我們充分理解,由于業(yè)務的不同于推薦系統(tǒng)有很大的差異,我們會盡量把NVIDIA Merlin的功能進行模塊化,客戶可以根據需求選擇不同的模塊,使用的模塊越多,效果也會更好?!崩铌伫i說,“我們通過Merlin的模塊化解決問題的同時,也通過和像阿里云這樣的云計算服務商合作推動推薦系統(tǒng)的普及。”
不同的推薦系統(tǒng)使用的算法并不相同,雖然如今AI大模型的應用越來越廣泛,并且大模型在美國人工智能學術界將其稱為基礎模型(Foundation Model),但這并不意味著所有推薦系統(tǒng)都需要使用大模型。
李曦鵬的觀點是,大模型提供一個更大的嘗試空間,其表征能力也更強,所以主流公司的模型越來越大,但主流公司也會有一些小的業(yè)務,或許也會有一些小的模型。如今主流的公司已經過渡到了GPU方案,比較重點的業(yè)務是全GPU的解決方案。所以,在算法上,即便主流公司也有階梯。
“先進模型對于中小企業(yè)來說收益可能沒那么大,因為他們的業(yè)務體量沒那么大,而通過云計算的方式,以及GPU的解決方案,可以幫他們降低門檻和成本?!崩铌伫i進一步表示。
差異化需求之外,推薦系統(tǒng)普及的另一大挑戰(zhàn)就是高門檻。
“互聯(lián)網巨頭有成百上千人的團隊在做推薦系統(tǒng),中小企業(yè)很難投入這么多。但通過我們和阿里云這樣有能力的云服務提供商合作,給中小公司開放一些更高級的API,有一些預定義的模型能夠實現(xiàn)不錯的推薦系統(tǒng),投入一兩個數(shù)據科學家,這將有利于推薦系統(tǒng)的普及。”李曦鵬說。
推薦系統(tǒng)的普及,將能夠代表加速計算巨大的想象空間。
10年100倍,加速計算價值千億的巨大空間
過去幾十年間,得益于摩爾定律,算力在持續(xù)增長。但如今摩爾定律已經放緩,從最初每年1.5倍性能的提升,下降到如今每年1.1-1.2倍的提升。摩爾定律帶來的算力提升已經難以滿足包括推薦系統(tǒng)在內應用對算力指數(shù)級的性能增長需求。
“接下來的十年,所有的計算任務都將被加速。我們已經加速了世界上5%的計算任務——價值百億美金。加速計算會降低計算任務的成本,提高能源利用率,給工業(yè)界帶來更多的能力做更多的事情?!庇ミ_CEO黃仁勛在今年十月時表示。
僅看推薦系統(tǒng),Mordor Intelligence 發(fā)布的數(shù)據指出,推薦系統(tǒng)整體市場將從2020 年僅為 21.2 億美元提升至2026年的 151.3 億美元。加速計算顯然具有數(shù)千億的市場空間,但要加速如此之大的市場,需要性能的持續(xù)提升。
加速計算的目標是保持每年1.6-1.7倍的性能增長,5年可以實現(xiàn)10倍的性能提升,10年就可以實現(xiàn)100倍的提升,這與摩爾定律10年可以實現(xiàn)的4倍性能提升形成了顯著的差異。
前面已經提到,加速計算不止是從硬件的層面實現(xiàn)性能的提升,更加強調從硬件到軟件再到應用的加速,實現(xiàn)性能的飛躍。
實際上,加速計算的價值已經在AI應用中體現(xiàn)出來,以前訓練一個AI模型,周期以周來計算,調整模型訓練至少又得等一周,而現(xiàn)在,即便模型越來越大,訓練一個模型的時間也只需要幾分鐘了。
“幾年前難以訓練的大模型,早已成為了過去式。更多更大規(guī)模的工作負載等著去加速。”李曦鵬對于加速計算能夠實現(xiàn)目標也十分有信心。雷峰網(公眾號:雷峰網)
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。