0
雷鋒網(wǎng) AI 科技評論按:作為社交網(wǎng)絡(luò)巨頭,F(xiàn)acebook 的一系列應(yīng)用和服務(wù)每月服務(wù)的用戶多達(dá) 27 億。隨著近幾年的 AI 熱潮席卷而來,F(xiàn)acebook 也開始把數(shù)據(jù)中心中的許多通用計算硬件逐漸切換為了性能、功耗、效率更好的專用硬件。
昨天(美國時間 3 月 14 日),F(xiàn)acebook 公開介紹了自己的「下一代」AI 模型訓(xùn)練硬件平臺 Zion,一并也介紹了針對另外兩類計算的定制化 ASIC(應(yīng)用專用集成電路)芯片:用于 AI 推理的 Kings Canyon,以及用于視頻轉(zhuǎn)碼的 Mount Shasta 。這些新設(shè)計主要針對 AI 推理、AI 訓(xùn)練、視頻轉(zhuǎn)碼三類計算。這些計算不僅負(fù)荷重、切換為專用硬件的提升明顯,而且也是 Facebook 中快速擴(kuò)大的服務(wù)類型。
Facebook 早就開始大規(guī)模部署 AI 模型用于業(yè)務(wù)中的計算,這些模型每天要進(jìn)行超過一百萬億次預(yù)測以及超過六十億次語言翻譯。Facebook 用來識別、分類內(nèi)容的圖像識別模型也使用了超過 35 億張圖像訓(xùn)練。各種使用了 AI 的服務(wù)幫助用戶更好地進(jìn)行日常溝通,也為他們提供了獨特、個性化的使用感受。
Facebook 自研的 AI 平臺 FBLearner 管理了 Facebook 目前的大多數(shù) AI 模型流水線。FBLearner 中包含了特征存儲、訓(xùn)練過程管理、推理引擎管理等對應(yīng)問題不同部分的工具。另外,F(xiàn)acebook 也基于「開放計算計劃」(OCP)設(shè)計了自己的硬件,這些硬件和 FBLearner 配合使用,能夠讓 Facebook 的開發(fā)人員們快速大批量地部署模型。
在解決了當(dāng)前緊迫的計算規(guī)模問題之后,F(xiàn)acebook 繼續(xù)集中精力研發(fā),最終目標(biāo)是創(chuàng)建一種面向未來的、牢靠的硬件設(shè)計,它不僅要對供應(yīng)商是透明的,同時也要能持續(xù)體現(xiàn) Facebook 的最大化運(yùn)行效率的離散化設(shè)計理念。Facebook 的答卷就是他們的下一代訓(xùn)練、推理硬件平臺。雷鋒網(wǎng) AI 科技評論簡單介紹如下。
Zion 是 Facebook 的下一代大容量統(tǒng)一訓(xùn)練平臺,目標(biāo)是高效地承擔(dān)未來的更大計算負(fù)載。Zion 在設(shè)計時就考慮了如何高效地處理 CNN、LSTM、稀疏神經(jīng)網(wǎng)絡(luò)等多種不同的神經(jīng)網(wǎng)絡(luò)模型。Zion 平臺可以提供高內(nèi)存容量、高帶寬、靈活的高速內(nèi)部連接,為 Facebook 內(nèi)部的關(guān)鍵工作負(fù)載提供強(qiáng)大的計算能力。
Zion 的設(shè)計采用了 Facebook 新的供應(yīng)商透明的 OCP 加速模型(OAM)。OAM 的作用在于,F(xiàn)acebook 從 AMD、Habana、Graphcore、英特爾、英偉達(dá)等許多不同的硬件供應(yīng)商處購買硬件,只要他們在開放計算計劃(OCP)的公開標(biāo)準(zhǔn)基礎(chǔ)上開發(fā)硬件,不僅可以幫助他們更快地創(chuàng)新,也可以讓 Facebook 自由地在同一個機(jī)架上的不同的硬件平臺、不同的服務(wù)器之間拓展,只需要通過一個機(jī)柜網(wǎng)絡(luò)交換機(jī)。即便 Facebook 的 AI 訓(xùn)練負(fù)載不斷增加、不斷變得更加復(fù)雜,Zion 平臺也可以拓展并處理。
具體來說,F(xiàn)acebook 的 Zion 系統(tǒng)可以分為三個部分:八路 CPU 服務(wù)器、OCP 加速模塊、以及可以安裝八個 OCP 加速模塊的平臺主板。
Zion 平臺的設(shè)計得以把系統(tǒng)中的內(nèi)存、計算、網(wǎng)絡(luò)部件進(jìn)行解耦,然后每一項都可以獨立地進(jìn)行拓展。系統(tǒng)中的八路 CPU 平臺可以提供超大的 DDR 內(nèi)存池,服務(wù)于對內(nèi)存容量有很高要求的工作負(fù)載,比如稀疏神經(jīng)網(wǎng)絡(luò)的嵌入表。對于 CNN 或者稀疏神經(jīng)網(wǎng)絡(luò)中較為稠密那些,它們對帶寬和計算能力更為敏感,那么它們的加速主要就是依靠連接到每個 CPU 上的 OCP 加速器模塊。
系統(tǒng)中包括兩種高速連接線:一種把所有 CPU 互相連接,另一種把所有的加速器互相連接。由于加速器具有很高的內(nèi)存帶寬和低內(nèi)存容量,F(xiàn)acebook 工程人員想了一種辦法來高效地利用總的內(nèi)存容量:把模型和內(nèi)存做一定的劃分,比較經(jīng)常訪問的數(shù)據(jù)就存儲在加速器的內(nèi)存上,不怎么經(jīng)常訪問的數(shù)據(jù)則存儲在 CPU 的 DDR 內(nèi)存中。所有 CPU 和加速器之間的計算和通訊會進(jìn)行平衡,通過高速和低速互聯(lián)線路高效地執(zhí)行。
與逐漸增加的 AI 訓(xùn)練負(fù)載相對應(yīng)地,AI 推理負(fù)載也在快速增加。在下一代設(shè)計中,F(xiàn)acebook 和 Esperanto, Habana, 英特爾, Marvell, 高通等企業(yè)合作,共同開發(fā)易于拓展和部署的專用 ASIC 芯片。Kings Canyon 芯片可以同時支持偏重推理速度的 INT8 (8 位整型)計算,以及偏重更高精度的 FP16 (半精度浮點)計算。
Kings Canyon 芯片搭載在 M.2 規(guī)格的電路板上;每個 Glacier Point v2 母板上安裝六塊 Kings Canyon 芯片;最后,兩個 Glacier Point v2 母板和兩個單路服務(wù)器一同組成一臺完整的 Yosemite 服務(wù)器。
Facebook 的視頻轉(zhuǎn)碼 ASIC 芯片 Mount Shasta 也采用了這樣的布置方式。
根據(jù) Facebook 給出的圖解和介紹,目前似乎只有 AI 訓(xùn)練平臺 Zion 已經(jīng)開始投入使用,AI 推理芯片 Kings Canyon、視頻轉(zhuǎn)碼芯片 Mount Shasta 以及相關(guān)硬件還沒有看到實物。但 Facebook 上下都對這套設(shè)計充滿了信心。未來他們將通過 OCP 公開所有的設(shè)計和相關(guān)規(guī)格,便于更廣泛的合作;Facebook 也會和目前的合作伙伴一起共同改善整套系統(tǒng)的軟硬件共同設(shè)計。
更多詳細(xì)說明可以參見 Facebook 官方介紹:https://code.fb.com/data-center-engineering/accelerating-infrastructure/,雷鋒網(wǎng) AI 科技評論報道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。