0
本文作者: 楊曉凡 | 2019-03-15 19:10 |
雷鋒網(wǎng) AI 科技評(píng)論按:作為社交網(wǎng)絡(luò)巨頭,F(xiàn)acebook 的一系列應(yīng)用和服務(wù)每月服務(wù)的用戶(hù)多達(dá) 27 億。隨著近幾年的 AI 熱潮席卷而來(lái),F(xiàn)acebook 也開(kāi)始把數(shù)據(jù)中心中的許多通用計(jì)算硬件逐漸切換為了性能、功耗、效率更好的專(zhuān)用硬件。
昨天(美國(guó)時(shí)間 3 月 14 日),F(xiàn)acebook 公開(kāi)介紹了自己的「下一代」AI 模型訓(xùn)練硬件平臺(tái) Zion,一并也介紹了針對(duì)另外兩類(lèi)計(jì)算的定制化 ASIC(應(yīng)用專(zhuān)用集成電路)芯片:用于 AI 推理的 Kings Canyon,以及用于視頻轉(zhuǎn)碼的 Mount Shasta 。這些新設(shè)計(jì)主要針對(duì) AI 推理、AI 訓(xùn)練、視頻轉(zhuǎn)碼三類(lèi)計(jì)算。這些計(jì)算不僅負(fù)荷重、切換為專(zhuān)用硬件的提升明顯,而且也是 Facebook 中快速擴(kuò)大的服務(wù)類(lèi)型。
Facebook 早就開(kāi)始大規(guī)模部署 AI 模型用于業(yè)務(wù)中的計(jì)算,這些模型每天要進(jìn)行超過(guò)一百萬(wàn)億次預(yù)測(cè)以及超過(guò)六十億次語(yǔ)言翻譯。Facebook 用來(lái)識(shí)別、分類(lèi)內(nèi)容的圖像識(shí)別模型也使用了超過(guò) 35 億張圖像訓(xùn)練。各種使用了 AI 的服務(wù)幫助用戶(hù)更好地進(jìn)行日常溝通,也為他們提供了獨(dú)特、個(gè)性化的使用感受。
Facebook 自研的 AI 平臺(tái) FBLearner 管理了 Facebook 目前的大多數(shù) AI 模型流水線。FBLearner 中包含了特征存儲(chǔ)、訓(xùn)練過(guò)程管理、推理引擎管理等對(duì)應(yīng)問(wèn)題不同部分的工具。另外,F(xiàn)acebook 也基于「開(kāi)放計(jì)算計(jì)劃」(OCP)設(shè)計(jì)了自己的硬件,這些硬件和 FBLearner 配合使用,能夠讓 Facebook 的開(kāi)發(fā)人員們快速大批量地部署模型。
在解決了當(dāng)前緊迫的計(jì)算規(guī)模問(wèn)題之后,F(xiàn)acebook 繼續(xù)集中精力研發(fā),最終目標(biāo)是創(chuàng)建一種面向未來(lái)的、牢靠的硬件設(shè)計(jì),它不僅要對(duì)供應(yīng)商是透明的,同時(shí)也要能持續(xù)體現(xiàn) Facebook 的最大化運(yùn)行效率的離散化設(shè)計(jì)理念。Facebook 的答卷就是他們的下一代訓(xùn)練、推理硬件平臺(tái)。雷鋒網(wǎng) AI 科技評(píng)論簡(jiǎn)單介紹如下。
Zion 是 Facebook 的下一代大容量統(tǒng)一訓(xùn)練平臺(tái),目標(biāo)是高效地承擔(dān)未來(lái)的更大計(jì)算負(fù)載。Zion 在設(shè)計(jì)時(shí)就考慮了如何高效地處理 CNN、LSTM、稀疏神經(jīng)網(wǎng)絡(luò)等多種不同的神經(jīng)網(wǎng)絡(luò)模型。Zion 平臺(tái)可以提供高內(nèi)存容量、高帶寬、靈活的高速內(nèi)部連接,為 Facebook 內(nèi)部的關(guān)鍵工作負(fù)載提供強(qiáng)大的計(jì)算能力。
Zion 的設(shè)計(jì)采用了 Facebook 新的供應(yīng)商透明的 OCP 加速模型(OAM)。OAM 的作用在于,F(xiàn)acebook 從 AMD、Habana、Graphcore、英特爾、英偉達(dá)等許多不同的硬件供應(yīng)商處購(gòu)買(mǎi)硬件,只要他們?cè)陂_(kāi)放計(jì)算計(jì)劃(OCP)的公開(kāi)標(biāo)準(zhǔn)基礎(chǔ)上開(kāi)發(fā)硬件,不僅可以幫助他們更快地創(chuàng)新,也可以讓 Facebook 自由地在同一個(gè)機(jī)架上的不同的硬件平臺(tái)、不同的服務(wù)器之間拓展,只需要通過(guò)一個(gè)機(jī)柜網(wǎng)絡(luò)交換機(jī)。即便 Facebook 的 AI 訓(xùn)練負(fù)載不斷增加、不斷變得更加復(fù)雜,Zion 平臺(tái)也可以拓展并處理。
具體來(lái)說(shuō),F(xiàn)acebook 的 Zion 系統(tǒng)可以分為三個(gè)部分:八路 CPU 服務(wù)器、OCP 加速模塊、以及可以安裝八個(gè) OCP 加速模塊的平臺(tái)主板。
Zion 平臺(tái)的設(shè)計(jì)得以把系統(tǒng)中的內(nèi)存、計(jì)算、網(wǎng)絡(luò)部件進(jìn)行解耦,然后每一項(xiàng)都可以獨(dú)立地進(jìn)行拓展。系統(tǒng)中的八路 CPU 平臺(tái)可以提供超大的 DDR 內(nèi)存池,服務(wù)于對(duì)內(nèi)存容量有很高要求的工作負(fù)載,比如稀疏神經(jīng)網(wǎng)絡(luò)的嵌入表。對(duì)于 CNN 或者稀疏神經(jīng)網(wǎng)絡(luò)中較為稠密那些,它們對(duì)帶寬和計(jì)算能力更為敏感,那么它們的加速主要就是依靠連接到每個(gè) CPU 上的 OCP 加速器模塊。
系統(tǒng)中包括兩種高速連接線:一種把所有 CPU 互相連接,另一種把所有的加速器互相連接。由于加速器具有很高的內(nèi)存帶寬和低內(nèi)存容量,F(xiàn)acebook 工程人員想了一種辦法來(lái)高效地利用總的內(nèi)存容量:把模型和內(nèi)存做一定的劃分,比較經(jīng)常訪問(wèn)的數(shù)據(jù)就存儲(chǔ)在加速器的內(nèi)存上,不怎么經(jīng)常訪問(wèn)的數(shù)據(jù)則存儲(chǔ)在 CPU 的 DDR 內(nèi)存中。所有 CPU 和加速器之間的計(jì)算和通訊會(huì)進(jìn)行平衡,通過(guò)高速和低速互聯(lián)線路高效地執(zhí)行。
與逐漸增加的 AI 訓(xùn)練負(fù)載相對(duì)應(yīng)地,AI 推理負(fù)載也在快速增加。在下一代設(shè)計(jì)中,F(xiàn)acebook 和 Esperanto, Habana, 英特爾, Marvell, 高通等企業(yè)合作,共同開(kāi)發(fā)易于拓展和部署的專(zhuān)用 ASIC 芯片。Kings Canyon 芯片可以同時(shí)支持偏重推理速度的 INT8 (8 位整型)計(jì)算,以及偏重更高精度的 FP16 (半精度浮點(diǎn))計(jì)算。
Kings Canyon 芯片搭載在 M.2 規(guī)格的電路板上;每個(gè) Glacier Point v2 母板上安裝六塊 Kings Canyon 芯片;最后,兩個(gè) Glacier Point v2 母板和兩個(gè)單路服務(wù)器一同組成一臺(tái)完整的 Yosemite 服務(wù)器。
Facebook 的視頻轉(zhuǎn)碼 ASIC 芯片 Mount Shasta 也采用了這樣的布置方式。
根據(jù) Facebook 給出的圖解和介紹,目前似乎只有 AI 訓(xùn)練平臺(tái) Zion 已經(jīng)開(kāi)始投入使用,AI 推理芯片 Kings Canyon、視頻轉(zhuǎn)碼芯片 Mount Shasta 以及相關(guān)硬件還沒(méi)有看到實(shí)物。但 Facebook 上下都對(duì)這套設(shè)計(jì)充滿(mǎn)了信心。未來(lái)他們將通過(guò) OCP 公開(kāi)所有的設(shè)計(jì)和相關(guān)規(guī)格,便于更廣泛的合作;Facebook 也會(huì)和目前的合作伙伴一起共同改善整套系統(tǒng)的軟硬件共同設(shè)計(jì)。
更多詳細(xì)說(shuō)明可以參見(jiàn) Facebook 官方介紹:https://code.fb.com/data-center-engineering/accelerating-infrastructure/,雷鋒網(wǎng) AI 科技評(píng)論報(bào)道
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。