丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給任然
發(fā)送

0

Facebook發(fā)布三套AI硬件系統(tǒng),并順手宣布將其開源

本文作者: 任然 2019-03-15 18:42
導(dǎo)語:巨頭的胸懷

Facebook發(fā)布三套AI硬件系統(tǒng),并順手宣布將其開源

雷鋒網(wǎng)消息,昨日,F(xiàn)acebook在其代碼官網(wǎng)code.fb.com上發(fā)布消息,發(fā)布了其用于AI訓(xùn)練的下一代硬件平臺Zion、針對AI推理的新定制芯片設(shè)計Kings Canyon以及用于視頻轉(zhuǎn)碼的Mount Shasta。

消息稱,F(xiàn)acebook的基礎(chǔ)架構(gòu)每個月都在為其整個應(yīng)用和服務(wù)系統(tǒng)上的超過27億人提供服務(wù)。工程師們設(shè)計并創(chuàng)建了高效的系統(tǒng)來擴(kuò)展這一基礎(chǔ)設(shè)施,但是隨著工作負(fù)載的增長,只靠通用處理器已經(jīng)無法滿足這些系統(tǒng)的需求。

為基礎(chǔ)架構(gòu)創(chuàng)建高效的解決方案需要通過協(xié)同設(shè)計工作創(chuàng)建的工作負(fù)載優(yōu)化硬件。為此,F(xiàn)acebook一直與合作伙伴共同開發(fā)針對AI推理、AI訓(xùn)練和視頻轉(zhuǎn)碼的解決方案。晶體管增長的速度已大大放緩,這就需要開發(fā)專門的加速器和整體系統(tǒng)級的解決方案來提高性能、功率和效率。

AI硬件

整個Facebook的基礎(chǔ)架構(gòu)都使用了AI工作負(fù)載,這讓其服務(wù)更具相關(guān)性,并改善用戶服務(wù)時的體驗(yàn)。幫助人們進(jìn)行日?;?,并為其提供獨(dú)特的個性化服務(wù)。通過大規(guī)模部署AI模型,F(xiàn)acebook每天可以提供200萬億次推測以及超過60億次語言翻譯。Facebook使用超過35億張公開圖像來構(gòu)建和訓(xùn)練其AI模型,讓它們更好的識別和標(biāo)記內(nèi)容。

Facebook上的大部分AI流程均通過FBLeaner平臺進(jìn)行管理,該平臺包含處理各部分問題的工具,如功能存儲、培訓(xùn)工作流管理以及推理引擎。通過與開放計算項(xiàng)目(OCP,Open Compute Project)發(fā)布的Facebook設(shè)計硬件配合使用,使其能高效的大規(guī)模部署模型。從一個穩(wěn)定的基礎(chǔ)開始,F(xiàn)acebook專注于創(chuàng)建與供應(yīng)商無關(guān)的統(tǒng)一硬件設(shè)計,并繼續(xù)堅(jiān)持分解設(shè)計原則以實(shí)現(xiàn)工作效率最大化,最終推出了用于工作負(fù)載訓(xùn)練和推理的下一代硬件。

AI訓(xùn)練系統(tǒng)Zion

Zion是Facebook的下一代大存儲統(tǒng)一訓(xùn)練平臺,設(shè)計上能夠高效處理包括CNN、LSTM和SparseNN在內(nèi)的一系列神經(jīng)網(wǎng)絡(luò)。Zion平臺能夠?yàn)殛P(guān)鍵工作負(fù)載提供高容量高帶寬的存儲、靈活且高速的互連,以及強(qiáng)大的計算能力。

Zion采用了Facebook全新的OAM模塊(OCP Accelerator Module),AMD、Haban、GraphCore和NVIDIA等Facebook合作伙伴可以在OCP通用規(guī)范上開發(fā)自己的解決方案。Zion的體系結(jié)構(gòu)支持使用架頂式交換機(jī)從每個單獨(dú)的平臺擴(kuò)展到單個機(jī)架中的多個服務(wù)器。隨著Facebook AI訓(xùn)練的規(guī)模和復(fù)雜性不斷增長,Zion平臺也可以隨之?dāng)U展。

Zion系統(tǒng)分為三個部分:

  • 8插槽服務(wù)器

  • 8加速器平臺

  • OCP加速器模塊

Facebook發(fā)布三套AI硬件系統(tǒng),并順手宣布將其開源

Facebook發(fā)布三套AI硬件系統(tǒng),并順手宣布將其開源

Zion將系統(tǒng)的內(nèi)存、計算和網(wǎng)絡(luò)密集型組件解耦,允許每個組件獨(dú)立擴(kuò)展。系統(tǒng)為嵌入SparseNN表等內(nèi)存容量密集型組件提供了8x NUMA CPU接口和大容量DDR內(nèi)存池。而對CNN或者SparseNN密集部分這樣的內(nèi)存帶寬密集型和計算密集型工作負(fù)載,每個CPU接口都連接了OCP加速模塊。

Zion系統(tǒng)有兩個高速結(jié)構(gòu):連接所有CPU的連貫結(jié)構(gòu)和連接所有加速器的結(jié)構(gòu)。鑒于加速器存儲帶寬高但存儲容量低,F(xiàn)acebook希望通過對模型進(jìn)行分區(qū)來有效地使用可用的聚合內(nèi)存容量,使得更頻繁訪問的數(shù)據(jù)駐留在加速器上,而訪問頻率較低的數(shù)據(jù)駐留在帶CPU的DDR內(nèi)存。所有CPU和加速器之間的計算和通信都是平衡的,并且通過高速和低速相連有效地進(jìn)行。

通過Kings Canyon執(zhí)行推理

在訓(xùn)練完模型之后,就需要將其部署到生產(chǎn)環(huán)境中,從而處理AI流程的數(shù)據(jù),并響應(yīng)用戶的請求,這就是所謂的推理。推理的工作負(fù)載正急劇增加,這反映了訓(xùn)練工作的大量增加,目前使用的標(biāo)準(zhǔn)CPU服務(wù)器已無法很好的擴(kuò)展規(guī)模以滿足需求。

Facebook正與Esperanto、Intel、Marvell和Qualcomm等多個合作伙伴合作,開發(fā)可在基礎(chǔ)架構(gòu)上部署和擴(kuò)展的推理ASIC芯片。這些芯片將為工作負(fù)載提供INT8半精度的運(yùn)算,從而獲得理想的性能,同時也支持FP16單精度的運(yùn)算,從而實(shí)現(xiàn)更高的精度。

整個推理服務(wù)器解決方案分為四個不同的部分,它們利用了已經(jīng)發(fā)布到OCP的現(xiàn)有構(gòu)建塊。利用現(xiàn)有組件可以加快開發(fā)進(jìn)度,并通過通用性降低風(fēng)險。該設(shè)計的四個主要組成部分為:

  • Kings Canyon推理M.2模塊

  • Twin Lakes單插槽(single-socket)服務(wù)器

  • Glacier Point v2載卡(carrier card)

  • Yosemite v2機(jī)架

Facebook發(fā)布三套AI硬件系統(tǒng),并順手宣布將其開源

Facebook發(fā)布三套AI硬件系統(tǒng),并順手宣布將其開源

在系統(tǒng)級別,每個服務(wù)器均由M.2 Kings Canyon加速器和連接到Twin Lakes服務(wù)器的Glacier Point v2載卡組成。將兩組組件安裝到更新的Yosemite v2機(jī)架中,并通過多主機(jī)NIC連接到架頂式交換機(jī)。更新后的Yosemite sled是目前Yosemite v2 sled的迭代升級,它將Twin Lakes主機(jī)的其他PCI-E通道連接到NIC,以獲得更高的網(wǎng)絡(luò)帶寬。每個Kings Canyon模塊都包含ASIC、相關(guān)內(nèi)存和其它支持組件,其中CPU主機(jī)通過PCI-E通道與加速器模塊通信。Glacier Point v2包括一個集成的PCI-E交換機(jī),允許服務(wù)器同時訪問所有模塊。

深度學(xué)習(xí)模型是儲存密集型負(fù)載,如SparseNN模型具有非常大的嵌入表征表,它會占用好幾GB的存儲空間,并且還可能會持續(xù)增長。這樣的大模型可能不適合加載到單獨(dú)設(shè)備的內(nèi)存中,不論是CPU還是加速器都不行,這就要求在多個設(shè)備內(nèi)存上進(jìn)行模型分割(model partitioning)。當(dāng)數(shù)據(jù)位于另一個設(shè)備的內(nèi)存中時,分割將產(chǎn)生很多通信成本,好的分割算法會應(yīng)用捕獲局部的概念,從而降低通信成本。

在進(jìn)行合適的模型分割后,就可以運(yùn)行如SparseNN模型這樣大規(guī)模的深度學(xué)習(xí)模型。如果單節(jié)點(diǎn)的內(nèi)存能力不足以支持給定的模型,可以在兩個節(jié)點(diǎn)之間進(jìn)一步分割模型,從而增加模型可用的內(nèi)存量。這兩個節(jié)點(diǎn)可以通過多主機(jī)NIC連接,并支持高速信息處理。這將增加整體的通信成本,可以利用跨多個嵌入表存在訪問差異的特性,相應(yīng)地對表進(jìn)行排序而降低通信延遲。

神經(jīng)網(wǎng)絡(luò)硬件加速器編譯器

ASIC不運(yùn)行通用代碼,它們需要專門的編譯器將圖形轉(zhuǎn)換為可以在這些加速器上執(zhí)行的指令。Glow編譯器的目標(biāo)是將供應(yīng)商的特定硬件從更高級的軟件堆棧中抽象出來,使基礎(chǔ)設(shè)施不受供應(yīng)商限制。它接受來自PyTorch 1.0等框架的計算圖,并為這些機(jī)器學(xué)習(xí)加速器生成高度優(yōu)化的代碼。

Facebook發(fā)布三套AI硬件系統(tǒng),并順手宣布將其開源

使用Mount Shasta進(jìn)行視頻轉(zhuǎn)碼

自2016年以來,F(xiàn)acebook Live直播的平均數(shù)量每年翻一番。自2018年8月在全球推出以來,F(xiàn)acebook Watch的月瀏覽量已經(jīng)超過4億,每天有7500萬人使用。為了優(yōu)化所有這些視頻,使其能適應(yīng)多種網(wǎng)絡(luò)環(huán)境,F(xiàn)acebook劃分了多種不同分辨率和比特率的輸出質(zhì)量,這個過程稱為視頻轉(zhuǎn)碼。

完成轉(zhuǎn)碼所需要的計算是高度密集型的,通用處理器的效率已無法滿足日益增長的視頻需要。為了走在需求的前面,F(xiàn)acebook與博通和芯原微電子合作,設(shè)計了針對轉(zhuǎn)碼工作負(fù)載進(jìn)行優(yōu)化的定制ASIC。

視頻轉(zhuǎn)碼流程被分解為許多不同的步驟,為了提高效率,F(xiàn)acebook與供應(yīng)商為轉(zhuǎn)碼流程的每個階段均創(chuàng)建了定制ASIC模塊。專用硬件來完成這些工作負(fù)載可以使該過程更加高效,并可支持實(shí)時4K 60fps流媒體等新功能。單個視頻編解碼器是標(biāo)準(zhǔn)化的,且不會經(jīng)常修改,因此在這種情況下,定制芯片缺乏靈活性的特征并不是一個顯著的缺點(diǎn)。

視頻轉(zhuǎn)碼的第一個階段稱為解碼,在解碼過程中,上傳的文件被解壓,以獲得由一系列圖像表示的原始視頻數(shù)據(jù)。隨后對這些未壓縮的圖像進(jìn)行操作,以更改它們的分辨率,而后再次使用優(yōu)化設(shè)置進(jìn)行編碼,將它們重新壓縮到視頻流中,并將輸出視頻與原始視頻進(jìn)行比較,計算質(zhì)量指標(biāo)。

所有的視頻都采取這種做法,以確保所用的編碼設(shè)置可以輸出高質(zhì)量的視頻。視頻編碼和解碼使用的標(biāo)準(zhǔn)稱為視頻編碼方式,H.264、VP9和AV1都是目前使用的主流編碼協(xié)議。

在ASIC上,除了每個軟件算法都被芯片內(nèi)的專用模塊所取代外,其他步驟都是相同的,F(xiàn)acebook希望視頻加速器可支持多種分辨率和多種編碼格式,并實(shí)現(xiàn)比目前服務(wù)器高出許多倍效率,目標(biāo)是10W功耗內(nèi)至少處理2個4K 60fps的并行輸入流。

視頻轉(zhuǎn)碼ASIC通常有以下主要邏輯塊:

  • 解碼器:接收上傳的視頻,輸出解壓縮的原始視頻流

  • 縮放器(Scaler):更改視頻分辨率

  • 編碼器:輸出壓縮(編碼)視頻

  • 質(zhì)量檢測:計算編碼后的視頻質(zhì)量

  • PHY:芯片與外界的接口,連接到服務(wù)器的PCI-E和內(nèi)存通道

  • 控制器:運(yùn)行固件并協(xié)調(diào)轉(zhuǎn)碼流程的通用塊

Facebook發(fā)布三套AI硬件系統(tǒng),并順手宣布將其開源

與推理一樣,F(xiàn)acebook利用現(xiàn)有的OCP構(gòu)建塊在數(shù)據(jù)中心內(nèi)部署這些視頻轉(zhuǎn)碼ASIC。加速器將安裝在集成了散熱器的M.2模塊上,這種常見的電氣外形在不同硬件平臺上均可以通用。模塊被安裝在Glacier Point v2(GPv2)載卡上,該載卡具有和Twin Lakes服務(wù)器一樣的物理外形,可容納多個M.2模塊,可適配 Yosemite v2機(jī)架,并在其中與Twin Lakes服務(wù)器配對。

由于視頻轉(zhuǎn)碼ASIC要求功耗低且體積小,因此Facebook希望通過將盡可能多的芯片與單個服務(wù)器相連接來節(jié)約成本。高密度的GPv2可實(shí)現(xiàn)這一目標(biāo),同時還可提供足夠的冷卻能力以承受數(shù)據(jù)中心的工作溫度。

完成軟件集成工作后,F(xiàn)acebook可將視頻轉(zhuǎn)碼工作負(fù)載平衡分布到不同數(shù)據(jù)中心位置的異構(gòu)硬件上。為了在與各種機(jī)器學(xué)習(xí)和視頻空間供應(yīng)商的合作過程中擴(kuò)大規(guī)模,他們還努力確保軟件以開放的形式開發(fā),并推廣和采用通用的界面和框架。

Facebook在文中表示,公司將迎來激動人心的未來,希望Zion、Kings Canyon和Mount Shasta能購分別解決在AI訓(xùn)練、AI推理和視頻轉(zhuǎn)碼方面不斷增長的工作量。Facebook將通過OCP公開提供所有設(shè)計和規(guī)格,歡迎其他公司的加入以加速基礎(chǔ)架構(gòu)建設(shè)的進(jìn)程,并通過硬件和軟件協(xié)同設(shè)計繼續(xù)努力改進(jìn)這些系統(tǒng)。

雷鋒網(wǎng)雷鋒網(wǎng)

原文鏈接:Accelerating Facebook's infrastructure with application-specific hardware

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:

編輯

觀點(diǎn)離經(jīng)叛道的骨灰級硬件愛好者
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說