丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

本文作者: 包永剛 2020-08-03 15:30
導(dǎo)語(yǔ):在超大規(guī)模數(shù)據(jù)中心,Graphcore和英偉達(dá)將會(huì)正面競(jìng)爭(zhēng)。

2020年7月30日,MLPerf組織發(fā)布第三個(gè)版本MLPerf Training v0.7基準(zhǔn)測(cè)試(Benchmark)結(jié)果。英偉達(dá)基于5月最新發(fā)布的A100 Tensor Core GPU構(gòu)建的DGX SuperPOD系統(tǒng)在性能上打破了8個(gè)記錄,這為不少想要打造比英偉達(dá)更好GPU的AI芯片公司增加了難度。

相比而言,7月15日Graphcore發(fā)布的第二代IPU GC200更值得英偉達(dá)警惕。其中的原因,當(dāng)然不是簡(jiǎn)單因?yàn)橥瑸榕_(tái)積電7nm工藝的第二代IPU比英偉達(dá)A100 GPU晶體管密度大10%。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

而是,Graphcore的第二代IPU在多個(gè)主流模型上的表現(xiàn)優(yōu)于A100 GPU,兩者將在超大規(guī)模數(shù)據(jù)中心正面競(jìng)爭(zhēng)。未來(lái),IPU可能在一些新興的AI應(yīng)用中展現(xiàn)出更大的優(yōu)勢(shì)。

多維度對(duì)比GPU,IPU有最高100倍性能提升

目前,AI的應(yīng)用主要還是集中在計(jì)算機(jī)視覺(jué)(CV)。就CV而言,以谷歌最新發(fā)布的EfficientNet模型的Benchmarks(基準(zhǔn)測(cè)試)來(lái)看,推理性能IPU吞吐量可以達(dá)到GPU的15倍,訓(xùn)練也有7倍的性能提升。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

在ResNet的改進(jìn)模型ResNeXt-101的推理中,IPU可以帶來(lái)7倍吞吐量的提升,同時(shí)時(shí)延降低了約24倍。在ResNeXt-50模型的一個(gè)訓(xùn)練中,IPU的吞吐量比GPU提升 30%左右。

另外,在目前最流行的NLP模型BERT-Base中,進(jìn)行推理時(shí)相同時(shí)延IPU可以有2倍的吞吐量,訓(xùn)練時(shí)間減少25%到36.3小時(shí)左右,同時(shí)可以降低20%的功耗。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

在概率模型中,IPU同樣有優(yōu)勢(shì),在MCMC的一個(gè)訓(xùn)練模型中,IPU比GPU有15倍的性能提升,縮短15倍的訓(xùn)練時(shí)間。在VAE的精度訓(xùn)練模型中,可以達(dá)到4.8倍的性能提升,縮短4.8倍的訓(xùn)練時(shí)間。

還有,目前比較受關(guān)注的銷(xiāo)售預(yù)測(cè)和推薦模型。IPU在用在做銷(xiāo)售數(shù)據(jù)分析的MLP模型訓(xùn)練中相比GPU有最高6倍的性能提升,在用于推薦的Dense Autoencoder模型訓(xùn)練性能有2.5倍提升。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

如果是在IPU更擅長(zhǎng)的分組卷積內(nèi)核中,組維度越少,IPU的性能優(yōu)勢(shì)越明顯,總體而言,有4-100倍的吞吐量提升。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

IPU的三大技術(shù)突破

從IPU與GPU在當(dāng)下AI應(yīng)用的多個(gè)維度對(duì)比中,已經(jīng)可以看到IPU的優(yōu)勢(shì),這與Graphcore的計(jì)算、數(shù)據(jù)、通信三大關(guān)鍵技術(shù)突破密切相關(guān)。

Graphcore最新發(fā)布的第二代IPU Colossus Mk2 GC200算力核心從1216個(gè)提升到1472個(gè)獨(dú)立的IPU-Tiles的單元,共有8832個(gè)可以并行執(zhí)行的線程。In-Processor-Memory從上一代的300MB提升到900MB。每個(gè)IPU的Memory帶寬為47.5TB/s。

還包含了IPU-Exchange以及PCI Gen4跟主機(jī)交互的一個(gè)接口;以及IPU-Links 320GB/s的一個(gè)芯片到芯片的互聯(lián)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

計(jì)算

選用三個(gè)典型的應(yīng)用場(chǎng)景從計(jì)算層面對(duì)比第二代和第一代IPU,BERT-Large的訓(xùn)練有9.3倍性能的提升,3層BERT推理有8. 5倍的性能提升,EfficientNet-B3有7.4 倍的性能提升。第二代IPU相比第一代IPU有兩倍峰值算力的提升,在典型的CV還有NLP的模型中,第二代IPU相比第一代IPU則展現(xiàn)出了平均8倍的性能提升。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

這樣的性能提升很重要的是處理器內(nèi)部存儲(chǔ)從300MB提升到了900MB。Graphcore中國(guó)區(qū)技術(shù)應(yīng)用總負(fù)責(zé)人羅旭對(duì)雷鋒網(wǎng)表示,“我們?cè)谒懔诵牡奈⒓軜?gòu)上做了一些調(diào)整,每個(gè)IPU-Tiles的性能本身就會(huì)更強(qiáng),總體實(shí)現(xiàn)2倍的峰值性能提升。在有效算力方面,處理器內(nèi)存儲(chǔ)從300M提升到900M,可以為性能帶來(lái)較大的提升?!?/strong>

MK2 IPU增加的處理器內(nèi)存儲(chǔ)主要是用于供我們模型的激活、權(quán)重的一些存儲(chǔ)空間。因?yàn)樘幚砥鲀?nèi)存儲(chǔ)的程序所占的空間與第一代IPU基本相同,所以增加的供算法模型可用的權(quán)重和激活的有效存儲(chǔ)容量有6倍以上。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

但是,300M的處理器內(nèi)存儲(chǔ)本身就挑戰(zhàn)很大,提升到900M面臨著怎樣的挑戰(zhàn)?羅旭指出,“要讓MK2支持8000個(gè)超線程并行一起工作,并且保證其線性度和各方面性能都要好,這個(gè)是非常復(fù)雜的一個(gè)技術(shù),我們是利用BSP這一套軟件+硬件+編譯的機(jī)制,來(lái)保障性能能夠提升。軟件層面主要的挑戰(zhàn)是對(duì)新模式的支持,所以我們的軟件Poplar SDK要不斷迭代?!?/strong>

如果對(duì)比英偉達(dá)基于8個(gè)最新A100 GPU的DGX-A100,Graphcore 8個(gè)M2000組成的系統(tǒng)的FP32算力是DGX-A100的12倍,AI計(jì)算是3倍,AI存儲(chǔ)是10倍。價(jià)格上,IPU-M2000需要花費(fèi)25.96萬(wàn)美元,DGX-A100需要19.9萬(wàn)美元。Graphcore有一定的性價(jià)比優(yōu)勢(shì)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

如果從應(yīng)用的角度,在EfficientNet-B4的圖象分類(lèi)訓(xùn)練中,8個(gè)IPU-M2000(在1U的盒子里集成4個(gè)GC200 IPU)的性能等同于16個(gè)DGX-A100,這時(shí)候就能體現(xiàn)出10倍以上的價(jià)格優(yōu)勢(shì)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

數(shù)據(jù)

數(shù)據(jù)方面,Graphcore提出了IPU Exchange Memory的交換式存儲(chǔ)概念,相比英偉達(dá)當(dāng)前使用的HBM技術(shù),IPU- M2000每個(gè)IPU-Machine通過(guò)IPU-Exchange-Memory技術(shù),可以提供近100倍的帶寬以及大約10倍的容量,這對(duì)于很多復(fù)雜的AI模型算法是非常有幫助。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

計(jì)算加上數(shù)據(jù)的突破可以讓IPU在原生稀疏計(jì)算中展現(xiàn)出領(lǐng)先IPU 10-50倍的性能優(yōu)勢(shì)。在數(shù)據(jù)以及計(jì)算密集的情況下,GPU表現(xiàn)非常好,但是隨著數(shù)據(jù)稀疏性的增強(qiáng),到了數(shù)據(jù)稀疏以及動(dòng)態(tài)稀疏時(shí),IPU就有了比GPU越來(lái)越顯著的優(yōu)勢(shì)。

Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤說(shuō):“現(xiàn)在一些全球領(lǐng)先的研究,像NLP方面,大家開(kāi)始來(lái)探索一些像sparse NLP的算法模型。我們的技術(shù)對(duì)很多超大規(guī)模的AI模型非常有幫助。”

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

通信

通信也是目前數(shù)據(jù)中心大規(guī)模計(jì)算非常關(guān)鍵的問(wèn)題。為此,Graphcore專為為AI橫向擴(kuò)展設(shè)計(jì)了IPU-Fabric。IPU-Fabric可以做到2.8Tbps超低延時(shí)的結(jié)構(gòu),同時(shí)最多可以支持64000個(gè)IPU之間的橫向擴(kuò)展。

盧濤介紹,IPU-Fabric是由三種網(wǎng)絡(luò)一起組成,第一種是IPU-Link,第二種叫IPU Gateway Link,第三種是IPU over Fabric。IPU-Link是在一個(gè)機(jī)架(rack)之內(nèi)提供在IPU之間的一個(gè)通訊的接口。IPU Gateway Link提供了機(jī)架和機(jī)架之間橫向擴(kuò)展之間的網(wǎng)絡(luò)。IPU over Fabric能夠把IPU的集群和x86的集群進(jìn)行非常靈活以及低延時(shí)、高性能組合起來(lái)的網(wǎng)絡(luò)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

將計(jì)算、數(shù)據(jù)、通信的突破結(jié)合在一起,就可以用于構(gòu)建大規(guī)模可擴(kuò)展的IPU-POD系統(tǒng)。一個(gè)用于超算規(guī)模的IPU-POD的形態(tài)是一個(gè)IPU-POD64,這是IPU-POD的一個(gè)基本組件,每個(gè)IPU-POD64的機(jī)柜里面總共有64顆IPU,提供16PFlops的算力、58GB的In-Processor-Memory,總共達(dá)到了7個(gè)TB的流存儲(chǔ)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

因此,在IPU-POD中間非常重要的是把AI的計(jì)算跟邏輯的控制進(jìn)行了解耦,讓系統(tǒng)易于部署,網(wǎng)絡(luò)延時(shí)非常低,能夠支持非常大型的一個(gè)算法模型,以及非常安全的多住戶的使用。

盧濤表示,“IPU-Fabric最高支持64000個(gè)IPU-POD組成的集群,總共能提供16 EFlops FP16的算力。日本前一陣發(fā)布的超算是0.5 EFlops算力。而我們基于64000個(gè)IPU總共可以組建16個(gè)EFlops算力,這非常驚人?!?/strong>

Graphcore為什么值得英偉達(dá)關(guān)注?

“目前超大規(guī)模IPU-POD技術(shù)主要的應(yīng)用場(chǎng)景還是大規(guī)模AI訓(xùn)練,包括自然語(yǔ)言處理以及機(jī)器視覺(jué)的應(yīng)用,IPU-POD都有優(yōu)勢(shì)。”盧濤指出,“譬如說(shuō)做一個(gè)模型的訓(xùn)練, GPU的性能是1,可能一個(gè)單機(jī)有8張卡,性能比0.7高。但如果把場(chǎng)景擴(kuò)展到1000個(gè)GPU或者幾千個(gè)GPU,性能可能會(huì)下降到0.7、0.6,好一點(diǎn)可能到0.8,而超大規(guī)模的IPU-POD很重要的是要幫助大家解決大規(guī)模集群可擴(kuò)展性的問(wèn)題。

另外,從功耗的角度看,不同的場(chǎng)景會(huì)有一些差別。總體來(lái)看,單片 M2000 的整機(jī)系統(tǒng)功耗為 1.1KW,折合到每顆IPU處理器的性能功耗比 0.9TFlops/W,在同類(lèi)面向數(shù)據(jù)中心高性能AI計(jì)算的產(chǎn)品中,比A100 GPU的0.7TFlops/W,華為Ascend 910的 0.71TFlops/W的能效比都高一些。

也就是說(shuō),在大規(guī)模數(shù)據(jù)中心,Graphcore將會(huì)與英偉達(dá)進(jìn)行正面的競(jìng)爭(zhēng)。雷鋒網(wǎng)認(rèn)為,相比于來(lái)自類(lèi)GPU的競(jìng)爭(zhēng),英偉達(dá)不應(yīng)該忽視Graphcore的IPU,特別是Graphcore一直都在強(qiáng)調(diào)其是為AI而生,面向的應(yīng)用也是CPU、GPU不那么擅長(zhǎng)的AI應(yīng)用。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

這從Graphcore的軟件以及生態(tài)建設(shè)中也能看出。IPU作為一款通用處理器能夠同時(shí)支持訓(xùn)練和推理也提供統(tǒng)一的軟件平臺(tái)。最新的POPLAR SDK1.2有三個(gè)特性:第一,會(huì)與比較先進(jìn)的機(jī)器學(xué)習(xí)框架做好集成。第二,進(jìn)一步開(kāi)放低級(jí)別的API,讓開(kāi)發(fā)者針對(duì)網(wǎng)絡(luò)的性能做一些特定的調(diào)優(yōu)。第三,增加框架支持,包括對(duì)PyTorch和Keras的支持,還優(yōu)化了卷積庫(kù)和稀疏庫(kù)。

另外,通過(guò)支持全面的開(kāi)發(fā)框架的三個(gè)主流操作系統(tǒng)ubuntu、RedHat、CentOS,降低開(kāi)發(fā)者的使用難度,同時(shí)通過(guò)進(jìn)一步開(kāi)放低級(jí)別API,開(kāi)源POPLAR PopLibs源代碼。這些工作,正是想要讓開(kāi)發(fā)者利用IPU去創(chuàng)新,在新的應(yīng)用領(lǐng)域構(gòu)建IPU的競(jìng)爭(zhēng)優(yōu)勢(shì)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

更進(jìn)一步,Graphcore面向商業(yè)用戶、高校及研究機(jī)構(gòu)、個(gè)人開(kāi)發(fā)者都提供不同時(shí)長(zhǎng)的免費(fèi)IPU使用。在國(guó)內(nèi),Graphcore IPU開(kāi)發(fā)者云部署在金山云上,這里面使用了三種IPU產(chǎn)品,一種是IPU-POD64,還有浪潮的IPU服務(wù)器(NF5568M5),以及戴爾的IPU服務(wù)器(DSS8440)。

雷鋒網(wǎng)了解到,目前申請(qǐng)使用Graphcore IPU開(kāi)發(fā)者云的主要是商業(yè)用戶和高校,個(gè)人研究者比較少。

IPU開(kāi)發(fā)者云支持當(dāng)前一些最先進(jìn)和最復(fù)雜的AI算法模型的訓(xùn)練和推理。比如,高級(jí)計(jì)算機(jī)視覺(jué)類(lèi)主要以分組卷積為代表的一些機(jī)器視覺(jué)的應(yīng)用模型,像ResNeXt、EfficientNet等?;跁r(shí)序分析類(lèi)的應(yīng)用,像LSTM、GRU等大量應(yīng)用在自然語(yǔ)音應(yīng)用、廣告推薦、金融算法等方面的模型。排名和推薦類(lèi)像Deep Autoencoder,在概率模型方面,基于MCMC的一些算法交易的模型方面都有非常好的一些表現(xiàn)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

盧濤表示:“Graphcore找到了自己的賽道,我們首要思考的是IPU如何幫助客戶與合作伙伴解決他們目前使用CPU或者GPU上解決不了的問(wèn)題。從全球看,我們最快落地的應(yīng)用還是在超大規(guī)模數(shù)據(jù)中心,在金融、醫(yī)療健康領(lǐng)域進(jìn)展非常大?!?/strong>

還有一個(gè)影響IPU大規(guī)模商用非常關(guān)鍵的問(wèn)題,片內(nèi)存儲(chǔ)高達(dá)900M的第二代IPU良率的成本如何?盧濤對(duì)雷鋒網(wǎng)表示,“成本分為幾個(gè)部分,包括人員、工具、IP、流片成本。所以要考慮兩個(gè)部分。第一部分,芯片生產(chǎn)的BOM成本,這部分基本是固定的。所以,第二部分的良率就是非常重要,我們從第一代產(chǎn)品到第二代產(chǎn)品都采用分布式存儲(chǔ)架構(gòu),就會(huì)非常好地控制產(chǎn)品的良率,所以即使是900M處理器內(nèi)存儲(chǔ),也不會(huì)對(duì)成本產(chǎn)生特別大的影響。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

已經(jīng)有多家云合作伙伴的Graphcore,正在通過(guò)硬件以及軟件打造起中國(guó)創(chuàng)新社區(qū)來(lái)發(fā)展生態(tài),接下來(lái)通過(guò)與OEM、渠道合作伙伴的合作,將會(huì)如何與英偉達(dá)競(jìng)爭(zhēng)呢?

相關(guān)文章:

超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達(dá)594億個(gè)

直擊CPU、GPU弱項(xiàng)!第三類(lèi)AI處理器IPU正在崛起

為AI顛覆GPU!計(jì)算機(jī)史上迎來(lái)第三個(gè)革命性架構(gòu)IPU

打破16項(xiàng)AI性能記錄!英偉達(dá)A100 GPU要無(wú)人能敵?

超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達(dá)594億個(gè)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄