丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

本文作者: 包永剛 2020-08-03 15:30
導(dǎo)語:在超大規(guī)模數(shù)據(jù)中心,Graphcore和英偉達(dá)將會正面競爭。

2020年7月30日,MLPerf組織發(fā)布第三個版本MLPerf Training v0.7基準(zhǔn)測試(Benchmark)結(jié)果。英偉達(dá)基于5月最新發(fā)布的A100 Tensor Core GPU構(gòu)建的DGX SuperPOD系統(tǒng)在性能上打破了8個記錄,這為不少想要打造比英偉達(dá)更好GPU的AI芯片公司增加了難度。

相比而言,7月15日Graphcore發(fā)布的第二代IPU GC200更值得英偉達(dá)警惕。其中的原因,當(dāng)然不是簡單因?yàn)橥瑸榕_積電7nm工藝的第二代IPU比英偉達(dá)A100 GPU晶體管密度大10%。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

而是,Graphcore的第二代IPU在多個主流模型上的表現(xiàn)優(yōu)于A100 GPU,兩者將在超大規(guī)模數(shù)據(jù)中心正面競爭。未來,IPU可能在一些新興的AI應(yīng)用中展現(xiàn)出更大的優(yōu)勢。

多維度對比GPU,IPU有最高100倍性能提升

目前,AI的應(yīng)用主要還是集中在計(jì)算機(jī)視覺(CV)。就CV而言,以谷歌最新發(fā)布的EfficientNet模型的Benchmarks(基準(zhǔn)測試)來看,推理性能IPU吞吐量可以達(dá)到GPU的15倍,訓(xùn)練也有7倍的性能提升。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

在ResNet的改進(jìn)模型ResNeXt-101的推理中,IPU可以帶來7倍吞吐量的提升,同時時延降低了約24倍。在ResNeXt-50模型的一個訓(xùn)練中,IPU的吞吐量比GPU提升 30%左右。

另外,在目前最流行的NLP模型BERT-Base中,進(jìn)行推理時相同時延IPU可以有2倍的吞吐量,訓(xùn)練時間減少25%到36.3小時左右,同時可以降低20%的功耗。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

在概率模型中,IPU同樣有優(yōu)勢,在MCMC的一個訓(xùn)練模型中,IPU比GPU有15倍的性能提升,縮短15倍的訓(xùn)練時間。在VAE的精度訓(xùn)練模型中,可以達(dá)到4.8倍的性能提升,縮短4.8倍的訓(xùn)練時間。

還有,目前比較受關(guān)注的銷售預(yù)測和推薦模型。IPU在用在做銷售數(shù)據(jù)分析的MLP模型訓(xùn)練中相比GPU有最高6倍的性能提升,在用于推薦的Dense Autoencoder模型訓(xùn)練性能有2.5倍提升。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

如果是在IPU更擅長的分組卷積內(nèi)核中,組維度越少,IPU的性能優(yōu)勢越明顯,總體而言,有4-100倍的吞吐量提升。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

IPU的三大技術(shù)突破

從IPU與GPU在當(dāng)下AI應(yīng)用的多個維度對比中,已經(jīng)可以看到IPU的優(yōu)勢,這與Graphcore的計(jì)算、數(shù)據(jù)、通信三大關(guān)鍵技術(shù)突破密切相關(guān)。

Graphcore最新發(fā)布的第二代IPU Colossus Mk2 GC200算力核心從1216個提升到1472個獨(dú)立的IPU-Tiles的單元,共有8832個可以并行執(zhí)行的線程。In-Processor-Memory從上一代的300MB提升到900MB。每個IPU的Memory帶寬為47.5TB/s。

還包含了IPU-Exchange以及PCI Gen4跟主機(jī)交互的一個接口;以及IPU-Links 320GB/s的一個芯片到芯片的互聯(lián)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

計(jì)算

選用三個典型的應(yīng)用場景從計(jì)算層面對比第二代和第一代IPU,BERT-Large的訓(xùn)練有9.3倍性能的提升,3層BERT推理有8. 5倍的性能提升,EfficientNet-B3有7.4 倍的性能提升。第二代IPU相比第一代IPU有兩倍峰值算力的提升,在典型的CV還有NLP的模型中,第二代IPU相比第一代IPU則展現(xiàn)出了平均8倍的性能提升。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

這樣的性能提升很重要的是處理器內(nèi)部存儲從300MB提升到了900MB。Graphcore中國區(qū)技術(shù)應(yīng)用總負(fù)責(zé)人羅旭對雷鋒網(wǎng)表示,“我們在算力核心的微架構(gòu)上做了一些調(diào)整,每個IPU-Tiles的性能本身就會更強(qiáng),總體實(shí)現(xiàn)2倍的峰值性能提升。在有效算力方面,處理器內(nèi)存儲從300M提升到900M,可以為性能帶來較大的提升?!?/strong>

MK2 IPU增加的處理器內(nèi)存儲主要是用于供我們模型的激活、權(quán)重的一些存儲空間。因?yàn)樘幚砥鲀?nèi)存儲的程序所占的空間與第一代IPU基本相同,所以增加的供算法模型可用的權(quán)重和激活的有效存儲容量有6倍以上。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

但是,300M的處理器內(nèi)存儲本身就挑戰(zhàn)很大,提升到900M面臨著怎樣的挑戰(zhàn)?羅旭指出,“要讓MK2支持8000個超線程并行一起工作,并且保證其線性度和各方面性能都要好,這個是非常復(fù)雜的一個技術(shù),我們是利用BSP這一套軟件+硬件+編譯的機(jī)制,來保障性能能夠提升。軟件層面主要的挑戰(zhàn)是對新模式的支持,所以我們的軟件Poplar SDK要不斷迭代。“

如果對比英偉達(dá)基于8個最新A100 GPU的DGX-A100,Graphcore 8個M2000組成的系統(tǒng)的FP32算力是DGX-A100的12倍,AI計(jì)算是3倍,AI存儲是10倍。價格上,IPU-M2000需要花費(fèi)25.96萬美元,DGX-A100需要19.9萬美元。Graphcore有一定的性價比優(yōu)勢。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

如果從應(yīng)用的角度,在EfficientNet-B4的圖象分類訓(xùn)練中,8個IPU-M2000(在1U的盒子里集成4個GC200 IPU)的性能等同于16個DGX-A100,這時候就能體現(xiàn)出10倍以上的價格優(yōu)勢。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

數(shù)據(jù)

數(shù)據(jù)方面,Graphcore提出了IPU Exchange Memory的交換式存儲概念,相比英偉達(dá)當(dāng)前使用的HBM技術(shù),IPU- M2000每個IPU-Machine通過IPU-Exchange-Memory技術(shù),可以提供近100倍的帶寬以及大約10倍的容量,這對于很多復(fù)雜的AI模型算法是非常有幫助。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

計(jì)算加上數(shù)據(jù)的突破可以讓IPU在原生稀疏計(jì)算中展現(xiàn)出領(lǐng)先IPU 10-50倍的性能優(yōu)勢。在數(shù)據(jù)以及計(jì)算密集的情況下,GPU表現(xiàn)非常好,但是隨著數(shù)據(jù)稀疏性的增強(qiáng),到了數(shù)據(jù)稀疏以及動態(tài)稀疏時,IPU就有了比GPU越來越顯著的優(yōu)勢。

Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤說:“現(xiàn)在一些全球領(lǐng)先的研究,像NLP方面,大家開始來探索一些像sparse NLP的算法模型。我們的技術(shù)對很多超大規(guī)模的AI模型非常有幫助?!?/strong>

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

通信

通信也是目前數(shù)據(jù)中心大規(guī)模計(jì)算非常關(guān)鍵的問題。為此,Graphcore專為為AI橫向擴(kuò)展設(shè)計(jì)了IPU-Fabric。IPU-Fabric可以做到2.8Tbps超低延時的結(jié)構(gòu),同時最多可以支持64000個IPU之間的橫向擴(kuò)展。

盧濤介紹,IPU-Fabric是由三種網(wǎng)絡(luò)一起組成,第一種是IPU-Link,第二種叫IPU Gateway Link,第三種是IPU over Fabric。IPU-Link是在一個機(jī)架(rack)之內(nèi)提供在IPU之間的一個通訊的接口。IPU Gateway Link提供了機(jī)架和機(jī)架之間橫向擴(kuò)展之間的網(wǎng)絡(luò)。IPU over Fabric能夠把IPU的集群和x86的集群進(jìn)行非常靈活以及低延時、高性能組合起來的網(wǎng)絡(luò)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

將計(jì)算、數(shù)據(jù)、通信的突破結(jié)合在一起,就可以用于構(gòu)建大規(guī)??蓴U(kuò)展的IPU-POD系統(tǒng)。一個用于超算規(guī)模的IPU-POD的形態(tài)是一個IPU-POD64,這是IPU-POD的一個基本組件,每個IPU-POD64的機(jī)柜里面總共有64顆IPU,提供16PFlops的算力、58GB的In-Processor-Memory,總共達(dá)到了7個TB的流存儲。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

因此,在IPU-POD中間非常重要的是把AI的計(jì)算跟邏輯的控制進(jìn)行了解耦,讓系統(tǒng)易于部署,網(wǎng)絡(luò)延時非常低,能夠支持非常大型的一個算法模型,以及非常安全的多住戶的使用。

盧濤表示,“IPU-Fabric最高支持64000個IPU-POD組成的集群,總共能提供16 EFlops FP16的算力。日本前一陣發(fā)布的超算是0.5 EFlops算力。而我們基于64000個IPU總共可以組建16個EFlops算力,這非常驚人?!?/strong>

Graphcore為什么值得英偉達(dá)關(guān)注?

“目前超大規(guī)模IPU-POD技術(shù)主要的應(yīng)用場景還是大規(guī)模AI訓(xùn)練,包括自然語言處理以及機(jī)器視覺的應(yīng)用,IPU-POD都有優(yōu)勢?!北R濤指出,“譬如說做一個模型的訓(xùn)練, GPU的性能是1,可能一個單機(jī)有8張卡,性能比0.7高。但如果把場景擴(kuò)展到1000個GPU或者幾千個GPU,性能可能會下降到0.7、0.6,好一點(diǎn)可能到0.8,而超大規(guī)模的IPU-POD很重要的是要幫助大家解決大規(guī)模集群可擴(kuò)展性的問題。

另外,從功耗的角度看,不同的場景會有一些差別。總體來看,單片 M2000 的整機(jī)系統(tǒng)功耗為 1.1KW,折合到每顆IPU處理器的性能功耗比 0.9TFlops/W,在同類面向數(shù)據(jù)中心高性能AI計(jì)算的產(chǎn)品中,比A100 GPU的0.7TFlops/W,華為Ascend 910的 0.71TFlops/W的能效比都高一些。

也就是說,在大規(guī)模數(shù)據(jù)中心,Graphcore將會與英偉達(dá)進(jìn)行正面的競爭。雷鋒網(wǎng)認(rèn)為,相比于來自類GPU的競爭,英偉達(dá)不應(yīng)該忽視Graphcore的IPU,特別是Graphcore一直都在強(qiáng)調(diào)其是為AI而生,面向的應(yīng)用也是CPU、GPU不那么擅長的AI應(yīng)用。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

這從Graphcore的軟件以及生態(tài)建設(shè)中也能看出。IPU作為一款通用處理器能夠同時支持訓(xùn)練和推理也提供統(tǒng)一的軟件平臺。最新的POPLAR SDK1.2有三個特性:第一,會與比較先進(jìn)的機(jī)器學(xué)習(xí)框架做好集成。第二,進(jìn)一步開放低級別的API,讓開發(fā)者針對網(wǎng)絡(luò)的性能做一些特定的調(diào)優(yōu)。第三,增加框架支持,包括對PyTorch和Keras的支持,還優(yōu)化了卷積庫和稀疏庫。

另外,通過支持全面的開發(fā)框架的三個主流操作系統(tǒng)ubuntu、RedHat、CentOS,降低開發(fā)者的使用難度,同時通過進(jìn)一步開放低級別API,開源POPLAR PopLibs源代碼。這些工作,正是想要讓開發(fā)者利用IPU去創(chuàng)新,在新的應(yīng)用領(lǐng)域構(gòu)建IPU的競爭優(yōu)勢。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

更進(jìn)一步,Graphcore面向商業(yè)用戶、高校及研究機(jī)構(gòu)、個人開發(fā)者都提供不同時長的免費(fèi)IPU使用。在國內(nèi),Graphcore IPU開發(fā)者云部署在金山云上,這里面使用了三種IPU產(chǎn)品,一種是IPU-POD64,還有浪潮的IPU服務(wù)器(NF5568M5),以及戴爾的IPU服務(wù)器(DSS8440)。

雷鋒網(wǎng)了解到,目前申請使用Graphcore IPU開發(fā)者云的主要是商業(yè)用戶和高校,個人研究者比較少。

IPU開發(fā)者云支持當(dāng)前一些最先進(jìn)和最復(fù)雜的AI算法模型的訓(xùn)練和推理。比如,高級計(jì)算機(jī)視覺類主要以分組卷積為代表的一些機(jī)器視覺的應(yīng)用模型,像ResNeXt、EfficientNet等?;跁r序分析類的應(yīng)用,像LSTM、GRU等大量應(yīng)用在自然語音應(yīng)用、廣告推薦、金融算法等方面的模型。排名和推薦類像Deep Autoencoder,在概率模型方面,基于MCMC的一些算法交易的模型方面都有非常好的一些表現(xiàn)。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

盧濤表示:“Graphcore找到了自己的賽道,我們首要思考的是IPU如何幫助客戶與合作伙伴解決他們目前使用CPU或者GPU上解決不了的問題。從全球看,我們最快落地的應(yīng)用還是在超大規(guī)模數(shù)據(jù)中心,在金融、醫(yī)療健康領(lǐng)域進(jìn)展非常大?!?/strong>

還有一個影響IPU大規(guī)模商用非常關(guān)鍵的問題,片內(nèi)存儲高達(dá)900M的第二代IPU良率的成本如何?盧濤對雷鋒網(wǎng)表示,“成本分為幾個部分,包括人員、工具、IP、流片成本。所以要考慮兩個部分。第一部分,芯片生產(chǎn)的BOM成本,這部分基本是固定的。所以,第二部分的良率就是非常重要,我們從第一代產(chǎn)品到第二代產(chǎn)品都采用分布式存儲架構(gòu),就會非常好地控制產(chǎn)品的良率,所以即使是900M處理器內(nèi)存儲,也不會對成本產(chǎn)生特別大的影響。

不是GPU的IPU,為什么更值得英偉達(dá)警惕?

已經(jīng)有多家云合作伙伴的Graphcore,正在通過硬件以及軟件打造起中國創(chuàng)新社區(qū)來發(fā)展生態(tài),接下來通過與OEM、渠道合作伙伴的合作,將會如何與英偉達(dá)競爭呢?

相關(guān)文章:

超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達(dá)594億個

直擊CPU、GPU弱項(xiàng)!第三類AI處理器IPU正在崛起

為AI顛覆GPU!計(jì)算機(jī)史上迎來第三個革命性架構(gòu)IPU

打破16項(xiàng)AI性能記錄!英偉達(dá)A100 GPU要無人能敵?

超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達(dá)594億個

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄