0
本文作者: 吳優(yōu) | 2021-07-01 01:05 |
本周四,MLCommons發(fā)布了最新MLPerf Inference v1.0基準(zhǔn)測(cè)試(Benchmark)結(jié)果,英偉達(dá)GPU一如既往地表現(xiàn)不俗,但值得英偉達(dá)注意的是,其超大規(guī)模數(shù)據(jù)中心的競(jìng)爭(zhēng)對(duì)手,Graphcore公司專為機(jī)器智能設(shè)計(jì)的 IPU也參加了此次基準(zhǔn)測(cè)試。
MLPerf基準(zhǔn)測(cè)試發(fā)布至今已有三年之久,此前英偉達(dá)、谷歌、阿里巴巴等大公司一直通過(guò)MLPerf跑分成績(jī)強(qiáng)調(diào)其產(chǎn)品實(shí)力,能夠挑戰(zhàn)英偉達(dá)GPU的IPU為何今年才加入MLPerf基準(zhǔn)測(cè)試?首次參加MLPerf測(cè)試的IPU,究竟表現(xiàn)如何?
首次提交兩個(gè)模型,性價(jià)比收益勝過(guò)英偉達(dá)
在今年提交的MLPerf訓(xùn)練1.0版本任務(wù)中,Graphcore提交了兩個(gè)模型:計(jì)算機(jī)視覺(jué)模型ResNet-50和自然語(yǔ)言處理模型BERT。
新一輪MLPerf基準(zhǔn)測(cè)試結(jié)果(部分)
Graphcore高級(jí)副總裁兼中國(guó)區(qū)總經(jīng)理盧濤稱,之所以提交這兩個(gè)模型,是因?yàn)檫@兩個(gè)模型在相應(yīng)領(lǐng)域里頗具代表意義且被廣泛使用。
“許多骨干網(wǎng)絡(luò)還是基于ResNet,BERT雖然有很多變種版本。但標(biāo)準(zhǔn)的BERT就還是大家比較認(rèn)可的Benchmark基準(zhǔn)?!?/p>
基于IPU-M2000,Graphcore用了兩種配置的硬件進(jìn)行基準(zhǔn)測(cè)試,由4個(gè)1U IPU-M2000和1個(gè)雙路服務(wù)器組成的IPU-POD16,可以提供4 PetaFLOPS的AI算力,由16個(gè)IPU-M2000和4臺(tái)雙路服務(wù)器組成的IPU-POD64 ,可提供16 PetaFLOPS的AI算力。
測(cè)試結(jié)果顯示,在BERT模型訓(xùn)練中,IPU-POD16在開(kāi)放分區(qū)(Open Division)的訓(xùn)練時(shí)間在半小時(shí)以內(nèi),約為27分鐘,封閉分區(qū)(Closed Division)的訓(xùn)練時(shí)間為34分鐘。兩個(gè)分區(qū)的區(qū)別在于,在封閉分區(qū)中,需要完全按照規(guī)定的網(wǎng)絡(luò)架構(gòu)優(yōu)化方式和硬件配置完成提交,而在開(kāi)放分區(qū)擁有更多的自主靈活性。
同樣的模型訓(xùn)練在IPU-POD64上,訓(xùn)練時(shí)間縮短3.5倍,且在開(kāi)放分區(qū)的訓(xùn)練時(shí)間10分鐘以內(nèi),這意味著相關(guān)科研工作者在模型訓(xùn)練過(guò)程中能夠更快地得到研究結(jié)果。
在ResNet-50模型訓(xùn)練中,IPU-POD16的封閉分區(qū)訓(xùn)練時(shí)間為37分鐘,IPU-POD64能在這一基礎(chǔ)上能將時(shí)間縮短3倍。
一直以來(lái)將英偉達(dá)視為競(jìng)爭(zhēng)對(duì)手的Graphcore這次也同英偉達(dá)基于DGX A100 640G提交的訓(xùn)練結(jié)果進(jìn)行比較。基于DGX A100,其ResNet-50的MLPerf訓(xùn)練時(shí)間28分鐘,BERT的MLPerf訓(xùn)練時(shí)間為21分鐘,均高于IPU-POD16。
不過(guò)IPU訓(xùn)練時(shí)間更久并不意味著其AI能力就落后于GPU。
盧濤表示,一方面,ResNet、BERT等應(yīng)用都是在過(guò)往基于GPU架構(gòu)選擇出來(lái)并深度優(yōu)化的應(yīng)用,對(duì)IPU可能并不是很友好,另一方面,對(duì)于最終用戶非常關(guān)注“每花費(fèi)一美金所能獲得的訓(xùn)練收益”,如果將訓(xùn)練收益和目錄折算成性價(jià)比,ResNet訓(xùn)練任務(wù)下,IPU-POD16相對(duì)DGX A100 640G版本的性價(jià)比收益有1.6倍,BERT訓(xùn)練任務(wù)下,IPU-POD16相對(duì)DGX A100 640G版本的性價(jià)比收益有1.3倍。
也就是說(shuō),如果單純從性價(jià)比收益來(lái)看,IPU可能是更好的選擇。
參加MLPerf基準(zhǔn)測(cè)試,源于Graphcore 資源更加充足
事實(shí)上,Graphcore IPU與英偉達(dá)GPU跑分對(duì)比并不是第一次,不過(guò)當(dāng)時(shí)并未選擇在業(yè)內(nèi)認(rèn)可度和接受度更高的MLPerf。
去年8月,Graphcore通過(guò)參加谷歌發(fā)布的EfficicentNet模型、ResearchNEt模型以及NLP模型等基準(zhǔn)測(cè)試且與英偉達(dá)A100 GPU對(duì)比。測(cè)試數(shù)據(jù)表明,多維度比較后,IPU的推理性能與訓(xùn)練性能均優(yōu)于GPU。
為何當(dāng)時(shí)未提交MLPerf的結(jié)果?“因?yàn)楫?dāng)時(shí)資源有限,更多地聚焦在對(duì)SDK的打磨、優(yōu)化、功能開(kāi)發(fā),和頭部客戶及合作伙伴聯(lián)合探索應(yīng)用場(chǎng)景落地?!北R濤如此回答。
盧濤解釋到,參加MLPerf Benchmark需要較大的投入,Graphcore十幾個(gè)團(tuán)隊(duì)成員分別間接或直接參加了這一項(xiàng)目,且至少耗費(fèi)半年以上的時(shí)間。“今天Graphcore整體軟硬件,尤其是軟件和生態(tài),更加成熟完善,公司整體實(shí)力和之前相比更加雄厚。在幾個(gè)因素疊加的影響下,我們參加了MLPerf訓(xùn)練1.0的Benchmark,后續(xù)也有持續(xù)投入的計(jì)劃。”
選擇在資源充足后參加MLPerf基準(zhǔn)測(cè)試,同時(shí)也表明Graphcore對(duì)這一基準(zhǔn)測(cè)試的認(rèn)可。
“AI芯片產(chǎn)業(yè)的整體出發(fā)點(diǎn)是DSA(Domain Specific Architecture),與不論是在整體架構(gòu)上還是計(jì)算機(jī)體系結(jié)構(gòu)上相對(duì)比較類似的CPU相比,各個(gè)AI處理器的架構(gòu)之間會(huì)有較大的差異。對(duì)于最終用戶來(lái)說(shuō),就很難體現(xiàn)所選擇的架構(gòu)對(duì)于業(yè)務(wù)受益產(chǎn)生的影響?!?/p>
“我并不能說(shuō)MLPerf代表了整個(gè)AI產(chǎn)業(yè)所有的任務(wù),但是它代表了今天工業(yè)界比較主流部署的應(yīng)用場(chǎng)景。我認(rèn)為MLPerf是有一定指導(dǎo)意義的?!北R濤說(shuō)道。
雖然基于GPU架構(gòu)選擇出來(lái)的應(yīng)用模型對(duì)IPU而言并不友好,但Graphcore認(rèn)為,需要積極參與產(chǎn)業(yè)標(biāo)準(zhǔn)的探討,逐漸成為產(chǎn)業(yè)中有力的聲音,才能影響產(chǎn)業(yè)標(biāo)準(zhǔn)的走向。
“之后我們會(huì)積極參與MLPerf的提交,提供一些不同的任務(wù),讓MLPerf的工作負(fù)載更具代表性?!北R濤說(shuō)道。
文中圖片源自Graphcore
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達(dá)594億個(gè)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。