丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
芯片設計 正文
發(fā)私信給吳優(yōu)
發(fā)送

0

IPU首度公開MLPerf成績,性價比收益勝過英偉達

本文作者: 吳優(yōu) 2021-07-01 01:05
導語:MLPerf基準測試發(fā)布至今已有三年之久。

本周四,MLCommons發(fā)布了最新MLPerf Inference v1.0基準測試(Benchmark)結果,英偉達GPU一如既往地表現(xiàn)不俗,但值得英偉達注意的是,其超大規(guī)模數(shù)據(jù)中心的競爭對手,Graphcore公司專為機器智能設計的 IPU也參加了此次基準測試。

MLPerf基準測試發(fā)布至今已有三年之久,此前英偉達、谷歌、阿里巴巴等大公司一直通過MLPerf跑分成績強調其產品實力,能夠挑戰(zhàn)英偉達GPU的IPU為何今年才加入MLPerf基準測試?首次參加MLPerf測試的IPU,究竟表現(xiàn)如何?

IPU首度公開MLPerf成績,性價比收益勝過英偉達

首次提交兩個模型,性價比收益勝過英偉達

在今年提交的MLPerf訓練1.0版本任務中,Graphcore提交了兩個模型:計算機視覺模型ResNet-50和自然語言處理模型BERT。

IPU首度公開MLPerf成績,性價比收益勝過英偉達

新一輪MLPerf基準測試結果(部分)

Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤稱,之所以提交這兩個模型,是因為這兩個模型在相應領域里頗具代表意義且被廣泛使用。

“許多骨干網(wǎng)絡還是基于ResNet,BERT雖然有很多變種版本。但標準的BERT就還是大家比較認可的Benchmark基準。”

基于IPU-M2000,Graphcore用了兩種配置的硬件進行基準測試,由4個1U IPU-M2000和1個雙路服務器組成的IPU-POD16,可以提供4 PetaFLOPS的AI算力,由16個IPU-M2000和4臺雙路服務器組成的IPU-POD64 ,可提供16 PetaFLOPS的AI算力。

IPU首度公開MLPerf成績,性價比收益勝過英偉達

測試結果顯示,在BERT模型訓練中,IPU-POD16在開放分區(qū)(Open Division)的訓練時間在半小時以內,約為27分鐘,封閉分區(qū)(Closed Division)的訓練時間為34分鐘。兩個分區(qū)的區(qū)別在于,在封閉分區(qū)中,需要完全按照規(guī)定的網(wǎng)絡架構優(yōu)化方式和硬件配置完成提交,而在開放分區(qū)擁有更多的自主靈活性。

同樣的模型訓練在IPU-POD64上,訓練時間縮短3.5倍,且在開放分區(qū)的訓練時間10分鐘以內,這意味著相關科研工作者在模型訓練過程中能夠更快地得到研究結果。

在ResNet-50模型訓練中,IPU-POD16的封閉分區(qū)訓練時間為37分鐘,IPU-POD64能在這一基礎上能將時間縮短3倍。

一直以來將英偉達視為競爭對手的Graphcore這次也同英偉達基于DGX A100 640G提交的訓練結果進行比較?;贒GX A100,其ResNet-50的MLPerf訓練時間28分鐘,BERT的MLPerf訓練時間為21分鐘,均高于IPU-POD16。

不過IPU訓練時間更久并不意味著其AI能力就落后于GPU。

IPU首度公開MLPerf成績,性價比收益勝過英偉達

IPU首度公開MLPerf成績,性價比收益勝過英偉達

盧濤表示,一方面,ResNet、BERT等應用都是在過往基于GPU架構選擇出來并深度優(yōu)化的應用,對IPU可能并不是很友好,另一方面,對于最終用戶非常關注“每花費一美金所能獲得的訓練收益”,如果將訓練收益和目錄折算成性價比,ResNet訓練任務下,IPU-POD16相對DGX A100 640G版本的性價比收益有1.6倍,BERT訓練任務下,IPU-POD16相對DGX A100 640G版本的性價比收益有1.3倍。

也就是說,如果單純從性價比收益來看,IPU可能是更好的選擇。

參加MLPerf基準測試,源于Graphcore 資源更加充足

事實上,Graphcore IPU與英偉達GPU跑分對比并不是第一次,不過當時并未選擇在業(yè)內認可度和接受度更高的MLPerf。

去年8月,Graphcore通過參加谷歌發(fā)布的EfficicentNet模型、ResearchNEt模型以及NLP模型等基準測試且與英偉達A100 GPU對比。測試數(shù)據(jù)表明,多維度比較后,IPU的推理性能與訓練性能均優(yōu)于GPU。

為何當時未提交MLPerf的結果?“因為當時資源有限,更多地聚焦在對SDK的打磨、優(yōu)化、功能開發(fā),和頭部客戶及合作伙伴聯(lián)合探索應用場景落地。”盧濤如此回答。

盧濤解釋到,參加MLPerf Benchmark需要較大的投入,Graphcore十幾個團隊成員分別間接或直接參加了這一項目,且至少耗費半年以上的時間?!敖裉霨raphcore整體軟硬件,尤其是軟件和生態(tài),更加成熟完善,公司整體實力和之前相比更加雄厚。在幾個因素疊加的影響下,我們參加了MLPerf訓練1.0的Benchmark,后續(xù)也有持續(xù)投入的計劃?!?/p>

選擇在資源充足后參加MLPerf基準測試,同時也表明Graphcore對這一基準測試的認可。

“AI芯片產業(yè)的整體出發(fā)點是DSA(Domain Specific Architecture),與不論是在整體架構上還是計算機體系結構上相對比較類似的CPU相比,各個AI處理器的架構之間會有較大的差異。對于最終用戶來說,就很難體現(xiàn)所選擇的架構對于業(yè)務受益產生的影響?!?/p>

“我并不能說MLPerf代表了整個AI產業(yè)所有的任務,但是它代表了今天工業(yè)界比較主流部署的應用場景。我認為MLPerf是有一定指導意義的?!北R濤說道。

雖然基于GPU架構選擇出來的應用模型對IPU而言并不友好,但Graphcore認為,需要積極參與產業(yè)標準的探討,逐漸成為產業(yè)中有力的聲音,才能影響產業(yè)標準的走向。

“之后我們會積極參與MLPerf的提交,提供一些不同的任務,讓MLPerf的工作負載更具代表性?!北R濤說道。

文中圖片源自Graphcore

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

相關文章:

不是GPU的IPU,為什么更值得英偉達警惕?

超越全球最大7nm芯片A100!Graphcore第二代IPU晶體管數(shù)量高達594億個

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說