Habana在英偉達(dá)牢固的AI訓(xùn)練城墻上打開(kāi)了一道口

本文作者：包永剛

2020-12-17 14:17

導(dǎo)語(yǔ)：AWS宣布采用最多8個(gè)Habana Gaudi加速器的EC2實(shí)例，性價(jià)比相較目前基于GPU的EC2實(shí)例提升達(dá)40%。

在利潤(rùn)豐厚的云端AI芯片市場(chǎng)，英特爾和英偉達(dá)憑借CPU和GPU分別占領(lǐng)著云端AI推理和訓(xùn)練市場(chǎng)超九成的份額。即便如此，想要進(jìn)入云端芯片市場(chǎng)的挑戰(zhàn)者不少，但取得重大突破的挑戰(zhàn)者寥寥無(wú)幾，以色列公司Habana Labs算是其中一個(gè)。

近期舉行的AWS re:Invent 2020（亞馬遜 re:Invent 2020）大會(huì)上，AWS宣布采用最多8個(gè)Habana Gaudi加速器的EC2實(shí)例，性價(jià)比相較目前基于GPU的EC2實(shí)例提升高達(dá)40%，計(jì)劃2021年上半年提供使用。

Habana在英偉達(dá)牢固的AI訓(xùn)練城墻上打開(kāi)了一道口

Habana Labs在英偉達(dá)牢固的云端AI訓(xùn)練市場(chǎng)取得的突破能否進(jìn)一步擴(kuò)大？AI云端芯片市場(chǎng)真的只會(huì)是英特爾的英偉達(dá)占絕對(duì)主導(dǎo)嗎？

用40%性價(jià)比提升突破英偉達(dá)的GPU訓(xùn)練城墻

之所以說(shuō)Habana Labs在英偉達(dá)AI訓(xùn)練芯片的牢固城墻上打開(kāi)了一道口有兩個(gè)原因，一是在AI訓(xùn)練芯片市場(chǎng)，英偉達(dá)GPU占有絕對(duì)的主導(dǎo)地位，像亞馬遜這樣的科技巨頭除了自研芯片，很少采用其它訓(xùn)練芯片，這是一個(gè)標(biāo)志性的突破。

另外，Gaudi加速器此次是在TensorFlow上訓(xùn)練ResNet-50模型展現(xiàn)出了更高的性價(jià)比，是單點(diǎn)突破，而非全面的優(yōu)勢(shì)。

根據(jù)AWS內(nèi)部的測(cè)試，Habana Labs的EC2實(shí)例比目前GPU在機(jī)器學(xué)習(xí)性價(jià)比上提升了40%。8卡的Gaudi解決方案可以在TensorFlow上每秒處理12000張圖像訓(xùn)練ResNet-50模型。

雷鋒網(wǎng)了解到，當(dāng)下眾多數(shù)據(jù)中心使用的Tesla V100 GPU，8卡訓(xùn)練TensorFlow ResNet-50的速度是7600張/秒。今年5月發(fā)布的最新英偉達(dá)A100 GPU 8卡則可以達(dá)到1.7萬(wàn)張/秒的速度。

可以看到，相比上一代V100 GPU，Gaudi有顯著優(yōu)勢(shì)，但比最新A100 GPU性能還是有一定差距。功耗方面，根據(jù)英偉達(dá)官方的數(shù)據(jù)，NVLink接口的A100 GPU最大功耗為400W，PCIe接口的A100最大功耗為250W。

Habana Labs中國(guó)區(qū)總經(jīng)理于明揚(yáng)告訴雷鋒網(wǎng)，16納米制程的Gaudi功耗在260W-300W之間，功耗比A100 GPU略有一點(diǎn)優(yōu)勢(shì)。Habana Labs在現(xiàn)有制程和功耗上的表現(xiàn)，說(shuō)明整個(gè)架構(gòu)相對(duì)A100 GPU沒(méi)有任何劣勢(shì)，應(yīng)該還有一定的優(yōu)勢(shì)。

Habana在英偉達(dá)牢固的AI訓(xùn)練城墻上打開(kāi)了一道口

在工藝制程提升越來(lái)越難的當(dāng)下，通過(guò)架構(gòu)創(chuàng)新實(shí)現(xiàn)性能的提升更顯重要，特別是在模型參數(shù)越來(lái)越大的云端訓(xùn)練領(lǐng)域。于明揚(yáng)說(shuō)：“我們芯片架構(gòu)設(shè)計(jì)有兩個(gè)重要的考量點(diǎn)，一個(gè)是考慮芯片本身利用數(shù)據(jù)方面的需求，再一個(gè)是通過(guò)并行化解決數(shù)據(jù)需求?！?/p>

他進(jìn)一步表示，單一芯片架構(gòu)變化不會(huì)那么快，通過(guò)并行化對(duì)整個(gè)訓(xùn)練系統(tǒng)性能的提升會(huì)更加高效、實(shí)用。業(yè)界也認(rèn)識(shí)到片間互聯(lián)以及系統(tǒng)間互聯(lián)對(duì)整個(gè)訓(xùn)練系統(tǒng)性能的影響，因此在互聯(lián)上花費(fèi)更多精力去設(shè)計(jì)更加高效的訓(xùn)練系統(tǒng)應(yīng)對(duì)未來(lái)更大規(guī)模的模型。

Habana Gaudi的做法是每個(gè)處理器集成32GB的HBM2內(nèi)存，并集成用于服務(wù)器內(nèi)部處理器互聯(lián)的RoCE功能，可以使用多個(gè)基于Gaudi的系統(tǒng)實(shí)現(xiàn)高效和可擴(kuò)展的分布式訓(xùn)練。

Habana在英偉達(dá)牢固的AI訓(xùn)練城墻上打開(kāi)了一道口

但想要打動(dòng)已經(jīng)使用英偉達(dá)GPU訓(xùn)練AI的公司，性價(jià)比只是一方面。

“現(xiàn)在客戶接受新產(chǎn)品會(huì)同時(shí)考慮性價(jià)比和軟件生態(tài)。性價(jià)比要達(dá)到主流平臺(tái)的兩倍以上，客戶才有動(dòng)力去嘗試一個(gè)新平臺(tái)。”于明揚(yáng)說(shuō)：“軟件方面需要客戶可以很方便和快捷的將現(xiàn)有模型移植到新的平臺(tái)，并且只有很少的性能和精度損失?！?/strong>

這就需要有一個(gè)比較好的軟件生態(tài)，既提供完整的工具鏈，軟件也有很高的靈活度，最好能幫助客戶實(shí)現(xiàn)無(wú)縫遷移。于明揚(yáng)表示，“AWS選擇Habana也是這兩個(gè)考慮，一個(gè)是Habana目前在訓(xùn)練上性價(jià)比是唯一能挑戰(zhàn)英偉達(dá)的產(chǎn)品，另一個(gè)是軟件的易用性也被AWS接受?！?/strong>

據(jù)悉，與Gaudi匹配的Habana SynapseAI軟件套件與TensorFlow和Pythorch等流行的深度學(xué)習(xí)框架集成，并對(duì)Gaudi進(jìn)行了優(yōu)化。開(kāi)發(fā)人員將可以獲取開(kāi)放的Gaudi軟件、參考模型和文檔。

接下來(lái)，Habana Labs能否進(jìn)一步打開(kāi)云端訓(xùn)練市場(chǎng)，英特爾非常關(guān)鍵。

英特爾在AI訓(xùn)練市場(chǎng)雙重出擊

2020年1月，英特爾宣布以20億美元的價(jià)格收購(gòu)Habana。

談及為何選擇英特爾，于明揚(yáng)解釋，“考慮到保持企業(yè)的屬性不變持續(xù)提供產(chǎn)品和服務(wù)，減少客戶的擔(dān)憂，我們更傾向于選擇一個(gè)中立的公司。英特爾對(duì)Habana而言是最理想的，一個(gè)是因?yàn)橛⑻貭栍凶銐虻目蛻羧?，可以給我們很多支持。另一個(gè)是能夠給我們帶來(lái)更加穩(wěn)定的技術(shù)資源和資金支持，增加客戶對(duì)我們的信任?！?/p>

Habana被英特爾收購(gòu)之后獨(dú)立運(yùn)營(yíng)，團(tuán)隊(duì)規(guī)模擴(kuò)大了3倍，向Data Platform Group（數(shù)據(jù)中心事業(yè)部）匯報(bào)，在銷售和市場(chǎng)方面與英特爾有非常緊密的合作。

雷鋒網(wǎng)了解到，AWS在明年一月份開(kāi)放Gaudi資源申請(qǐng)之后，大概需要經(jīng)過(guò)半年的時(shí)間才會(huì)給出明確的結(jié)論，之后才能看到Gaudi是否可以有比較大的量的突破。另外，Habana在國(guó)內(nèi)已經(jīng)與頭部和二線互聯(lián)網(wǎng)公司建立了廣泛的合作，它們基本已經(jīng)開(kāi)始試用Habana產(chǎn)品，有的客戶已經(jīng)開(kāi)始批量采購(gòu)。

Habana能否進(jìn)一步打開(kāi)云端訓(xùn)練市場(chǎng)，產(chǎn)品的持續(xù)迭代，以及與英特爾的融合都是關(guān)鍵因素。

根據(jù)Habana的說(shuō)法，其下一代云端訓(xùn)練AI芯片Gaudi2將基于臺(tái)積電7nm工藝，在Gaudi效能的基礎(chǔ)上進(jìn)一步提升。同樣明確的是，Habana會(huì)把訓(xùn)練和推理的產(chǎn)品分開(kāi)。

“推理對(duì)性價(jià)比的關(guān)注度更高，數(shù)據(jù)可以一次性加載到芯片的片內(nèi)內(nèi)存中效率更高。但訓(xùn)練需要反復(fù)加載數(shù)據(jù)，需要更大的片內(nèi)和片外內(nèi)存，還要提供高帶寬和低延遲，要將兩種特性結(jié)合是比較大的挑戰(zhàn)。我們會(huì)針對(duì)不同的場(chǎng)景提供更適合的產(chǎn)品，給客戶更好體驗(yàn)。”于明揚(yáng)解釋。

這些產(chǎn)品都會(huì)融入英特爾的體系，于明揚(yáng)透露：Gaudi計(jì)劃在明年加入oneAPI體系。

oneAPI是為了應(yīng)對(duì)異構(gòu)硬件帶來(lái)的軟件編程復(fù)雜性挑戰(zhàn)，英特爾提出的統(tǒng)一軟件平臺(tái)，不僅將其CPU、GPU、FPGA、ASIC納入到這一體系，還希望通過(guò)DCP++支持第三方芯片。

基于統(tǒng)一的軟件平臺(tái)，英特爾還能使用最新的Xe架構(gòu)GPU角逐云端訓(xùn)練芯片市場(chǎng)。Xe架構(gòu)的GPU是英特爾22年后再次推出高性能獨(dú)立GPU，分為Xe LP（低功耗）、Xe HP（高性能）、Xe HPC微架構(gòu)，面向不同市場(chǎng)。

今年11月，英特爾發(fā)布了首款數(shù)據(jù)中心GPU，基于Xe-LP架構(gòu)，專為高密度、低時(shí)延的安卓云游戲和流媒體服務(wù)而設(shè)計(jì)。

英特爾GPU加Habana AI加速器能夠拿下多少云端訓(xùn)練市場(chǎng)的份額還有待觀察，但這同時(shí)也引出了一個(gè)新的問(wèn)題，云端AI芯片市場(chǎng)還有機(jī)會(huì)嗎？

云端AI芯片市場(chǎng)還有機(jī)會(huì)嗎？

“無(wú)論是AI的訓(xùn)練還是推理，CPU都扮演著重要角色，因?yàn)楹芏囝A(yù)處理AI加速卡和GPU不能處理，需要CPU與GPU/AI加速器的協(xié)同。比如推薦系統(tǒng)里，數(shù)據(jù)查表和分類CPU就非常擅長(zhǎng)。”于明揚(yáng)說(shuō)。

“整個(gè)AI中，CPU、GPU以及像Habana這樣的ASIC扮演著不同的角色，英特爾的優(yōu)勢(shì)在于無(wú)論任何環(huán)節(jié)，英特爾都有合適的產(chǎn)品和解決方案?！?/p>

看到XPU（CPU、GPU、FPGA、ASIC）價(jià)值的顯然不止英特爾。

今年9月，英偉達(dá)宣布將以400 億美元收購(gòu) Arm，Arm是創(chuàng)立于英國(guó)的IP公司，其Cortex CPU IP被廣泛應(yīng)用，如今正積極進(jìn)軍高性能計(jì)算市場(chǎng)，在TOP500榜單中已收獲不錯(cuò)的成績(jī)。如果收購(gòu)成功，Arm的CPU組合英偉達(dá)的GPU將幫助英偉達(dá)進(jìn)一步提升在高性能和AI市場(chǎng)的競(jìng)爭(zhēng)力。

如此看來(lái)，英特爾和英偉達(dá)不僅有性能強(qiáng)勁的硬件產(chǎn)品，還有強(qiáng)大的軟件和生態(tài)。除了科技巨頭自研的云端AI芯片，其他想要進(jìn)入云端AI芯片市場(chǎng)的公司還有機(jī)會(huì)嗎？對(duì)于這個(gè)問(wèn)題我們有理由保持積極的態(tài)度。

英特爾亞洲人工智能銷售技術(shù)總監(jiān)伊紅衛(wèi)說(shuō)：“2019年英特爾全球人工智能收入已經(jīng)達(dá)到38億美元了，AI是一個(gè)跨部門、跨產(chǎn)品的生意。在我看來(lái)，AI仍處于早期階段，還有很長(zhǎng)的路可以走，現(xiàn)在還是大浪淘沙的時(shí)候，我深信英特爾會(huì)成為弄潮兒。”

英特爾和英偉達(dá)在云端AI芯片市場(chǎng)將如何競(jìng)爭(zhēng)？AMD收購(gòu)賽靈思會(huì)帶來(lái)怎樣的變數(shù)？

黃仁勛說(shuō)收購(gòu)Arm是一生僅有一次的機(jī)會(huì)，Arm聯(lián)合創(chuàng)始人：阻止英偉達(dá)！

AMD 官宣 350 億美元收購(gòu)賽靈思

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

Habana Gaudi 云端AI芯片

「借」顯卡技術(shù)即將beta測(cè)試，多款新品發(fā)布，英特爾 ...

新榮耀進(jìn)入人員整合階段；小米宣布新一輪人事變動(dòng)； ...

3.5億美元的收購(gòu)失?。坑⑻貭枌⑼Ｖ筃NP-T開(kāi)發(fā)，專注 ...

云端AI芯片落地難題如何破解？

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

安謀科技的第六代NPU IP，為什么是通用NPU IP？

最新文章

誰(shuí)將定義中國(guó)智算未來(lái)？從系統(tǒng)可用的算力基建，到產(chǎn)業(yè)認(rèn)可的價(jià)值閉環(huán) ｜ GAIR 2025

AI算力新十年：技術(shù)革新、生態(tài)協(xié)同與商業(yè)閉環(huán)，共探“下一個(gè)寒武紀(jì)”之路 | GAIR 2025

海光CPU創(chuàng)始人唐志敏：軟件才是國(guó)產(chǎn)芯片公司的“命根子” | GAIR 2025

誰(shuí)將定義中國(guó)智算未來(lái)？GAIR 2025「AI算力新十年」論壇議程重磅公布

雙旗艦閉環(huán)落地，第五代驍龍8為高端體驗(yàn)提供「新選項(xiàng)」

清微智能完成超20億元C輪融資，北京產(chǎn)業(yè)國(guó)資領(lǐng)投，已啟動(dòng)上市籌備工作

熱門搜索

智能駕駛電動(dòng)汽車金融科技財(cái)報(bào) 監(jiān)管豐田奇點(diǎn) 酷派微博精選 ?？?/a> 藍(lán)牙