0
本文作者: 包永剛 | 2020-12-17 14:17 |
在利潤(rùn)豐厚的云端AI芯片市場(chǎng),英特爾和英偉達(dá)憑借CPU和GPU分別占領(lǐng)著云端AI推理和訓(xùn)練市場(chǎng)超九成的份額。即便如此,想要進(jìn)入云端芯片市場(chǎng)的挑戰(zhàn)者不少,但取得重大突破的挑戰(zhàn)者寥寥無(wú)幾,以色列公司Habana Labs算是其中一個(gè)。
近期舉行的AWS re:Invent 2020(亞馬遜 re:Invent 2020)大會(huì)上,AWS宣布采用最多8個(gè)Habana Gaudi加速器的EC2實(shí)例,性價(jià)比相較目前基于GPU的EC2實(shí)例提升高達(dá)40%,計(jì)劃2021年上半年提供使用。
Habana Labs在英偉達(dá)牢固的云端AI訓(xùn)練市場(chǎng)取得的突破能否進(jìn)一步擴(kuò)大?AI云端芯片市場(chǎng)真的只會(huì)是英特爾的英偉達(dá)占絕對(duì)主導(dǎo)嗎?
用40%性價(jià)比提升突破英偉達(dá)的GPU訓(xùn)練城墻
之所以說(shuō)Habana Labs在英偉達(dá)AI訓(xùn)練芯片的牢固城墻上打開(kāi)了一道口有兩個(gè)原因,一是在AI訓(xùn)練芯片市場(chǎng),英偉達(dá)GPU占有絕對(duì)的主導(dǎo)地位,像亞馬遜這樣的科技巨頭除了自研芯片,很少采用其它訓(xùn)練芯片,這是一個(gè)標(biāo)志性的突破。
另外,Gaudi加速器此次是在TensorFlow上訓(xùn)練ResNet-50模型展現(xiàn)出了更高的性價(jià)比,是單點(diǎn)突破,而非全面的優(yōu)勢(shì)。
根據(jù)AWS內(nèi)部的測(cè)試,Habana Labs的EC2實(shí)例比目前GPU在機(jī)器學(xué)習(xí)性價(jià)比上提升了40%。8卡的Gaudi解決方案可以在TensorFlow上每秒處理12000張圖像訓(xùn)練ResNet-50模型。
雷鋒網(wǎng)了解到,當(dāng)下眾多數(shù)據(jù)中心使用的Tesla V100 GPU,8卡訓(xùn)練TensorFlow ResNet-50的速度是7600張/秒。今年5月發(fā)布的最新英偉達(dá)A100 GPU 8卡則可以達(dá)到1.7萬(wàn)張/秒的速度。
可以看到,相比上一代V100 GPU,Gaudi有顯著優(yōu)勢(shì),但比最新A100 GPU性能還是有一定差距。功耗方面,根據(jù)英偉達(dá)官方的數(shù)據(jù),NVLink接口的A100 GPU最大功耗為400W,PCIe接口的A100最大功耗為250W。
Habana Labs中國(guó)區(qū)總經(jīng)理于明揚(yáng)告訴雷鋒網(wǎng),16納米制程的Gaudi功耗在260W-300W之間,功耗比A100 GPU略有一點(diǎn)優(yōu)勢(shì)。Habana Labs在現(xiàn)有制程和功耗上的表現(xiàn),說(shuō)明整個(gè)架構(gòu)相對(duì)A100 GPU沒(méi)有任何劣勢(shì),應(yīng)該還有一定的優(yōu)勢(shì)。
在工藝制程提升越來(lái)越難的當(dāng)下,通過(guò)架構(gòu)創(chuàng)新實(shí)現(xiàn)性能的提升更顯重要,特別是在模型參數(shù)越來(lái)越大的云端訓(xùn)練領(lǐng)域。于明揚(yáng)說(shuō):“我們芯片架構(gòu)設(shè)計(jì)有兩個(gè)重要的考量點(diǎn),一個(gè)是考慮芯片本身利用數(shù)據(jù)方面的需求,再一個(gè)是通過(guò)并行化解決數(shù)據(jù)需求?!?/p>
他進(jìn)一步表示,單一芯片架構(gòu)變化不會(huì)那么快,通過(guò)并行化對(duì)整個(gè)訓(xùn)練系統(tǒng)性能的提升會(huì)更加高效、實(shí)用。業(yè)界也認(rèn)識(shí)到片間互聯(lián)以及系統(tǒng)間互聯(lián)對(duì)整個(gè)訓(xùn)練系統(tǒng)性能的影響,因此在互聯(lián)上花費(fèi)更多精力去設(shè)計(jì)更加高效的訓(xùn)練系統(tǒng)應(yīng)對(duì)未來(lái)更大規(guī)模的模型。
Habana Gaudi的做法是每個(gè)處理器集成32GB的HBM2內(nèi)存,并集成用于服務(wù)器內(nèi)部處理器互聯(lián)的RoCE功能,可以使用多個(gè)基于Gaudi的系統(tǒng)實(shí)現(xiàn)高效和可擴(kuò)展的分布式訓(xùn)練。
但想要打動(dòng)已經(jīng)使用英偉達(dá)GPU訓(xùn)練AI的公司,性價(jià)比只是一方面。
“現(xiàn)在客戶接受新產(chǎn)品會(huì)同時(shí)考慮性價(jià)比和軟件生態(tài)。性價(jià)比要達(dá)到主流平臺(tái)的兩倍以上,客戶才有動(dòng)力去嘗試一個(gè)新平臺(tái)?!庇诿鲹P(yáng)說(shuō):“軟件方面需要客戶可以很方便和快捷的將現(xiàn)有模型移植到新的平臺(tái),并且只有很少的性能和精度損失。”
這就需要有一個(gè)比較好的軟件生態(tài),既提供完整的工具鏈,軟件也有很高的靈活度,最好能幫助客戶實(shí)現(xiàn)無(wú)縫遷移。于明揚(yáng)表示,“AWS選擇Habana也是這兩個(gè)考慮,一個(gè)是Habana目前在訓(xùn)練上性價(jià)比是唯一能挑戰(zhàn)英偉達(dá)的產(chǎn)品,另一個(gè)是軟件的易用性也被AWS接受?!?/strong>
據(jù)悉,與Gaudi匹配的Habana SynapseAI軟件套件與TensorFlow和Pythorch等流行的深度學(xué)習(xí)框架集成,并對(duì)Gaudi進(jìn)行了優(yōu)化。開(kāi)發(fā)人員將可以獲取開(kāi)放的Gaudi軟件、參考模型和文檔。
接下來(lái),Habana Labs能否進(jìn)一步打開(kāi)云端訓(xùn)練市場(chǎng),英特爾非常關(guān)鍵。
英特爾在AI訓(xùn)練市場(chǎng)雙重出擊
2020年1月,英特爾宣布以20億美元的價(jià)格收購(gòu)Habana。
談及為何選擇英特爾,于明揚(yáng)解釋,“考慮到保持企業(yè)的屬性不變持續(xù)提供產(chǎn)品和服務(wù),減少客戶的擔(dān)憂,我們更傾向于選擇一個(gè)中立的公司。英特爾對(duì)Habana而言是最理想的,一個(gè)是因?yàn)橛⑻貭栍凶銐虻目蛻羧海梢越o我們很多支持。另一個(gè)是能夠給我們帶來(lái)更加穩(wěn)定的技術(shù)資源和資金支持,增加客戶對(duì)我們的信任。”
Habana被英特爾收購(gòu)之后獨(dú)立運(yùn)營(yíng),團(tuán)隊(duì)規(guī)模擴(kuò)大了3倍,向Data Platform Group(數(shù)據(jù)中心事業(yè)部)匯報(bào),在銷(xiāo)售和市場(chǎng)方面與英特爾有非常緊密的合作。
雷鋒網(wǎng)了解到,AWS在明年一月份開(kāi)放Gaudi資源申請(qǐng)之后,大概需要經(jīng)過(guò)半年的時(shí)間才會(huì)給出明確的結(jié)論,之后才能看到Gaudi是否可以有比較大的量的突破。另外,Habana在國(guó)內(nèi)已經(jīng)與頭部和二線互聯(lián)網(wǎng)公司建立了廣泛的合作,它們基本已經(jīng)開(kāi)始試用Habana產(chǎn)品,有的客戶已經(jīng)開(kāi)始批量采購(gòu)。
Habana能否進(jìn)一步打開(kāi)云端訓(xùn)練市場(chǎng),產(chǎn)品的持續(xù)迭代,以及與英特爾的融合都是關(guān)鍵因素。
根據(jù)Habana的說(shuō)法,其下一代云端訓(xùn)練AI芯片Gaudi2將基于臺(tái)積電7nm工藝,在Gaudi效能的基礎(chǔ)上進(jìn)一步提升。同樣明確的是,Habana會(huì)把訓(xùn)練和推理的產(chǎn)品分開(kāi)。
“推理對(duì)性價(jià)比的關(guān)注度更高,數(shù)據(jù)可以一次性加載到芯片的片內(nèi)內(nèi)存中效率更高。但訓(xùn)練需要反復(fù)加載數(shù)據(jù),需要更大的片內(nèi)和片外內(nèi)存,還要提供高帶寬和低延遲,要將兩種特性結(jié)合是比較大的挑戰(zhàn)。我們會(huì)針對(duì)不同的場(chǎng)景提供更適合的產(chǎn)品,給客戶更好體驗(yàn)?!庇诿鲹P(yáng)解釋。
這些產(chǎn)品都會(huì)融入英特爾的體系,于明揚(yáng)透露:Gaudi計(jì)劃在明年加入oneAPI體系。
oneAPI是為了應(yīng)對(duì)異構(gòu)硬件帶來(lái)的軟件編程復(fù)雜性挑戰(zhàn),英特爾提出的統(tǒng)一軟件平臺(tái),不僅將其CPU、GPU、FPGA、ASIC納入到這一體系,還希望通過(guò)DCP++支持第三方芯片。
基于統(tǒng)一的軟件平臺(tái),英特爾還能使用最新的Xe架構(gòu)GPU角逐云端訓(xùn)練芯片市場(chǎng)。Xe架構(gòu)的GPU是英特爾22年后再次推出高性能獨(dú)立GPU,分為Xe LP(低功耗)、Xe HP(高性能)、Xe HPC微架構(gòu),面向不同市場(chǎng)。
今年11月,英特爾發(fā)布了首款數(shù)據(jù)中心GPU,基于Xe-LP架構(gòu),專為高密度、低時(shí)延的安卓云游戲和流媒體服務(wù)而設(shè)計(jì)。
英特爾GPU加Habana AI加速器能夠拿下多少云端訓(xùn)練市場(chǎng)的份額還有待觀察,但這同時(shí)也引出了一個(gè)新的問(wèn)題,云端AI芯片市場(chǎng)還有機(jī)會(huì)嗎?
云端AI芯片市場(chǎng)還有機(jī)會(huì)嗎?
“無(wú)論是AI的訓(xùn)練還是推理,CPU都扮演著重要角色,因?yàn)楹芏囝A(yù)處理AI加速卡和GPU不能處理,需要CPU與GPU/AI加速器的協(xié)同。比如推薦系統(tǒng)里,數(shù)據(jù)查表和分類(lèi)CPU就非常擅長(zhǎng)。”于明揚(yáng)說(shuō)。
“整個(gè)AI中,CPU、GPU以及像Habana這樣的ASIC扮演著不同的角色,英特爾的優(yōu)勢(shì)在于無(wú)論任何環(huán)節(jié),英特爾都有合適的產(chǎn)品和解決方案。”
看到XPU(CPU、GPU、FPGA、ASIC)價(jià)值的顯然不止英特爾。
今年9月,英偉達(dá)宣布將以400 億美元收購(gòu) Arm,Arm是創(chuàng)立于英國(guó)的IP公司,其Cortex CPU IP被廣泛應(yīng)用,如今正積極進(jìn)軍高性能計(jì)算市場(chǎng),在TOP500榜單中已收獲不錯(cuò)的成績(jī)。如果收購(gòu)成功,Arm的CPU組合英偉達(dá)的GPU將幫助英偉達(dá)進(jìn)一步提升在高性能和AI市場(chǎng)的競(jìng)爭(zhēng)力。
如此看來(lái),英特爾和英偉達(dá)不僅有性能強(qiáng)勁的硬件產(chǎn)品,還有強(qiáng)大的軟件和生態(tài)。除了科技巨頭自研的云端AI芯片,其他想要進(jìn)入云端AI芯片市場(chǎng)的公司還有機(jī)會(huì)嗎?對(duì)于這個(gè)問(wèn)題我們有理由保持積極的態(tài)度。
英特爾亞洲人工智能銷(xiāo)售技術(shù)總監(jiān)伊紅衛(wèi)說(shuō):“2019年英特爾全球人工智能收入已經(jīng)達(dá)到38億美元了,AI是一個(gè)跨部門(mén)、跨產(chǎn)品的生意。在我看來(lái),AI仍處于早期階段,還有很長(zhǎng)的路可以走,現(xiàn)在還是大浪淘沙的時(shí)候,我深信英特爾會(huì)成為弄潮兒。”
英特爾和英偉達(dá)在云端AI芯片市場(chǎng)將如何競(jìng)爭(zhēng)?AMD收購(gòu)賽靈思會(huì)帶來(lái)怎樣的變數(shù)?
相關(guān)文章:
成立僅三年就被收購(gòu)!英特爾20億美元收購(gòu)AI芯片公司Habana Labs
黃仁勛說(shuō)收購(gòu)Arm是一生僅有一次的機(jī)會(huì),Arm聯(lián)合創(chuàng)始人:阻止英偉達(dá)!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。