0
本文作者: 楊曉凡 | 2017-05-11 15:02 |
雷鋒網(wǎng)AI科技評(píng)論消息,美國(guó)時(shí)間5月10日,NVIDIA CEO黃仁勛在開(kāi)發(fā)者大會(huì)GTC2017上發(fā)布新一代GPU架構(gòu)Volta,首款核心為GV100,采用臺(tái)積電12nm制程,最大亮點(diǎn)是成倍提升了推理性能,意欲在目前稱霸機(jī)器學(xué)習(xí)訓(xùn)練場(chǎng)景的基礎(chǔ)上,在推理場(chǎng)景也成為最佳商用選擇。
據(jù)雷鋒網(wǎng)了解,Volta架構(gòu)GV100 GPU采用臺(tái)積電(TSMC)12nm FFN制程,具有5120個(gè)CUDA核心。相比上一代16nm制程的Pascal架構(gòu)GPU GP100,晶體管數(shù)目增加了38%,達(dá)到了驚人的211億個(gè);核心面積也繼續(xù)增加33%,達(dá)到令人生畏的815mm2,約等于一塊Apple Watch的面積,據(jù)黃仁勛稱這樣的面積已經(jīng)達(dá)到了制造工藝極限。隨著核心的增大,GV100的單、雙精度浮點(diǎn)性能也大幅提升了41%。然而這還不是重點(diǎn),為了滿足GPU在機(jī)器學(xué)習(xí)中的性能需求,Volta架構(gòu)中引入了新的張量運(yùn)算指令Tensor Core,讓機(jī)器學(xué)習(xí)中訓(xùn)練速度提升約3倍、推理性能提升約10倍(相比上一代自家GPU GP100)。
GV100搭載在TESLA V100開(kāi)發(fā)板上亮相,配合來(lái)自三星的16GB HBM2顯存,顯存帶寬也達(dá)到了900GB/s之高。
根據(jù)現(xiàn)場(chǎng)演講PPT,推理場(chǎng)景下,V100比上一代搭載GP100 CPU的P100板卡,圖像處理能力提升了約10倍,延遲也下降了約30%。在這樣的性能提升之下,GPU已經(jīng)可以讓FPGA和ASIC幾乎沒(méi)有用武之地,在商用場(chǎng)景中幾乎滿足全部計(jì)算需求。(詳細(xì)分析見(jiàn)文末)
隨著GV100 GPU發(fā)布,NVIDIA的深度學(xué)習(xí)超級(jí)計(jì)算機(jī)也進(jìn)行了升級(jí)。老款DGX-1把原有Pascal GPU升級(jí)為Volta GPU,名字也更新為DGX-1V。它內(nèi)置八塊 Tesla V100開(kāi)發(fā)板,合計(jì)顯存128G、運(yùn)算能力為 960 Tensor TFLOPS,即將邁入下一個(gè)時(shí)代。黃仁勛表示,過(guò)去 Titan X 需花費(fèi)八天訓(xùn)練的神經(jīng)網(wǎng)絡(luò),用 DGX-1V 只需八個(gè)小時(shí)。它相當(dāng)于是“把 400 個(gè)服務(wù)器裝進(jìn)一個(gè)盒子里”。
DGX Station 則是縮小版的 DGX-1V,黃仁勛稱其為“Personal DGX”,堪稱是終極個(gè)人深度學(xué)習(xí)電腦,各方面指標(biāo)均為DGX-1V的一半,但仍然已經(jīng)非常強(qiáng)大。英偉達(dá)內(nèi)部使用DGX Station已經(jīng)很久,每個(gè)工程師要么有 DGX-1V,要么有 DGX Station,再要么兩個(gè)都有。既然它確實(shí)能夠滿足工程師的需求,英偉達(dá)決定把這款產(chǎn)品推廣給公眾市場(chǎng)。
據(jù)雷鋒網(wǎng)AI科技評(píng)論了解,機(jī)器學(xué)習(xí)中需要用到高計(jì)算性能的場(chǎng)景有兩種,一種是訓(xùn)練,通過(guò)反復(fù)計(jì)算來(lái)調(diào)整神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的參數(shù);另一種是推理,用已經(jīng)確定的參數(shù)批量化解決預(yù)定任務(wù)。而在這兩種場(chǎng)景中,共有三種硬件在進(jìn)行競(jìng)爭(zhēng),GPU、FPGA和ASIC。
GPU(以前是Graphics Processing Unit圖形計(jì)算單元,如今已經(jīng)是General Processing Unit通用計(jì)算單元)具有高的計(jì)算能力、高級(jí)開(kāi)發(fā)環(huán)境、不影響機(jī)器學(xué)習(xí)算法切換的優(yōu)點(diǎn),雖然同等計(jì)算能力下能耗最高,但仍然在算法開(kāi)發(fā)和機(jī)器學(xué)習(xí)訓(xùn)練場(chǎng)景中占據(jù)絕對(duì)的市場(chǎng)地位。
FPGA(Field-Programmable Gate Array,現(xiàn)場(chǎng)可編程矩陣門(mén))是一種半成型的硬件,需要通過(guò)編程定義其中的單元配置和鏈接架構(gòu)才能進(jìn)行計(jì)算,相當(dāng)于也具有很高的通用性,功耗也較低,但開(kāi)發(fā)成本很高、不便于隨時(shí)修改,訓(xùn)練場(chǎng)景下的性能不如GPU。
ASIC(Application Specific Integrated Circuits,專用集成電路)是根據(jù)確定的算法設(shè)計(jì)制造的專用電路,看起來(lái)就是一塊普通的芯片。由于是專用電路,可以高效低能耗地完成設(shè)計(jì)任務(wù),但是由于是專用設(shè)計(jì)的,所以只能執(zhí)行本來(lái)設(shè)計(jì)的任務(wù),在做出來(lái)以后想要改變算法是不可能的。谷歌的TPU(Tensor Processing Unit張量處理單元)就是一種介于ASIC和FPGA之間的芯片,只有部分的可定制性,目的是對(duì)確定算法的高效執(zhí)行。
所以目前的狀況是,雖然GPU在算法開(kāi)發(fā)和機(jī)器學(xué)習(xí)訓(xùn)練場(chǎng)景中占有絕對(duì)地位;但是由于FPGA和ASIC在任務(wù)和算法確定的情況下,在長(zhǎng)期穩(wěn)定大規(guī)模執(zhí)行(推理)方面有很大優(yōu)勢(shì),所以GPU跟FPGA和ASIC之間還算互有進(jìn)退,尤其GPU相同性能下功耗很高,對(duì)大規(guī)模計(jì)算中心來(lái)說(shuō)電費(fèi)都是很高的負(fù)擔(dān)。但隨著GV100對(duì)推理計(jì)算能力的約10倍提升,商用場(chǎng)景下已經(jīng)沒(méi)有必要為了推理場(chǎng)景更換硬件了,同一套GPU可以在訓(xùn)練場(chǎng)景的計(jì)算能力和推理場(chǎng)景的計(jì)算能力同時(shí)達(dá)到同功耗下最佳,還具有最好的拓展和修改能力,簡(jiǎn)直別無(wú)所求。
面對(duì)提升如此明顯的GPU,一眾投身機(jī)器學(xué)習(xí)硬件的FGPA和ASIC廠商前景令人擔(dān)憂。也許現(xiàn)在唯一能讓他們松口氣的就是GV100 GPU的量產(chǎn)出貨時(shí)間要到2017年三四季度。等2018年,希望大規(guī)模部署后的GV100能用成倍提升后的性能給我們帶來(lái)新的驚喜。
AI科技評(píng)論招業(yè)界記者啦!
在這里,你可以密切關(guān)注海外會(huì)議的大牛演講;可以采訪國(guó)內(nèi)巨頭實(shí)驗(yàn)室的技術(shù)專家;對(duì)人工智能的動(dòng)態(tài)了如指掌;更能深入剖析AI前沿的技術(shù)與未來(lái)!
如果你:
*對(duì)人工智能有一定的興趣或了解
* 求知欲強(qiáng),具備強(qiáng)大的學(xué)習(xí)能力
* 有AI業(yè)界報(bào)道或者媒體經(jīng)驗(yàn)優(yōu)先
簡(jiǎn)歷投遞:
lizongren@leiphone.com
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。