1
本文作者: 吳德新 | 2017-03-05 15:50 |
2016年4月,NVIDIA 在硅谷發(fā)布了深度學(xué)習(xí)超級計算機(jī)DGX-1。這臺超級計算機(jī)在86cm x 44cm x 13cm的空間內(nèi)裝入了8塊Tesla P100 GPU,其性能相當(dāng)于250臺傳統(tǒng)服務(wù)器。同時DGX-1的售價也高達(dá)12.9萬美金。
從4月發(fā)布到9月開始交付,根據(jù)NVIDIA 公布的數(shù)據(jù),到2016年秋季DGX-1一共收到了接近100家公司的訂單。在美國,第一批的DGX-1被交付給包括OpenAI、斯坦福AI實驗室、伯克利AI研究室等一批頂級研究機(jī)構(gòu)。而在國內(nèi),第一批超級計算機(jī)也已于去年10月開始交付。
3個月后,雷鋒網(wǎng)采訪了負(fù)責(zé)網(wǎng)易在人工智能等前沿領(lǐng)域研究的網(wǎng)易感知與智能中心總經(jīng)理李曉燕。據(jù)說在過去3個月里,這里也是國內(nèi)最快開展DGX-1應(yīng)用的機(jī)構(gòu)。李曉燕告訴我們,這臺DGX-1在2016年10月中下旬交貨,只用半天時間就部署完畢了。在之后的時間里,這臺機(jī)器主要被用在深度學(xué)習(xí)的模型訓(xùn)練,在業(yè)務(wù)上則是支持網(wǎng)易的圖像識別、語音識別、機(jī)器翻譯等應(yīng)用。
同在感知與智能中心的技術(shù)專家劉東則告訴雷鋒網(wǎng),中心大量使用GPU來進(jìn)行深度學(xué)習(xí)訓(xùn)練,DGX-1帶來主要的好處是加速模型訓(xùn)練,此前在單節(jié)點上進(jìn)行中等規(guī)模的數(shù)據(jù)集訓(xùn)練可能需要1個月時間,現(xiàn)在使用DGX-1大約7 - 10天就會有結(jié)果,也就是說能試驗更多的算法,產(chǎn)品更新也會更快。
2011年,當(dāng)時剛研完博士后的李曉燕在網(wǎng)易成立了網(wǎng)易多媒體技術(shù)組,這個部門后來發(fā)展成了今天覆蓋算法、開發(fā)和業(yè)務(wù)孵化的感知與智能中心。一直為網(wǎng)易的各個業(yè)務(wù)提供人工智能相關(guān)的技術(shù)支撐,并且在逐步對外開放技術(shù)。
李曉燕說,網(wǎng)易的人工智能開發(fā)更多的是從業(yè)務(wù)出發(fā),為網(wǎng)易業(yè)務(wù)提供“特別算法”,優(yōu)化體驗 。該中心自主研發(fā)的人臉分析、圖像處理、音樂識別、語音識別、智能問答、機(jī)器翻譯、機(jī)器視覺、計算機(jī)圖形學(xué)、增強(qiáng)現(xiàn)實引擎等AI相關(guān)技術(shù),在郵箱、游戲、云音樂、網(wǎng)易云、電商、有道、新聞等網(wǎng)易集團(tuán)全產(chǎn)品線中都得到了應(yīng)用和推廣,實現(xiàn)了網(wǎng)易全產(chǎn)業(yè)鏈AI落地。
今天網(wǎng)易的感知與智能中心,擁有自建分布式深度學(xué)習(xí)平臺,包括底層深度學(xué)習(xí)GPU集群、深度學(xué)習(xí)模型、開放能力接口,以及深度學(xué)習(xí)、語音音頻、計算機(jī)視覺、模式識別、人機(jī)交互、異構(gòu)計算等技術(shù),在業(yè)務(wù)上支撐網(wǎng)易的郵箱、游戲、云音樂、網(wǎng)易云、電商、有道等等,也為企業(yè)客戶和消費者提供AR、BOT、AI開放平臺等產(chǎn)品和服務(wù),目前已經(jīng)與很多行業(yè)龍頭企業(yè)展開了合作。
劉東回憶,在應(yīng)用深度學(xué)習(xí)進(jìn)行開發(fā)的早期,他們很快發(fā)現(xiàn)用CPU做模型訓(xùn)練效率很低。2012年他們就把大部分模型訓(xùn)練和推理遷移到了GPU上。
而與深度學(xué)習(xí)的其他硬件加速方案相比,GPU有明顯的開發(fā)效率上的優(yōu)勢。劉東告訴我們,在深度模型推理部分,如果利用FPGA做加速,完成編碼、仿真、調(diào)試驗證等整個流程一般需要數(shù)周甚至數(shù)月時間。相比之下,基于GPU方案可能一周就能完成。這顯然更符合互聯(lián)網(wǎng)產(chǎn)品更新的節(jié)奏。
而從NVIDIA 幾代GPU,從K系列 - M系列 - P系列的使用來看,每一代在性能上都有很顯著的提升,并且在軟件服務(wù)端更新地很快。比如NVIDIA 在去年專門推出了針對LSTM網(wǎng)絡(luò)計算加速的SDK升級,這在機(jī)器翻譯等自然語言處理項目中被廣泛使用到。
NVIDIA 內(nèi)部跟深度學(xué)習(xí)圈子有大量的互動,包括與DGX-1的客戶也保持著密切的溝通,在深入了解企業(yè)使用情況與行業(yè)需求的基礎(chǔ)上,進(jìn)一步提升相關(guān)技術(shù)和用戶體驗。同時,NVIDIA本身也是DGX-1的深度用戶,通過在眾多領(lǐng)域應(yīng)用DGX-1向工程團(tuán)隊提出反饋和建議。
一名NVIDIA 的工作人員告訴雷鋒網(wǎng),在GTC前夕,NVIDIA 通常會舉辦一個小型的深度學(xué)習(xí)峰會,一般會邀請深度學(xué)習(xí)領(lǐng)域的大牛以及創(chuàng)業(yè)公司,一起探討下一代硬件和軟件如何更好地支持各種研究和應(yīng)用。黃仁勛在內(nèi)部對此相當(dāng)重視。此外,今年即將于5月在硅谷舉辦的GTC,也將會有涉及DGX-1用戶、醫(yī)療、公共服務(wù)等的專場論壇來做相關(guān)探討。
前Orbeus首席科學(xué)家Wei Xia在知乎上的回答也印證了這個說法:“我還記得我們當(dāng)時提了關(guān)于訓(xùn)練的時候如何visualize的問題,并給他們展示了我們當(dāng)時自己開發(fā)的簡陋版monitoring system,過了幾個月他們在發(fā)布Digit-Box的時候就有一個還不錯的visualization system了。”
從NVIDIA 的角度看,過去一年它在深度學(xué)習(xí)的軟硬件提供上繼續(xù)完善,DGX-1補充了強(qiáng)勁的訓(xùn)練平臺,而Tesla P40、P4則是強(qiáng)調(diào)能效的推理產(chǎn)品線。
NVIDIA 方面告訴我們,目前在國內(nèi),除了網(wǎng)易,海康威視等多家機(jī)構(gòu)都在部署DGX-1。眼下在12.9萬美金的高價之下,大公司和資金充裕的研究機(jī)構(gòu)會是DGX-1的第一批嘗鮮者。但在1 - 2個季度之后,這一情況也有可能會發(fā)生變化。一個原因是與NVIDIA 合作的OEM廠商們將會推出各自品牌、不同規(guī)格的深度學(xué)習(xí)超級計算機(jī)。
更重要的一方面在于中小型機(jī)構(gòu)的應(yīng)用。NVIDIA 在醫(yī)療領(lǐng)域的合作伙伴承藍(lán)科技CEO姜意告訴雷鋒網(wǎng),DGX-1的推出可能會幫助科研院校還有醫(yī)院一類機(jī)構(gòu)對深度學(xué)習(xí)進(jìn)行快速部署,對于IT能力較弱的機(jī)構(gòu)來說,接近“即插即用”的深度學(xué)習(xí)超級計算機(jī)是具有誘惑力的,尤其當(dāng)這些應(yīng)用本身有很高附加值的時候。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。