國內(nèi)最快落地應(yīng)用的DGX-1，我們采訪了“首吃螃蟹”的網(wǎng)易

本文作者：吳德新

2017-03-05 15:50

導(dǎo)語：3個月后，雷鋒網(wǎng)采訪了負(fù)責(zé)網(wǎng)易在人工智能等前沿領(lǐng)域研究的網(wǎng)易感知與智能中心總經(jīng)理李曉燕。據(jù)說在過去3個月里，這里也是國內(nèi)最快開展DGX-1應(yīng)用的機(jī)構(gòu)。

2016年4月，NVIDIA 在硅谷發(fā)布了深度學(xué)習(xí)超級計算機(jī)DGX-1。這臺超級計算機(jī)在86cm x 44cm x 13cm的空間內(nèi)裝入了8塊Tesla P100 GPU，其性能相當(dāng)于250臺傳統(tǒng)服務(wù)器。同時DGX-1的售價也高達(dá)12.9萬美金。

從4月發(fā)布到9月開始交付，根據(jù)NVIDIA 公布的數(shù)據(jù)，到2016年秋季DGX-1一共收到了接近100家公司的訂單。在美國，第一批的DGX-1被交付給包括OpenAI、斯坦福AI實驗室、伯克利AI研究室等一批頂級研究機(jī)構(gòu)。而在國內(nèi)，第一批超級計算機(jī)也已于去年10月開始交付。

3個月后，雷鋒網(wǎng)采訪了負(fù)責(zé)網(wǎng)易在人工智能等前沿領(lǐng)域研究的網(wǎng)易感知與智能中心總經(jīng)理李曉燕。據(jù)說在過去3個月里，這里也是國內(nèi)最快開展DGX-1應(yīng)用的機(jī)構(gòu)。李曉燕告訴我們，這臺DGX-1在2016年10月中下旬交貨，只用半天時間就部署完畢了。在之后的時間里，這臺機(jī)器主要被用在深度學(xué)習(xí)的模型訓(xùn)練，在業(yè)務(wù)上則是支持網(wǎng)易的圖像識別、語音識別、機(jī)器翻譯等應(yīng)用。

同在感知與智能中心的技術(shù)專家劉東則告訴雷鋒網(wǎng)，中心大量使用GPU來進(jìn)行深度學(xué)習(xí)訓(xùn)練，DGX-1帶來主要的好處是加速模型訓(xùn)練，此前在單節(jié)點上進(jìn)行中等規(guī)模的數(shù)據(jù)集訓(xùn)練可能需要1個月時間，現(xiàn)在使用DGX-1大約7 - 10天就會有結(jié)果，也就是說能試驗更多的算法，產(chǎn)品更新也會更快。

網(wǎng)易的人工智能部門是什么樣子？

2011年，當(dāng)時剛研完博士后的李曉燕在網(wǎng)易成立了網(wǎng)易多媒體技術(shù)組，這個部門后來發(fā)展成了今天覆蓋算法、開發(fā)和業(yè)務(wù)孵化的感知與智能中心。一直為網(wǎng)易的各個業(yè)務(wù)提供人工智能相關(guān)的技術(shù)支撐，并且在逐步對外開放技術(shù)。

李曉燕說，網(wǎng)易的人工智能開發(fā)更多的是從業(yè)務(wù)出發(fā)，為網(wǎng)易業(yè)務(wù)提供“特別算法”，優(yōu)化體驗。該中心自主研發(fā)的人臉分析、圖像處理、音樂識別、語音識別、智能問答、機(jī)器翻譯、機(jī)器視覺、計算機(jī)圖形學(xué)、增強(qiáng)現(xiàn)實引擎等AI相關(guān)技術(shù)，在郵箱、游戲、云音樂、網(wǎng)易云、電商、有道、新聞等網(wǎng)易集團(tuán)全產(chǎn)品線中都得到了應(yīng)用和推廣，實現(xiàn)了網(wǎng)易全產(chǎn)業(yè)鏈AI落地。

今天網(wǎng)易的感知與智能中心，擁有自建分布式深度學(xué)習(xí)平臺，包括底層深度學(xué)習(xí)GPU集群、深度學(xué)習(xí)模型、開放能力接口，以及深度學(xué)習(xí)、語音音頻、計算機(jī)視覺、模式識別、人機(jī)交互、異構(gòu)計算等技術(shù)，在業(yè)務(wù)上支撐網(wǎng)易的郵箱、游戲、云音樂、網(wǎng)易云、電商、有道等等，也為企業(yè)客戶和消費者提供AR、BOT、AI開放平臺等產(chǎn)品和服務(wù)，目前已經(jīng)與很多行業(yè)龍頭企業(yè)展開了合作。

深度學(xué)習(xí)的硬件發(fā)展

劉東回憶，在應(yīng)用深度學(xué)習(xí)進(jìn)行開發(fā)的早期，他們很快發(fā)現(xiàn)用CPU做模型訓(xùn)練效率很低。2012年他們就把大部分模型訓(xùn)練和推理遷移到了GPU上。

而與深度學(xué)習(xí)的其他硬件加速方案相比，GPU有明顯的開發(fā)效率上的優(yōu)勢。劉東告訴我們，在深度模型推理部分，如果利用FPGA做加速，完成編碼、仿真、調(diào)試驗證等整個流程一般需要數(shù)周甚至數(shù)月時間。相比之下，基于GPU方案可能一周就能完成。這顯然更符合互聯(lián)網(wǎng)產(chǎn)品更新的節(jié)奏。

而從NVIDIA 幾代GPU，從K系列 - M系列 - P系列的使用來看，每一代在性能上都有很顯著的提升，并且在軟件服務(wù)端更新地很快。比如NVIDIA 在去年專門推出了針對LSTM網(wǎng)絡(luò)計算加速的SDK升級，這在機(jī)器翻譯等自然語言處理項目中被廣泛使用到。

NVIDIA 內(nèi)部跟深度學(xué)習(xí)圈子有大量的互動，包括與DGX-1的客戶也保持著密切的溝通，在深入了解企業(yè)使用情況與行業(yè)需求的基礎(chǔ)上，進(jìn)一步提升相關(guān)技術(shù)和用戶體驗。同時，NVIDIA本身也是DGX-1的深度用戶，通過在眾多領(lǐng)域應(yīng)用DGX-1向工程團(tuán)隊提出反饋和建議。

一名NVIDIA 的工作人員告訴雷鋒網(wǎng)，在GTC前夕，NVIDIA 通常會舉辦一個小型的深度學(xué)習(xí)峰會，一般會邀請深度學(xué)習(xí)領(lǐng)域的大牛以及創(chuàng)業(yè)公司，一起探討下一代硬件和軟件如何更好地支持各種研究和應(yīng)用。黃仁勛在內(nèi)部對此相當(dāng)重視。此外，今年即將于5月在硅谷舉辦的GTC，也將會有涉及DGX-1用戶、醫(yī)療、公共服務(wù)等的專場論壇來做相關(guān)探討。

前Orbeus首席科學(xué)家Wei Xia在知乎上的回答也印證了這個說法：“我還記得我們當(dāng)時提了關(guān)于訓(xùn)練的時候如何visualize的問題，并給他們展示了我們當(dāng)時自己開發(fā)的簡陋版monitoring system，過了幾個月他們在發(fā)布Digit-Box的時候就有一個還不錯的visualization system了?！?/p>

從NVIDIA 的角度看，過去一年它在深度學(xué)習(xí)的軟硬件提供上繼續(xù)完善，DGX-1補(bǔ)充了強(qiáng)勁的訓(xùn)練平臺，而Tesla P40、P4則是強(qiáng)調(diào)能效的推理產(chǎn)品線。

NVIDIA 方面告訴我們，目前在國內(nèi)，除了網(wǎng)易，?？低暤榷嗉覚C(jī)構(gòu)都在部署DGX-1。眼下在12.9萬美金的高價之下，大公司和資金充裕的研究機(jī)構(gòu)會是DGX-1的第一批嘗鮮者。但在1 - 2個季度之后，這一情況也有可能會發(fā)生變化。一個原因是與NVIDIA 合作的OEM廠商們將會推出各自品牌、不同規(guī)格的深度學(xué)習(xí)超級計算機(jī)。

更重要的一方面在于中小型機(jī)構(gòu)的應(yīng)用。NVIDIA 在醫(yī)療領(lǐng)域的合作伙伴承藍(lán)科技CEO姜意告訴雷鋒網(wǎng)，DGX-1的推出可能會幫助科研院校還有醫(yī)院一類機(jī)構(gòu)對深度學(xué)習(xí)進(jìn)行快速部署，對于IT能力較弱的機(jī)構(gòu)來說，接近“即插即用”的深度學(xué)習(xí)超級計算機(jī)是具有誘惑力的，尤其當(dāng)這些應(yīng)用本身有很高附加值的時候。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。