0
本文作者: 天諾 | 2016-06-23 11:55 |
編者按:百度首席科學(xué)官吳恩達(dá)在ISC大會上談到了超級計算能力如何在人工智能領(lǐng)域里應(yīng)用,他的同事,百度硅谷人工智能實驗室高級研究員Greg Diamos在參加紐約第33屆機器學(xué)習(xí)國際大會上發(fā)表了關(guān)于基于GPU的深度學(xué)習(xí)論文。
Greg Diamos是百度硅谷人工智能實驗室高級研究員,也是機器學(xué)習(xí)領(lǐng)域里的前沿人物。在加入百度公司之前,他在NVIDIA公司擔(dān)任研究科學(xué)家和架構(gòu)師(主要負(fù)責(zé)GPU流媒體多處理器和CUDA軟件)。 基于這些從業(yè)背景,Diamos很自然地進(jìn)入到基于GPU的深度學(xué)習(xí)領(lǐng)域。在介紹論文之前,Diamos回答一些問題,關(guān)于他的研究和他對機器學(xué)習(xí)的未來愿景。
在機器學(xué)習(xí)領(lǐng)域有兩股強大力量,一個是大數(shù)據(jù),或者說是隨著互聯(lián)網(wǎng)發(fā)展所帶來的大數(shù)據(jù)集;
另一個是深度學(xué)習(xí),或者說是探索如何高效訓(xùn)練非常深度的人工智能網(wǎng)絡(luò)。這兩股力量結(jié)合在一起,驅(qū)動了很多硬件快速發(fā)展。
深度學(xué)習(xí)當(dāng)然可靠,它已經(jīng)是一項相當(dāng)領(lǐng)先的技術(shù),能夠解決真實世界里的計算機視覺和語言識別問題。很多領(lǐng)域里的問題之前都被認(rèn)為是無法解決的,但得益于深度學(xué)習(xí)技術(shù),目前都獲得了很大突破。
高效訓(xùn)練深度人工神經(jīng)網(wǎng)絡(luò)的能力,加上海量訓(xùn)練數(shù)據(jù),讓機器學(xué)習(xí)陷入到了一個計算限制體系之中,即便是世界上運轉(zhuǎn)速度最快的計算機也會遇到瓶頸。我們已經(jīng)發(fā)現(xiàn),一個運算速度更快的電腦能讓應(yīng)用程序有更好的表現(xiàn),舉個例子,速度越快的計算機會有更高的語音識別準(zhǔn)確度。
遞歸神經(jīng)網(wǎng)絡(luò)是能夠轉(zhuǎn)化數(shù)據(jù)序列的功能——舉個例子,他們可以把音頻信息轉(zhuǎn)化成文本,或是把一個英語句子轉(zhuǎn)化成一個中文句子。遞歸神經(jīng)網(wǎng)絡(luò)和其他深度人工神經(jīng)網(wǎng)絡(luò)很相似,但最主要的不同就是遞歸神經(jīng)網(wǎng)絡(luò)是按順序操作的(比如,一個任意長度的音頻信號),而不是固定大小的數(shù)據(jù)(比如一個固定大小的圖片)。
事實證明,通常深度學(xué)習(xí)算法會受到計算機計算能力的束縛,我們還沒有想出如何在大型處理集群的理論極限上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),所以對我們來說這里蘊藏了一個很大的機遇。我們在百度所知道的最快的遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)得持續(xù)性能,和世界上處理速度最快的計算機的理論峰值相差大約2500倍。
我們工作的目的之一,就是試圖彌補這一差距,訓(xùn)練深度遞歸神經(jīng)網(wǎng)絡(luò)的可擴(kuò)展性。通過開發(fā)GPU,讓每個處理器的工作效率提高30倍,可擴(kuò)展性也變得更強。我們的技術(shù)提升了16倍的可擴(kuò)展性,比如想實現(xiàn)某個高性能處理級別,利用我們的技術(shù)需要8個GPU,而不使用我們的技術(shù)則需要128個GPU。在整個訓(xùn)練過程中,我們使用了128個GPU,相比于在單個GPU上的31%峰值浮點計算吞吐能力,我們實現(xiàn)了支持28%峰值浮點計算吞吐能力。
GPU和機器學(xué)習(xí)密切相關(guān),特別是深層神經(jīng)網(wǎng)絡(luò),GPU對你在百度研究和開發(fā)工作的重要程度如何? GPU對于機器學(xué)習(xí)來說非常重要,因為它有很高的計算吞吐量,特別是對于大多數(shù)機器休息和深度學(xué)習(xí)來說,都存在計算局限。
相比于其他技術(shù),在大規(guī)模計算集群上進(jìn)行可擴(kuò)展訓(xùn)練,可以在更大的數(shù)據(jù)集合上訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)。
最近五年的時間,我關(guān)注了兩件事情:峰值浮點吞吐量和支持深度學(xué)習(xí)的軟件。到目前為止,這兩類都是由GPU引領(lǐng)的,但其中肯定會有競爭空間。如果其他處理器也想在這一領(lǐng)域里競爭,那么他們需要認(rèn)真對待軟件,特別地,利用簡單C語言接口開發(fā)深度學(xué)習(xí)原始庫會更容易實現(xiàn)峰值性能。對于技術(shù)可擴(kuò)展性的局限問題,如果展望未來的話,我希望未來二十年所開發(fā)的處理器可以在300瓦特下以10 PFLOP/s和25MW下以150 EFLOP/s的速度訓(xùn)練深度學(xué)習(xí)模型。(注:一個PFLOPS(petaFLOPS)等于每秒一千萬億(=10的15次方)次的浮點運算。)
我的研究能夠更快速地訓(xùn)練機器學(xué)習(xí)模型,到目前為止,不少研究成果已經(jīng)轉(zhuǎn)化成了更好的應(yīng)用效果,比如百度在語音識別的準(zhǔn)確度上有了很大提升。我認(rèn)為,對于那些開發(fā)高性能計算系統(tǒng)的人來說,這傳達(dá)了一個非常重要的信息——他們開發(fā)更快速的系統(tǒng),我們應(yīng)用機器學(xué)習(xí)解決實際問題,這之間存在著極密切的關(guān)聯(lián)。
VIA hpcwire
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。