0
本文作者: 天諾 | 2016-06-23 11:55 |
編者按:百度首席科學(xué)官吳恩達(dá)在ISC大會(huì)上談到了超級(jí)計(jì)算能力如何在人工智能領(lǐng)域里應(yīng)用,他的同事,百度硅谷人工智能實(shí)驗(yàn)室高級(jí)研究員Greg Diamos在參加紐約第33屆機(jī)器學(xué)習(xí)國際大會(huì)上發(fā)表了關(guān)于基于GPU的深度學(xué)習(xí)論文。
Greg Diamos是百度硅谷人工智能實(shí)驗(yàn)室高級(jí)研究員,也是機(jī)器學(xué)習(xí)領(lǐng)域里的前沿人物。在加入百度公司之前,他在NVIDIA公司擔(dān)任研究科學(xué)家和架構(gòu)師(主要負(fù)責(zé)GPU流媒體多處理器和CUDA軟件)。 基于這些從業(yè)背景,Diamos很自然地進(jìn)入到基于GPU的深度學(xué)習(xí)領(lǐng)域。在介紹論文之前,Diamos回答一些問題,關(guān)于他的研究和他對(duì)機(jī)器學(xué)習(xí)的未來愿景。
在機(jī)器學(xué)習(xí)領(lǐng)域有兩股強(qiáng)大力量,一個(gè)是大數(shù)據(jù),或者說是隨著互聯(lián)網(wǎng)發(fā)展所帶來的大數(shù)據(jù)集;
另一個(gè)是深度學(xué)習(xí),或者說是探索如何高效訓(xùn)練非常深度的人工智能網(wǎng)絡(luò)。這兩股力量結(jié)合在一起,驅(qū)動(dòng)了很多硬件快速發(fā)展。
深度學(xué)習(xí)當(dāng)然可靠,它已經(jīng)是一項(xiàng)相當(dāng)領(lǐng)先的技術(shù),能夠解決真實(shí)世界里的計(jì)算機(jī)視覺和語言識(shí)別問題。很多領(lǐng)域里的問題之前都被認(rèn)為是無法解決的,但得益于深度學(xué)習(xí)技術(shù),目前都獲得了很大突破。
高效訓(xùn)練深度人工神經(jīng)網(wǎng)絡(luò)的能力,加上海量訓(xùn)練數(shù)據(jù),讓機(jī)器學(xué)習(xí)陷入到了一個(gè)計(jì)算限制體系之中,即便是世界上運(yùn)轉(zhuǎn)速度最快的計(jì)算機(jī)也會(huì)遇到瓶頸。我們已經(jīng)發(fā)現(xiàn),一個(gè)運(yùn)算速度更快的電腦能讓應(yīng)用程序有更好的表現(xiàn),舉個(gè)例子,速度越快的計(jì)算機(jī)會(huì)有更高的語音識(shí)別準(zhǔn)確度。
遞歸神經(jīng)網(wǎng)絡(luò)是能夠轉(zhuǎn)化數(shù)據(jù)序列的功能——舉個(gè)例子,他們可以把音頻信息轉(zhuǎn)化成文本,或是把一個(gè)英語句子轉(zhuǎn)化成一個(gè)中文句子。遞歸神經(jīng)網(wǎng)絡(luò)和其他深度人工神經(jīng)網(wǎng)絡(luò)很相似,但最主要的不同就是遞歸神經(jīng)網(wǎng)絡(luò)是按順序操作的(比如,一個(gè)任意長度的音頻信號(hào)),而不是固定大小的數(shù)據(jù)(比如一個(gè)固定大小的圖片)。
事實(shí)證明,通常深度學(xué)習(xí)算法會(huì)受到計(jì)算機(jī)計(jì)算能力的束縛,我們還沒有想出如何在大型處理集群的理論極限上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),所以對(duì)我們來說這里蘊(yùn)藏了一個(gè)很大的機(jī)遇。我們?cè)诎俣人赖淖羁斓倪f歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)得持續(xù)性能,和世界上處理速度最快的計(jì)算機(jī)的理論峰值相差大約2500倍。
我們工作的目的之一,就是試圖彌補(bǔ)這一差距,訓(xùn)練深度遞歸神經(jīng)網(wǎng)絡(luò)的可擴(kuò)展性。通過開發(fā)GPU,讓每個(gè)處理器的工作效率提高30倍,可擴(kuò)展性也變得更強(qiáng)。我們的技術(shù)提升了16倍的可擴(kuò)展性,比如想實(shí)現(xiàn)某個(gè)高性能處理級(jí)別,利用我們的技術(shù)需要8個(gè)GPU,而不使用我們的技術(shù)則需要128個(gè)GPU。在整個(gè)訓(xùn)練過程中,我們使用了128個(gè)GPU,相比于在單個(gè)GPU上的31%峰值浮點(diǎn)計(jì)算吞吐能力,我們實(shí)現(xiàn)了支持28%峰值浮點(diǎn)計(jì)算吞吐能力。
GPU和機(jī)器學(xué)習(xí)密切相關(guān),特別是深層神經(jīng)網(wǎng)絡(luò),GPU對(duì)你在百度研究和開發(fā)工作的重要程度如何? GPU對(duì)于機(jī)器學(xué)習(xí)來說非常重要,因?yàn)樗泻芨叩挠?jì)算吞吐量,特別是對(duì)于大多數(shù)機(jī)器休息和深度學(xué)習(xí)來說,都存在計(jì)算局限。
相比于其他技術(shù),在大規(guī)模計(jì)算集群上進(jìn)行可擴(kuò)展訓(xùn)練,可以在更大的數(shù)據(jù)集合上訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)。
最近五年的時(shí)間,我關(guān)注了兩件事情:峰值浮點(diǎn)吞吐量和支持深度學(xué)習(xí)的軟件。到目前為止,這兩類都是由GPU引領(lǐng)的,但其中肯定會(huì)有競(jìng)爭(zhēng)空間。如果其他處理器也想在這一領(lǐng)域里競(jìng)爭(zhēng),那么他們需要認(rèn)真對(duì)待軟件,特別地,利用簡(jiǎn)單C語言接口開發(fā)深度學(xué)習(xí)原始庫會(huì)更容易實(shí)現(xiàn)峰值性能。對(duì)于技術(shù)可擴(kuò)展性的局限問題,如果展望未來的話,我希望未來二十年所開發(fā)的處理器可以在300瓦特下以10 PFLOP/s和25MW下以150 EFLOP/s的速度訓(xùn)練深度學(xué)習(xí)模型。(注:一個(gè)PFLOPS(petaFLOPS)等于每秒一千萬億(=10的15次方)次的浮點(diǎn)運(yùn)算。)
我的研究能夠更快速地訓(xùn)練機(jī)器學(xué)習(xí)模型,到目前為止,不少研究成果已經(jīng)轉(zhuǎn)化成了更好的應(yīng)用效果,比如百度在語音識(shí)別的準(zhǔn)確度上有了很大提升。我認(rèn)為,對(duì)于那些開發(fā)高性能計(jì)算系統(tǒng)的人來說,這傳達(dá)了一個(gè)非常重要的信息——他們開發(fā)更快速的系統(tǒng),我們應(yīng)用機(jī)器學(xué)習(xí)解決實(shí)際問題,這之間存在著極密切的關(guān)聯(lián)。
VIA hpcwire
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。