專訪百度硅谷AI實(shí)驗(yàn)室高級(jí)研究員Greg Diamos：基于GPU的深度學(xué)習(xí)的可擴(kuò)展性

本文作者：天諾

2016-06-23 11:55

導(dǎo)語：Greg Diamos是百度硅谷人工智能實(shí)驗(yàn)室高級(jí)研究員，也是機(jī)器學(xué)習(xí)領(lǐng)域里的前沿人物，回答了一些關(guān)于他的研究以及對(duì)機(jī)器學(xué)習(xí)未來愿景的問題。

編者按：百度首席科學(xué)官吳恩達(dá)在ISC大會(huì)上談到了超級(jí)計(jì)算能力如何在人工智能領(lǐng)域里應(yīng)用，他的同事，百度硅谷人工智能實(shí)驗(yàn)室高級(jí)研究員Greg Diamos在參加紐約第33屆機(jī)器學(xué)習(xí)國際大會(huì)上發(fā)表了關(guān)于基于GPU的深度學(xué)習(xí)論文。

Greg Diamos是百度硅谷人工智能實(shí)驗(yàn)室高級(jí)研究員，也是機(jī)器學(xué)習(xí)領(lǐng)域里的前沿人物。在加入百度公司之前，他在NVIDIA公司擔(dān)任研究科學(xué)家和架構(gòu)師（主要負(fù)責(zé)GPU流媒體多處理器和CUDA軟件）。基于這些從業(yè)背景，Diamos很自然地進(jìn)入到基于GPU的深度學(xué)習(xí)領(lǐng)域。在介紹論文之前，Diamos回答一些問題，關(guān)于他的研究和他對(duì)機(jī)器學(xué)習(xí)的未來愿景。

你覺得目前這個(gè)機(jī)器學(xué)習(xí)時(shí)代有哪些特點(diǎn)？

在機(jī)器學(xué)習(xí)領(lǐng)域有兩股強(qiáng)大力量，一個(gè)是大數(shù)據(jù)，或者說是隨著互聯(lián)網(wǎng)發(fā)展所帶來的大數(shù)據(jù)集；

另一個(gè)是深度學(xué)習(xí)，或者說是探索如何高效訓(xùn)練非常深度的人工智能網(wǎng)絡(luò)。這兩股力量結(jié)合在一起，驅(qū)動(dòng)了很多硬件快速發(fā)展。

深度學(xué)習(xí)有很多興奮點(diǎn)——它可靠嗎？對(duì)于那些質(zhì)疑深度學(xué)習(xí)技術(shù)的人，你會(huì)對(duì)他們說些什么呢？

深度學(xué)習(xí)當(dāng)然可靠，它已經(jīng)是一項(xiàng)相當(dāng)領(lǐng)先的技術(shù)，能夠解決真實(shí)世界里的計(jì)算機(jī)視覺和語言識(shí)別問題。很多領(lǐng)域里的問題之前都被認(rèn)為是無法解決的，但得益于深度學(xué)習(xí)技術(shù)，目前都獲得了很大突破。

機(jī)器學(xué)習(xí)和高性能計(jì)算之間的關(guān)系是什么，它是如何進(jìn)化的？

高效訓(xùn)練深度人工神經(jīng)網(wǎng)絡(luò)的能力，加上海量訓(xùn)練數(shù)據(jù)，讓機(jī)器學(xué)習(xí)陷入到了一個(gè)計(jì)算限制體系之中，即便是世界上運(yùn)轉(zhuǎn)速度最快的計(jì)算機(jī)也會(huì)遇到瓶頸。我們已經(jīng)發(fā)現(xiàn)，一個(gè)運(yùn)算速度更快的電腦能讓應(yīng)用程序有更好的表現(xiàn)，舉個(gè)例子，速度越快的計(jì)算機(jī)會(huì)有更高的語音識(shí)別準(zhǔn)確度。

所以，在紐約舉辦的第33屆機(jī)器學(xué)習(xí)國際大會(huì)上你發(fā)布的論文，題目是持續(xù)遞歸神經(jīng)網(wǎng)絡(luò)：芯片上的存儲(chǔ)周期性權(quán)重。首先，你能不能解釋一下什么是遞歸神經(jīng)網(wǎng)絡(luò)，他們能夠解決什么問題呢？

遞歸神經(jīng)網(wǎng)絡(luò)是能夠轉(zhuǎn)化數(shù)據(jù)序列的功能——舉個(gè)例子，他們可以把音頻信息轉(zhuǎn)化成文本，或是把一個(gè)英語句子轉(zhuǎn)化成一個(gè)中文句子。遞歸神經(jīng)網(wǎng)絡(luò)和其他深度人工神經(jīng)網(wǎng)絡(luò)很相似，但最主要的不同就是遞歸神經(jīng)網(wǎng)絡(luò)是按順序操作的（比如，一個(gè)任意長度的音頻信號(hào)），而不是固定大小的數(shù)據(jù)（比如一個(gè)固定大小的圖片）。

你能說說論文大概涉及的內(nèi)容嗎？你準(zhǔn)備解決什么問題，還有目前已經(jīng)取得了什么成績？

事實(shí)證明，通常深度學(xué)習(xí)算法會(huì)受到計(jì)算機(jī)計(jì)算能力的束縛，我們還沒有想出如何在大型處理集群的理論極限上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，所以對(duì)我們來說這里蘊(yùn)藏了一個(gè)很大的機(jī)遇。我們在百度所知道的最快的遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練系統(tǒng)得持續(xù)性能，和世界上處理速度最快的計(jì)算機(jī)的理論峰值相差大約2500倍。

我們工作的目的之一，就是試圖彌補(bǔ)這一差距，訓(xùn)練深度遞歸神經(jīng)網(wǎng)絡(luò)的可擴(kuò)展性。通過開發(fā)GPU，讓每個(gè)處理器的工作效率提高30倍，可擴(kuò)展性也變得更強(qiáng)。我們的技術(shù)提升了16倍的可擴(kuò)展性，比如想實(shí)現(xiàn)某個(gè)高性能處理級(jí)別，利用我們的技術(shù)需要8個(gè)GPU，而不使用我們的技術(shù)則需要128個(gè)GPU。在整個(gè)訓(xùn)練過程中，我們使用了128個(gè)GPU，相比于在單個(gè)GPU上的31%峰值浮點(diǎn)計(jì)算吞吐能力，我們實(shí)現(xiàn)了支持28%峰值浮點(diǎn)計(jì)算吞吐能力。

GPU和機(jī)器學(xué)習(xí)密切相關(guān)，特別是深層神經(jīng)網(wǎng)絡(luò)，GPU對(duì)你在百度研究和開發(fā)工作的重要程度如何？ GPU對(duì)于機(jī)器學(xué)習(xí)來說非常重要，因?yàn)樗泻芨叩挠?jì)算吞吐量，特別是對(duì)于大多數(shù)機(jī)器休息和深度學(xué)習(xí)來說，都存在計(jì)算局限。

有一個(gè)相關(guān)問題——對(duì)于深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)負(fù)載而言，從過去的密集服務(wù)器，到現(xiàn)在的大規(guī)模計(jì)算集群提供了哪些可擴(kuò)展性？

相比于其他技術(shù)，在大規(guī)模計(jì)算集群上進(jìn)行可擴(kuò)展訓(xùn)練，可以在更大的數(shù)據(jù)集合上訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)。

你是如何看待其他處理架構(gòu)的(Xeon Phi Knights Landing, FPGAs, ASICs, DSPs, ARM 等等)?

最近五年的時(shí)間，我關(guān)注了兩件事情：峰值浮點(diǎn)吞吐量和支持深度學(xué)習(xí)的軟件。到目前為止，這兩類都是由GPU引領(lǐng)的，但其中肯定會(huì)有競爭空間。如果其他處理器也想在這一領(lǐng)域里競爭，那么他們需要認(rèn)真對(duì)待軟件，特別地，利用簡單C語言接口開發(fā)深度學(xué)習(xí)原始庫會(huì)更容易實(shí)現(xiàn)峰值性能。對(duì)于技術(shù)可擴(kuò)展性的局限問題，如果展望未來的話，我希望未來二十年所開發(fā)的處理器可以在300瓦特下以10 PFLOP/s和25MW下以150 EFLOP/s的速度訓(xùn)練深度學(xué)習(xí)模型。（注：一個(gè)PFLOPS（petaFLOPS）等于每秒一千萬億（=10的15次方）次的浮點(diǎn)運(yùn)算。）

百度在圖像識(shí)別、語音識(shí)別、自動(dòng)駕駛汽車開發(fā)等領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)，你所做的研究對(duì)這些工作有哪些幫助呢？

我的研究能夠更快速地訓(xùn)練機(jī)器學(xué)習(xí)模型，到目前為止，不少研究成果已經(jīng)轉(zhuǎn)化成了更好的應(yīng)用效果，比如百度在語音識(shí)別的準(zhǔn)確度上有了很大提升。我認(rèn)為，對(duì)于那些開發(fā)高性能計(jì)算系統(tǒng)的人來說，這傳達(dá)了一個(gè)非常重要的信息——他們開發(fā)更快速的系統(tǒng)，我們應(yīng)用機(jī)器學(xué)習(xí)解決實(shí)際問題，這之間存在著極密切的關(guān)聯(lián)。

VIA hpcwire

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

天諾

編輯

發(fā)私信

當(dāng)月熱門文章

專訪百度硅谷AI實(shí)驗(yàn)室高級(jí)研究員Greg Diamos：基于GPU的深度學(xué)習(xí)的可擴(kuò)展性

你覺得目前這個(gè)機(jī)器學(xué)習(xí)時(shí)代有哪些特點(diǎn)？

深度學(xué)習(xí)有很多興奮點(diǎn)——它可靠嗎？對(duì)于那些質(zhì)疑深度學(xué)習(xí)技術(shù)的人，你會(huì)對(duì)他們說些什么呢？

機(jī)器學(xué)習(xí)和高性能計(jì)算之間的關(guān)系是什么，它是如何進(jìn)化的？

你能說說論文大概涉及的內(nèi)容嗎？你準(zhǔn)備解決什么問題，還有目前已經(jīng)取得了什么成績？

有一個(gè)相關(guān)問題——對(duì)于深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)負(fù)載而言，從過去的密集服務(wù)器，到現(xiàn)在的大規(guī)模計(jì)算集群提供了哪些可擴(kuò)展性？