百度吳恩達：怎樣用GPU來造人工智能“火箭” | GTC China 2016

本文作者：吳德新

2016-09-14 09:30

專題：GPU引爆中國新興企業(yè)——GTC CHINA2016大會專題

導語：到底什么是神經網絡，為什么GPU非常適合對神經網絡的訓練。

編者按：本文是百度首席科學家吳恩達在GTC China 2016上的演講實錄整理。在今年的GTC China上，吳恩達的議題分享是到底什么是神經網絡，為什么GPU非常適合對神經網絡的訓練。

大家好，現(xiàn)在人們說人工智能是新的電能。電能改變了很多不同的行業(yè)，我覺得現(xiàn)在人工智能也會對很多行業(yè)帶來一樣大的改變?，F(xiàn)在人工智能的計算大部分都需要依賴GPU，我今天想跟大家分享這是為什么，也跟大家分享一下人工智能對你們的工作會有怎么樣的影響。

我們在人工智能領域的人都是非常幸運的，因為很早的時候大家還不清楚深度學習是多么的重要，當時黃仁勛就在人工智能方面做了很多工作，生產出這種GPU的平臺，使得百度和其他公司能夠取得很多的成就。

兩個星期之前，百度發(fā)布了很多技術為大家提供服務，其中很多都是使用機器學習和深度學習，尤其是基于GPU的學習來進行訓練的。到底什么是深度學習，我們往往會把它和大腦中的神經元做一個類比，我希望更深地介紹一下技術方面的問題，到底什么是神經網絡，為什么我們覺得GPU非常適合對這些神經網絡進行訓練。

我們所做的深度學習的工作99%都可以類比成將不同的矩陣進行相乘或者矩陣和向量進行相乘。從第一天開始，GPU在矩陣相乘上就是非常高效的，所以整個領域都使用GPU平臺來做他們的工作。

當下，基本上所有AI的經濟價值都來自于一種叫做監(jiān)督式學習的模式。

什么叫做監(jiān)督式學習？輸入什么就輸出什么，如果說進行人臉識別，你想對人臉識別的系統(tǒng)進行訓練，首先是一些數(shù)據組，比如一張臉和一個不是臉，我們對神經網絡通過不同的矩陣相乘進行訓練，這就是我們進行人臉識別的做法。很多深度學習的經濟價值在于找到非常聰明的辦法來使用監(jiān)督式學習。有比較多的例子，比如想識別垃圾郵件；如果你有足夠的數(shù)據，在百度看到很多用戶和廣告的信息也可以訓練一個模型來預測用戶會不會點擊一個廣告。所以就是要找到非常聰明的監(jiān)督式學習模型，這也帶來了很多的經濟價值。有很多現(xiàn)在我們所做的基礎研究都是關于監(jiān)督式學習的，還有加強式學習和很多其他的學習，希望未來的幾年在其他領域也會進行。這種監(jiān)督式學習的公式已經足以對很多你們現(xiàn)在的工作帶來改變。

我所講的這些技術所有細節(jié)其實在20年前就有了，那為什么現(xiàn)在深度學習才開始真正發(fā)展起來呢？

有幾個主要的趨勢：第一是深度學習在這幾年才剛剛發(fā)展起來的原因是規(guī)模化。我喜歡做一個類比，建立人工智能就像是建立一個火箭一樣，到底什么叫做火箭，你要造一個火箭首先需要一個大的引擎，然后需要很多的火箭燃料，這兩個都是非常大。如果引擎非常大，但是燃料非常少，這個火箭也飛不了多遠。如果說引擎非常小，燃料非常多，有可能火箭根本就無法起飛。只有引擎非常大燃料非常多的時候才能建造一個非常好的火箭。神經網絡就像火箭的引擎，現(xiàn)在我們能夠建立這樣的神經網絡，是因為現(xiàn)在規(guī)?；?，是因為GPU的發(fā)展。而前面提到的火箭燃料就是今天大量的互聯(lián)網公司獲得的數(shù)據。

算法的創(chuàng)新也是非常重要的。對我們來講首先要建立一個非常好的網絡，然后要有充足的數(shù)據，這是一個基礎。在過去的幾年，我看到這樣一些趨勢，也就是規(guī)?；蟾旁谑昵拔覀兌纪ㄟ^普通的CPU進行深度學習的訓練，當時大概有100萬的連接，進步是非常慢的。2008年的時候我們寫了第一篇在CUDA上進行神經網絡訓練的文章，當時是斯坦福大學的一個研究，有了10倍的轉變。

2001年我?guī)ьI谷歌的一個團隊，我們使用CPU計算進一步實現(xiàn)規(guī)?；?，用很多的CPU。但是很快我們就意識到使用很多CPU使用云計算其實并不能真正促進深度學習發(fā)展，當時在斯坦福以及后來在百度我們意識到使用HPC高性能計算。最近使用超級計算機才能更加促進深度學習算法進步的一個方向，所以最先進的深度學習的系統(tǒng)已經開始使用高性能算法了。我們要訓練一個語音識別的模型需要20百萬億次，我們需要花100萬美元的電進行一個模型的訓練，我們的一個研究人員要進行一個模型的訓練需要花100美元的數(shù)據，需要4兆字節(jié)的數(shù)據。

百度是全球第一個為深度學習建立GPU群的公司，我們不光進行訓練，而是真正的進行運作，我們早期的投資是看好GPU能夠幫助我們在這方面取得領先的能力，能夠促進AI能力的發(fā)展。

接下來我想和大家分享一個例子，向大家介紹一下為什么深度學習對很多的百度AI應用進行了改變。

以前語音識別系統(tǒng)分為很多的階段，首先輸入一個音頻，要抓取音頻的特征，獲得音位，要有語言的模型，然后再轉錄。在2011年的時候，在百度建立一個語音識別的系統(tǒng)，我們認為我們花了幾十年的時間來做語音識別，我們還是把整個的工作全部都用神經網絡給取代。我們發(fā)現(xiàn)有了很大的神經網絡，相當于一個火箭的引擎，使用端對端的學習方法可以幫助我們對最好的語音識別系統(tǒng)進行訓練。

上個月我們跟斯坦福大學和華盛頓大學合作發(fā)現(xiàn)如果你想用手機來輸入某個信息，用語音識別比用鍵盤可以快3倍，這些結果都是依賴我們的DSP系統(tǒng)。

之前我們講到規(guī)模的重要性，包括計算的規(guī)模和數(shù)據的規(guī)模，對于這些深度學習系統(tǒng)來進行訓練，這里我想給大家介紹一個簡單的方法，如果能夠提升機器學習系統(tǒng)的表現(xiàn)，這當然有點過于簡單了，但是我的團隊問我怎么提升他們的機器學習系統(tǒng)的時候，我首先會把這個簡單的方法告訴他們。

首先要問他們，目前在訓練數(shù)據上表現(xiàn)好嗎？如果不是的話，那我就會跟他們說你的這個神經網絡需要有更大的規(guī)模，也就是說火箭的引擎要更強、更大。然后你繼續(xù)在這個方面進行改進，直到你在訓練數(shù)據上能夠有好的表現(xiàn)，在這之后就問你測試數(shù)據上表現(xiàn)好嗎，如果不是的話我就跟他們說數(shù)據要更多，也就是說要有更多的火箭燃料。再繼續(xù)在這個方面進行改進，直到在測數(shù)據上表現(xiàn)得好。這是一個非常簡單的公式，真實世界會更加復雜，這過于簡單，但這樣一個簡單的方法有很大的幫助，幫助我們提升了系統(tǒng)的性能，我也相信能夠幫助大家的機器學習系統(tǒng)的性能提升。

過去幾年很多性能提升都在于計算以及數(shù)據規(guī)模的提升，之所以計算的規(guī)模提升很多在于GPU計算的出現(xiàn)，實際比這復雜得多，如果大家想要了解具體的細節(jié)，如何提升機器學習的表現(xiàn)，大家可以去參照我所寫的一本書，從這個網站可以拿到免費的書。

前面我講到用GPU進行訓練，我也看到這個對于百度的工作以及很多其他公司的工作有很大的幫助。另外一個趨勢，用GPU不僅進行訓練，也包括提供在線服務。HPC訓練的巨大的神經網絡，我們發(fā)現(xiàn)我們有個問題，怎么樣可以把這么大的神經網絡放在服務器上面提供在線服務？

如果看一下傳統(tǒng)的提供在線服務的架構，傳統(tǒng)的CPU服務器的架構，架構是這樣的，比如這是CPU服務器，有幾個線程，如果有一個用戶有一些數(shù)據過來，他給了一個4乘1的向量，比如是一些語音數(shù)據，你把這個交給一個線程進行計算然后會有輸出。第二個用戶過來了，還是用第二個線程幫他進行計算，第三第四也是一樣。這是比較傳統(tǒng)的CPU架構提供在線的服務。因為我們在超級計算及用很多GPU，訓練非常大的神經網絡，我們發(fā)現(xiàn)這些非常大的模型部署在傳統(tǒng)的CPU當中是非常困難的，因為這個架構不適合。

百度是第一家宣布把GPU投入到業(yè)務中的大型公司，也就是進行推理和提供服務，而不僅僅限于訓練。

我們有一個專門的技術叫Batch Dispatch，我們把數(shù)據放到我們的數(shù)據中心當中，如果用戶出現(xiàn)了，當他這端有一些數(shù)據的輸入，我們會暫時讓這個數(shù)據稍微等一點點時間，然后再等幾位用戶出現(xiàn)，各自都有自己的數(shù)據，把他們做成一個批次。我們把這些向量堆疊到一起變成一個矩陣，這是第一第二第三第四，變成了一個4乘4的矩陣。同時交給GPU處理器進行處理，它是同時對這四個用戶的數(shù)據進行處理，這些結果也同時會出來，GPU有非常強的并行處理能力，可以非常高效的進行并行處理，我們把結果拿到之后再把它們分開，分別提供給四個用戶。

我們發(fā)現(xiàn)這樣使得我們可以有更大的模型規(guī)模，而且可以以更低的成本給更多的用戶提供服務。昨天我們在百度的數(shù)據中心和數(shù)據中心的負責人，在百度我們看到的一個趨勢，現(xiàn)在越來越多的使用GPU及高性能計算在數(shù)據中心當中，因此我們的團隊在重新設計數(shù)據中心來更好地利用高密度的計算模式，我們有團隊在重新設計供電、散熱，使得我們可以把更高密度的計算站納入到我們的數(shù)據中心當中進行訓練，然后進行推理。大家有些人可能是做數(shù)據中心工作的，這里邊有很多的工作是可以開展對于數(shù)據中心的架構來進行重新的設計，從而使用這些高密度的GPU。

之前我講到了深度學習，首先第一個就是計算的規(guī)模和數(shù)據的規(guī)模。第二個我所看到的過去幾年的趨勢，深度學習現(xiàn)在可以給出更復雜的輸出。我的意思是五年之前大部分的機器學習所輸出的都只是整數(shù)，比如垃圾郵件分類，你輸入一個郵件，輸入的是0或1是不是垃圾，圖片也是一樣的，輸出的是一個整數(shù)，現(xiàn)在發(fā)生了變化，深度學習越來越多的可以去輸出非常復雜的結果，比如一個句子或者是一個圖像。我們的DSP Batch系統(tǒng)輸入音頻片段，可以輸出一個英文或者是中文的句子，圖片說明我們可以把圖片輸進去，輸出是一個圖片說明來描述這個圖片說這是一輛黃色的車在路上開。所以現(xiàn)在神經網絡可以輸出復雜的東西，比如句子和一些圖片說明，不僅僅是一些整數(shù)。包括翻譯，你可以輸入英文的句子，然后輸出中文的句子，也可以文法的校正，可能你輸入的是語法錯誤的文本，輸出的是語法正確的句子。這個重要的趨勢也是可以非常聰明的使用，可以在AI和深度學習方面得到更大的價值挖掘。

當然我們也知道，AI現(xiàn)在主要的局限性在于這樣的學習方式，也就是監(jiān)督式學習的方式是需要很多的標記數(shù)據，未來我希望我們能夠對于非監(jiān)督學習有一些突破，但是目前我們可以通過監(jiān)督學習去轉化很多的行業(yè)來實現(xiàn)巨大的發(fā)展。

剛才我們講到了規(guī)模非常重要，我們需要用大量的數(shù)據進行大量的模型的訓練。規(guī)模非常重要，我們需要用很多的數(shù)據對大的模型進行訓練。還有另外一個原因，

為什么AI的發(fā)展需要計算呢？

我們看一下剛才的神經網絡這個簡單的例子。我們要花很多的時間、很多的實驗去發(fā)現(xiàn)這些神經網絡的結構，我可能在這個方面的工作已經有25年的時間了，現(xiàn)在我開始要開始一個新問題的時候我也不知道什么樣的網絡是合適的，研究者需要進行很多實驗，十幾種幾百種模型才能發(fā)現(xiàn)一個好的模型去完成這種任務。有這么多的訓練數(shù)據，語音識別系統(tǒng)有5萬小時的數(shù)據，所以你要進行這樣一個訓練可能需要3個月的時間，這樣研究者的時間利用率不是那么高。另外一個原因，百度花很多的努力去優(yōu)化開發(fā)者的效率，因為你們在做這個模型，你不知道到底什么樣的模型，你要做很多的實驗去發(fā)現(xiàn)到底什么是可行的。我們發(fā)現(xiàn)我們投資于計算系統(tǒng)來加速這種實驗的過程、試錯的過程，可以使得研究者更加的高效，可以使得他們有更多的時間可以更快的去發(fā)明新的想法。

因此在這個方面，我們非常強調，第一我們是投資計算平臺，基于GPU的HPC計算平臺。第二我們是很大的投資于開發(fā)易于使用的深度學習工具，我們把我們自己的深度學習平臺開源化，它叫PaddlePaddle，易于使用，大家可以非常方便的嘗試深度學習的模型，來發(fā)現(xiàn)到底什么樣的模型對你的應用是最為合適的。PaddlePaddle支持用多GPU，我們現(xiàn)在不是在一個GPU上進行計算，一次可以用32個、64個、128個GPU進行實驗。

我對AI的未來寄予很高的希望，對人工智能的未來充滿信心，希望幾年后我們可以使用人工智能做到陪伴機器人，做到個性化私教、音樂作曲、機器人醫(yī)生，這些產品和技術可以為很多行業(yè)帶來巨大的改變，也對人類帶來巨大的價值。這些項目很多都正在研究階段，在人工智能時代如果你聽我們講未來，未來有時候很快就到了。

我想給大家看一個例子，我們正在做一個百度醫(yī)療大腦的項目，這個項目正在研究階段，請大家看看這段視頻。如果你輸入一個問題，寶寶發(fā)燒了出了很多紅疹，百度醫(yī)療大腦這個軟件會理解你的問題，問你很多病情的問題，如果你慢慢回答它的問題，它就可以識別出你的病情是怎么樣的，也可以輸出一些有關你病情的信息和建議。這個軟件當然不可以替代醫(yī)生，假如患者想用這些信息先要跟醫(yī)生討論，技術還在研究階段，希望這種技術未來可以為患者和醫(yī)生帶來很多非常有用的信息。

我覺得我們非常幸運能夠有這么好的GPU平臺，在這個平臺上開發(fā)很多的AI應用，在百度我非常振奮的是開發(fā)出AI的工具，不光是幫助我們自己也幫助很多的行業(yè)，我在百度希望能夠在我們的硬件的基礎之上開發(fā)一些AI的工具幫助大家。謝謝大家！

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。