丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

本文作者: 楊曉凡 2017-10-31 14:49
導(dǎo)語:為了讓大數(shù)據(jù)得到利用、新算法能夠運(yùn)行,二十年來計(jì)算平臺都經(jīng)歷了哪些發(fā)展

雷鋒網(wǎng) AI 科技評論按:AI研習(xí)社系列公開課持續(xù)進(jìn)行中,高水平的嘉賓、精彩的分享主題、寬廣的學(xué)術(shù)視角和敏銳的行業(yè)理解,肯定會讓每個(gè)觀眾/讀者都有所收獲。

深度學(xué)習(xí)、體系結(jié)構(gòu)、數(shù)據(jù)規(guī)模的共同發(fā)展促進(jìn)了人工智能行業(yè)的繁榮。在通用架構(gòu)之外,深度學(xué)習(xí)處理架構(gòu)已經(jīng)經(jīng)歷了三代的發(fā)展,從計(jì)算優(yōu)化、存儲優(yōu)化,到結(jié)合Deep Compression的稀疏化處理架構(gòu)。在10月17日的AI研習(xí)社公開課中,我們請到了深鑒科技姚頌,為大家講解深度學(xué)習(xí)處理架構(gòu)的演進(jìn)過程,以及幾個(gè)核心問題是如何逐漸解決的。雷鋒網(wǎng) AI 科技評論把這次公開課的主要內(nèi)容整理如下。

姚頌,深鑒科技聯(lián)合創(chuàng)始人、CEO。畢業(yè)于清華大學(xué)電子系,斯坦福大學(xué)研究訪問學(xué)者。曾任清華電子系科協(xié)主席,本科期間發(fā)表多篇論文。入選2017福布斯亞洲30位30歲以下精英榜。

公開課開始

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

姚頌公開課的主題是“深度學(xué)習(xí)處理架構(gòu)的演進(jìn)”,此次公開課主要突出演進(jìn)中思路的變化,具體技術(shù)細(xì)節(jié)可以閱讀提到的論文。還有幾位北大的同學(xué)來到姚頌的公開課現(xiàn)場聽這次直播。

姚頌首先簡單介紹了一下深鑒科技。深鑒科技的英文名DeePhi是Deep Learning和Philosophy的結(jié)合,這也是他們的slogan“Discover the philosophy behind deep learning” 所傳達(dá)的。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

深鑒科技的創(chuàng)始人為汪玉副教授、韓松博士、單羿博士以及姚頌本人。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

深鑒科技要做的事情是“打造新一代深度學(xué)習(xí)平臺”,從算法、軟件、硬件、系統(tǒng)形成整體的解決方案。這天凌晨深鑒科技也剛剛發(fā)布了中國首套深度學(xué)習(xí)開發(fā)SDK“DNNDK”,可以在深鑒科技官網(wǎng)deephi.com/dnndk下載試用以及提出意見。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

幾位創(chuàng)始人在創(chuàng)立深鑒科技前做了許多研究工作,比如韓松的NIPS2015文章“Learning both Weights and Connections for Efficient Neural Networks”。而后,這篇文章的改進(jìn)工作“Deep Compression”拿到了ICLR2016的最佳論文。

針對壓縮后的稀疏神經(jīng)網(wǎng)絡(luò),深鑒科技做了許多硬件結(jié)構(gòu)設(shè)計(jì)的工作,包括EIE和ESE。他們發(fā)現(xiàn),稀疏化可以極大地降低帶寬需求和系統(tǒng)功耗,同時(shí)提高性能。ESE的論文就拿到了FPGA2017的最佳論文。

計(jì)算平臺在人工智能中有著哪些影響

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

進(jìn)入知識講解。姚頌介紹道,現(xiàn)在雖然人工智能是個(gè)熱門概念,但很多人誤以為“人工智能等于深度學(xué)習(xí)”,但其實(shí)人工智能的范圍大于機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)的范圍又大于深度學(xué)習(xí)。人工智能由三方面共同組成,算法、數(shù)據(jù)以及計(jì)算平臺,這個(gè)領(lǐng)域的上升也是三方面技術(shù)的共同發(fā)展合力造成的。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

神經(jīng)網(wǎng)絡(luò)的概念并不新穎了,Yann LeCun在1998年就提出了MNIST數(shù)據(jù)集和CNN。只是當(dāng)時(shí)的計(jì)算平臺很弱,所以只能是小圖、黑白兩色,數(shù)量也只有數(shù)萬張。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

2012年時(shí),Google X啟動了“貓臉識別計(jì)劃”,吳恩達(dá)和Jeff Dean用了1000臺分布式服務(wù)器和一萬六千個(gè)CPU。同期的AlexNet只需要1臺服務(wù)器、2個(gè)GPU就訓(xùn)練出來了。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

GPU確實(shí)給整個(gè)行業(yè)帶來了很大的變化,那么GPU真的就足夠了嗎?姚頌的答案是:它確實(shí)很好,但它還不夠。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

姚頌針對應(yīng)用(inference推理)場景介紹了他的觀察。比如在安防監(jiān)控、數(shù)據(jù)中心、機(jī)器人設(shè)備上都使用GPU的話,功耗和延遲都會是嚴(yán)重的問題。所以許多公司都在研究新一代的深度學(xué)習(xí)平臺。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

那么這樣的狀況是什么問題導(dǎo)致的呢?就是:神經(jīng)網(wǎng)絡(luò)既是計(jì)算密集的任務(wù),又是存儲密集的任務(wù)。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

圖中是一些較為老舊的神經(jīng)網(wǎng)絡(luò)所需的計(jì)算量。最新的ResNet50做一次前向的推理就需要7GOPS,VGG16大約需要30GOPS。相比之下,手機(jī)的ARM處理器的計(jì)算能力典型值是10GOPS。所以這樣的網(wǎng)絡(luò)是沒辦法在手機(jī)端運(yùn)行的,即便只是推理任務(wù)。而當(dāng)前的許多處理器也都沒辦法支持如此大規(guī)模的并行計(jì)算。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

姚頌用這張圖介紹“存儲密集”的意思,圖的意義可以理解為網(wǎng)絡(luò)中每個(gè)連接的權(quán)值被重復(fù)使用的次數(shù),從幾十次到幾百次不等。所以模型對內(nèi)存吞吐量的要求會比模型自身的大小大幾百倍,甚至更多。對緩存讀取提出高要求,也就意味著系統(tǒng)極易產(chǎn)生高延遲。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

存儲密集還帶來一個(gè)問題,就是存儲帶來的功耗會比片上計(jì)算高出2到3個(gè)數(shù)量級。這也是GPU這樣的(片上緩存很小所以需要讀取內(nèi)存的)平臺很難降低功耗的原因。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

如何解決這些問題呢?姚頌把業(yè)內(nèi)提出的解決方案分為了三個(gè)階段:

1. 優(yōu)化計(jì)算引擎,增加并行度

2. 并行度已經(jīng)很高之后,優(yōu)化存儲系統(tǒng)

3. 最近一年中,算法和硬件分開的情況下已經(jīng)達(dá)到了優(yōu)化的極限,所以開始軟硬件協(xié)同設(shè)計(jì),利用壓縮和稀疏化達(dá)到整體最高效的方案。

第一階段:計(jì)算引擎優(yōu)化

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

第一階段在2009~2014年之間,姚頌認(rèn)為這個(gè)階段作出了最大貢獻(xiàn)的是Yann LeCun教授。作為系統(tǒng)科學(xué)家,他做了很多算法之外的事情。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

這個(gè)階段的一個(gè)典型方案是Yann LeCun小組提出的NeuFlow,設(shè)計(jì)思路是數(shù)據(jù)流的處理。他們設(shè)計(jì)了陣列式、可重構(gòu)的數(shù)據(jù)流引擎,陣列中的不同單元同時(shí)進(jìn)行不同的計(jì)算,顯著提高了計(jì)算資源的利用率。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

在場景解析的測試中,他們使用了V6 FPGA芯片,得到了非常高的峰值性能(Peak GOPs)同時(shí),也得到了很高的實(shí)測性能(Real GOPs)。同期GPU的實(shí)測性能要遠(yuǎn)低于峰值性能。

但他們沒有注意到的是,當(dāng)時(shí)的神經(jīng)網(wǎng)絡(luò)都還是很小的,所以存儲的問題不那么明顯。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

NVIDIA同樣也以解決這個(gè)階段的問題的思路,不斷更新推出著具有越來越多的CUDA core的GPU。

第二階段:存儲系統(tǒng)優(yōu)化

隨著模型規(guī)模的增大,存儲的問題開始顯現(xiàn)。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

這個(gè)階段的一個(gè)典型方案是中科院的“電腦”系列。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

“根據(jù)Am-dahl定律,雖然計(jì)算單元是重要的一步,但低效的內(nèi)存?zhèn)鬏敽芸赡軙窒铀倨髟谛阅芎蛢r(jià)格方面帶來的提升”,所以他們把存儲作為了設(shè)計(jì)中首要考慮的因素。在分析了神經(jīng)網(wǎng)絡(luò)存取內(nèi)存的規(guī)律后,他們發(fā)現(xiàn)全連接層的向量乘矩陣運(yùn)算和卷積層的輸入輸出feature map都有很多部分的數(shù)據(jù)是可以復(fù)用的。解決方案中,他們首先進(jìn)行分塊,然后增加數(shù)據(jù)緩存以便重復(fù)利用數(shù)據(jù)。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

圖中右側(cè)的芯片布局圖中,中間起到計(jì)算作用的Neural Function Unit只占了一小部分,緩沖區(qū)(buffer)占據(jù)了大部分空間。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

接著“電腦”系列衍生出了“大電腦”,在很小的計(jì)算單元周圍布置了許多片上緩存(cache),然后把許多個(gè)這樣的模塊拼成一個(gè)大芯片,整個(gè)芯片上有幾十MB的存儲空間,足以裝下整個(gè)模型。這樣的方法起到了一定的作用。但一旦遇到過大、無法完全裝入的模型,性能仍然會下降。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

不過這種思路總體還是不錯的,在企業(yè)級應(yīng)用中很受歡迎,比如谷歌的TPU就有28MB的片上存儲,可以裝下整個(gè)Inception網(wǎng)絡(luò)。在只做推理的TPUV1之后,TPUV2為了兼顧訓(xùn)練又增加了許多片外的高帶寬存儲(HBM)內(nèi)存,與此對應(yīng)的成本和功耗也會有一定上升。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

根據(jù)TPU論文中給出的測試結(jié)果,第一代TPU芯片具有92TOPs的峰值性能,CNN0可以達(dá)到68TOPs的實(shí)測性能,這就是把整個(gè)模型的數(shù)據(jù)都裝入片上緩存之后達(dá)到的效果。但運(yùn)行一個(gè)無法都裝在片上的LSTM時(shí),實(shí)測性能就只有3.7TOPs,大約4%的利用率。在他們的論文中也寫道“未來的設(shè)計(jì)中將會提高稀疏性(sparsity)考量的優(yōu)先級”,即,意識到了稀疏化的重要性。

第三階段:稀疏化和軟硬件協(xié)同設(shè)計(jì)

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

那么什么是“稀疏化”,什么是“軟硬件協(xié)同設(shè)計(jì)”呢?

之前的發(fā)展過程中都是把算法和硬件中的一個(gè)看作固定的,單獨(dú)優(yōu)化另一個(gè),很容易碰到極限值。現(xiàn)在發(fā)現(xiàn)可能需要把硬件和算法一起做優(yōu)化。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

這是一項(xiàng)來自韓松的很有名的工作,叫做Deep Compression,意在壓縮去除神經(jīng)網(wǎng)絡(luò)中的冗余,尤其是在全連接層、LSTM的大規(guī)模矩陣運(yùn)算中。他的想法來自人類成人腦中的突觸要遠(yuǎn)少于幼兒時(shí)期,但其實(shí)成人的智慧和記憶卻全方位優(yōu)于幼兒。這說明有許多神經(jīng)元間的連接其實(shí)是“無用的”。

Deep Compression分為三個(gè)步驟

  • 第一個(gè)步驟是剪枝Pruning,發(fā)現(xiàn)網(wǎng)絡(luò)中對總體結(jié)果影響不大的權(quán)重,直接去掉它們。比如直接去掉權(quán)重絕對值小于0.1的連接,再進(jìn)行fine-tune

  • 第二個(gè)步驟是利用Code Book做量化。它是說把32bit長度的浮點(diǎn)數(shù)壓縮到8bit甚至4bit。

  • 最后還用霍夫曼編碼的形式存儲數(shù)據(jù)。

所以他最核心的貢獻(xiàn)是,發(fā)現(xiàn)了決定最終結(jié)果的不僅僅是權(quán)值,神經(jīng)網(wǎng)絡(luò)稀疏化的模式(pattern)也決定了網(wǎng)絡(luò)的效果。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

Deep Compression最大的應(yīng)用是在手機(jī)app中,比如AR app中都用Deep Compression把網(wǎng)絡(luò)壓小到手機(jī)能夠存儲、運(yùn)行的大小,F(xiàn)acebook的AR Demo App就取得了8倍的壓縮效果。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

下面姚頌更詳細(xì)地介紹了剪枝和量化兩個(gè)階段。

  • 左圖展示的是剪枝,非常明白了,直接去掉作用不大的連接。

  • 右圖是說,網(wǎng)絡(luò)中可能不需要大量的不同的值,也許只需要4個(gè)不同的值就可以代表網(wǎng)絡(luò)中所有需要用到的權(quán)值。那么接下來就可以用2bit的index存這四個(gè)值,值本身的長度當(dāng)然可以大于2bit。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

接著大家發(fā)現(xiàn),做完壓縮之后的網(wǎng)絡(luò)不一定能很好地在CPU或者GPU上運(yùn)行,因?yàn)檫@些硬件適合稠密運(yùn)算。所以在EIE(Efficient Inference Engine)的工作中設(shè)計(jì)了壓縮后的神經(jīng)網(wǎng)絡(luò)專用的處理器架構(gòu)。

從右側(cè)芯片布局圖中可以看到,計(jì)算單元占的空間仍然很小,大多數(shù)面積還是用來解決存儲問題的。

EIE主要是為了全連接層設(shè)計(jì)的,不能做復(fù)雜的矩陣調(diào)度(不適合LSTM);也沒辦法處理多種不同的非線性函數(shù)(比如Htan)

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

所以基于EIE的研究,在深鑒科技創(chuàng)立后他們又做了許多新的研究,來到了ESE,Efficient Speech Recognition Engine,得到了FPGA 2017 最佳論文獎。它的核心仍然是稀疏化矩陣的計(jì)算操作。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

NVIDIA也在ISCA2017發(fā)布了稀疏神經(jīng)網(wǎng)絡(luò)加速器SCNN。

總結(jié)

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

大家一直都在發(fā)現(xiàn)當(dāng)前最大的問題、用當(dāng)前最好的方法來解決。最大的兩個(gè)問題也就是計(jì)算和存儲,首先通過優(yōu)化計(jì)算引擎提高并行度之后,然后改進(jìn)存儲?,F(xiàn)在前面的方式都達(dá)到極限之后,為了把水分徹底榨干,現(xiàn)在就做軟硬件的協(xié)同設(shè)計(jì)。這也是深鑒科技在過去4年中進(jìn)行的研究。

最后姚頌還有一項(xiàng)感嘆,就是研究只是做產(chǎn)品的前10%,要做出產(chǎn)品還有無數(shù)的工程方面的努力、無數(shù)的debug;論文中只需要“恰好能夠跑通這些benchmark”,實(shí)際產(chǎn)品需要能夠在用戶各種各樣的算法上都不出錯,還需要提供好用的軟件產(chǎn)品。

(完)

雷鋒網(wǎng) AI 科技評論整理。更多精彩公開課請繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評論和AI研習(xí)社。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深鑒科技姚頌:深度學(xué)習(xí)處理架構(gòu)的演進(jìn) | AI研習(xí)社公開課總結(jié)

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說