丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
專(zhuān)欄 正文
發(fā)私信給龔黎明
發(fā)送

4

深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

本文作者: 龔黎明 2016-05-31 14:34
導(dǎo)語(yǔ):由于Google并沒(méi)有公布TPU的設(shè)計(jì),因此我們只能大概根據(jù)中科院目前的“寒武紀(jì)”神經(jīng)網(wǎng)絡(luò)芯片進(jìn)行推斷。

雷鋒網(wǎng)按:本文作者龔黎明,威盛電子高級(jí)芯片工程師。由于提及“寒武紀(jì)”芯片,雷鋒網(wǎng)特邀中國(guó)科學(xué)院計(jì)算技術(shù)研究所陳天石教授對(duì)本文做了修正把關(guān),以呈現(xiàn)更加完整專(zhuān)業(yè)的內(nèi)容,特此感謝。

在Google I/O 2016的主題演講進(jìn)入尾聲時(shí),Google提到了一項(xiàng)他們這段時(shí)間在AI和機(jī)器學(xué)習(xí)上取得的成果,一款叫做Tensor Processing Unit(張量處理單元)的處理器,簡(jiǎn)稱(chēng)TPU。

深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

根據(jù)TPU團(tuán)隊(duì)主要負(fù)責(zé)人介紹,TPU專(zhuān)為Google機(jī)器學(xué)習(xí)應(yīng)用TensorFlow打造,能夠降低運(yùn)算精度,在相同時(shí)間內(nèi)處理更復(fù)雜、更強(qiáng)大的機(jī)器學(xué)習(xí)模型并將其更快地投入使用。Google數(shù)據(jù)中心早在一年前就開(kāi)始使用TPU,其性能把摩爾定律往前推進(jìn)到7年之后。之前打敗李世乭的AlphaGo就是采用了TPU做了運(yùn)算加速。

根據(jù)Google所言,TPU只在特定應(yīng)用中作為輔助使用,公司將繼續(xù)使用CPU和GPU。并且Google并沒(méi)有對(duì)外銷(xiāo)售TPU的打算。因此,TPU雖好,但僅限Google內(nèi)部,而且即便使用TPU,也是用作輔助CPU和 GPU。

谷歌并沒(méi)有公布TPU是怎么設(shè)計(jì)的,因此似乎很難對(duì)其一探究竟。不過(guò),要知道谷歌的TPU并不是什么黑科技,只不過(guò)是正常的一款專(zhuān)用加速芯片。而且,這也不是世界上第一款用來(lái)做深度學(xué)習(xí)的專(zhuān)用芯片。IBM和我國(guó)中科院其實(shí)都有類(lèi)似成果。

IBM 在2014年研發(fā)出脈沖神經(jīng)網(wǎng)絡(luò)芯片TrueNorth,走的是“類(lèi)腦計(jì)算”路線。類(lèi)腦計(jì)算的假設(shè)是,相似的結(jié)構(gòu)可能會(huì)出現(xiàn)相似的功能,所以假如用神經(jīng)電子元件制造與人腦神經(jīng)網(wǎng)絡(luò)相似的電子神經(jīng)網(wǎng)絡(luò),是否可能實(shí)現(xiàn)人腦功能呢?這其實(shí)有點(diǎn)像人類(lèi)研究飛行器的過(guò)程。我們都知道鳥(niǎo)會(huì)飛是因?yàn)橛谐岚颍藳](méi)有。所以假如給人也弄一對(duì)翅膀,人是不是也能飛?

早先人類(lèi)其實(shí)有這么一個(gè)探索過(guò)程。如今人類(lèi)要探索大腦,但是大腦何其復(fù)雜?IBM的這款芯片就是通過(guò)打造類(lèi)腦的芯片架構(gòu),來(lái)期望得到大腦同樣的功能,就算達(dá)不到,能模擬一下也很有意義。大意如此,當(dāng)然實(shí)際上復(fù)雜多了。目前這款芯片理念很超前,還處于深入研究階段,算得上是黑科技。

今天要重點(diǎn)講的其實(shí)是中科院的這款“寒武紀(jì)”芯片。2016年3月,中國(guó)科學(xué)院計(jì)算技術(shù)研究所發(fā)布了全球首個(gè)能夠“深度學(xué)習(xí)”的“神經(jīng)網(wǎng)絡(luò)”處理器芯片,名為“寒武紀(jì)”。該課題組負(fù)責(zé)人之一、中科院計(jì)算所陳天石博士透露,這項(xiàng)成果將于今年內(nèi)正式投入產(chǎn)業(yè)化。在不久的未來(lái),反欺詐的刷臉支付、圖片搜索等都將更加可靠、易用。下圖是“寒武紀(jì)”的芯片板卡。

 深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

之所以重點(diǎn)講,是因?yàn)镚oogle的TPU芯片并沒(méi)有公開(kāi)設(shè)計(jì)細(xì)節(jié),連是誰(shuí)代工的都沒(méi)有公開(kāi)。但是同樣作為深度學(xué)習(xí)的芯片,有理由相信中科院的“寒武紀(jì)”與Google的TPU在設(shè)計(jì)理念上是相同的。在講這個(gè)之前,先簡(jiǎn)單科普一下人工智能和深度學(xué)習(xí)。

1981年的諾貝爾醫(yī)學(xué)獎(jiǎng),頒發(fā)給了David Hubel和Torsten Wiesel,以及Roger Sperry。前兩位的主要貢獻(xiàn)是,發(fā)現(xiàn)了人的視覺(jué)系統(tǒng)的信息處理是分級(jí)的。如下圖所示:從原始信號(hào)攝入開(kāi)始(瞳孔攝入像素),接著做初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定眼前物體的形狀,比如是橢圓形的),然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是張人臉),最后識(shí)別眼前的這個(gè)人。

深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

而深度學(xué)習(xí)(Deep Learning),恰恰就是模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù)。通過(guò)組合低層特征形成更加抽象的高層特征(或?qū)傩灶?lèi)別)。例如,在計(jì)算機(jī)視覺(jué)領(lǐng)域,深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到一個(gè)低層次表達(dá),例如邊緣檢測(cè)器、小波濾波器等,然后在這些低層次表達(dá)的基礎(chǔ)上,通過(guò)線性或者非線性組合,來(lái)獲得一個(gè)高層次的表達(dá)。此外,不僅圖像存在這個(gè)規(guī)律,聲音也是類(lèi)似的。比如,研究人員從某個(gè)聲音庫(kù)中通過(guò)算法自動(dòng)發(fā)現(xiàn)了20種基本的聲音結(jié)構(gòu),其余的聲音都可以由這20種基本結(jié)構(gòu)來(lái)合成!

對(duì)于深度學(xué)習(xí)來(lái)說(shuō),其思想就是堆疊多個(gè)層,上一層的輸出作為下一層的輸入。深度神經(jīng)網(wǎng)絡(luò)由一個(gè)輸入層,數(shù)個(gè)隱層,以及一個(gè)輸出層構(gòu)成。每層有若干個(gè)神經(jīng)元,神經(jīng)元之間有連接權(quán)重。每個(gè)神經(jīng)元模擬人類(lèi)的神經(jīng)細(xì)胞,而結(jié)點(diǎn)之間的連接模擬神經(jīng)細(xì)胞之間的連接。

深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

當(dāng)然了,以上這些原理都不是重點(diǎn)。我們只需要明白深度神經(jīng)網(wǎng)絡(luò)模擬了大腦的神經(jīng)網(wǎng)絡(luò),上圖的每個(gè)圈圈都類(lèi)似大腦的一個(gè)神經(jīng)元。通過(guò)采用專(zhuān)用芯片進(jìn)行神經(jīng)元的運(yùn)算加速,相比于采用CPU這種通用運(yùn)算器,可以大大提高神經(jīng)網(wǎng)絡(luò)的性能。根據(jù)“寒武紀(jì)”芯片的介紹,它可以一條指令完成多個(gè)神經(jīng)元的并行處理。據(jù)此推斷,Google的TPU很有可能也是這么設(shè)計(jì)的,也就是說(shuō),支持一條指令完成神經(jīng)元的多次計(jì)算。

“寒武紀(jì)”專(zhuān)用處理器還有配套的指令集,叫Cambricon。我們知道,指令集乃是一個(gè)處理器架構(gòu)的核心。知道了一款處理器實(shí)現(xiàn)了哪些指令,其實(shí)也就知道了這款處理器適合做什么,也大概知道了這款處理器的硬件設(shè)計(jì)。

【雷峰網(wǎng)注:有讀者認(rèn)為寒武紀(jì)專(zhuān)用處理器配套的指令集叫DianNao,其實(shí)DianNao系列特指中科院計(jì)算所前期和國(guó)際合作者共同發(fā)表的學(xué)術(shù)論文提出的架構(gòu);而“寒武紀(jì)”特指寒武紀(jì)公司(中科院計(jì)算所的產(chǎn)業(yè)化公司)獨(dú)立開(kāi)發(fā)的商用芯片。寒武紀(jì)的正式英文名為“Cambricon”】

Cambricon指令集的特點(diǎn)是單指令可以做完一次向量或矩陣運(yùn)算,因此假如我們知道了深度學(xué)習(xí)的具體算法,那么其實(shí)也就知道了每個(gè)神經(jīng)元可以規(guī)約為何種向量或矩陣運(yùn)算,其實(shí)也就推斷出了Cambricon的指令集。以此類(lèi)推,如果我們知道了Google的深度學(xué)習(xí)算法,假設(shè)也是每條指令實(shí)現(xiàn)多個(gè)神經(jīng)元相關(guān)的向量或矩陣運(yùn)算,那么其實(shí)也能推斷出TPU的指令集。這種假設(shè)應(yīng)該是很有道理的,畢竟把一個(gè)神經(jīng)元的計(jì)算打包成一條指令,是非常科學(xué)合理的專(zhuān)用加速器設(shè)計(jì)方案。

下圖是中科院計(jì)算所團(tuán)隊(duì)成員作為第一作者與法國(guó)Inria、瑞士EPFL聯(lián)合發(fā)表于國(guó)際計(jì)算機(jī)架構(gòu)年會(huì)(ISCA2015)的ShiDianNao在圖像處理中的應(yīng)用,其中的紅色格柵方塊就是該芯片在系統(tǒng)中的位置。

圖中可以看到,整個(gè)系統(tǒng)連接了兩塊圖像傳感器,傳感器采集到的圖像通過(guò)Camera Serial Interfaces(CSI)接口連接到Video pipeline處理單元,進(jìn)行Bayer重建、白平衡、降噪、壓縮等等圖像處理。

深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

而ShiDianNao則在該系統(tǒng)中進(jìn)行深度學(xué)習(xí)的模式識(shí)別,它內(nèi)部實(shí)現(xiàn)了一個(gè)深度神經(jīng)網(wǎng)絡(luò),經(jīng)訓(xùn)練之后具有類(lèi)似人類(lèi)大腦一樣的識(shí)別能力,可以從圖像中識(shí)別出有一只貓,然后將識(shí)別出“貓”的信息通過(guò)GPIO/I2C接口輸出給主機(jī)。整個(gè)系統(tǒng)用一款微處理器做控制,協(xié)調(diào)各個(gè)部件的運(yùn)行。整個(gè)系統(tǒng)的數(shù)據(jù)存儲(chǔ),使用了256KB的SRAM,為了節(jié)省功耗,并提高性能,并沒(méi)有使用DRAM。

下圖給出了ShiDianNao處理器的深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)。根據(jù)文獻(xiàn)介紹,NBin是輸入神經(jīng)元的緩存,NBout是輸出神經(jīng)元的緩存,SB是突觸的緩存。核心部件是NFU(neural functional unit)單元,它負(fù)責(zé)實(shí)現(xiàn)一個(gè)神經(jīng)元的功能。ALU是數(shù)值運(yùn)算單元,IB(decoder forinstructions)是指令譯碼器。

 深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

下圖是ShiDianNao處理器的布局版圖:

深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

下圖是神經(jīng)元處理單元的核心部件NFU單元的結(jié)構(gòu)。之前講過(guò),深度神經(jīng)網(wǎng)絡(luò)加速芯片的最大特點(diǎn)就是單指令可以完成多個(gè)神經(jīng)元的計(jì)算。因此神經(jīng)元計(jì)算單元的實(shí)現(xiàn),就是這款加速芯片的核心。根據(jù)文獻(xiàn)介紹,每個(gè)NFU又是一個(gè)陣列,包含一堆PE單元。每個(gè)NFU單元實(shí)現(xiàn)了16bit x 16bit的定點(diǎn)整數(shù)乘法,相比于浮點(diǎn)乘法,這會(huì)損失一部分運(yùn)算精度,但是這種損失可以忽略不計(jì)。

 深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

下圖進(jìn)一步給出了PE單元的結(jié)構(gòu),每個(gè)PE包含一個(gè)乘法器和一個(gè)加法器和比較器??梢詥未瓮瓿沙死奂舆\(yùn)算或者累加運(yùn)算或者一次比較運(yùn)算。

 深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

由此,我們就自上而下的看完了整個(gè)ShiDianNao的架構(gòu)設(shè)計(jì)。由于Google并沒(méi)有公布TPU的設(shè)計(jì),中科院和寒武紀(jì)公司亦沒(méi)有公開(kāi)商用的寒武紀(jì)芯片的具體架構(gòu),因此我們只能大概根據(jù)中科院前些年與法國(guó)和瑞士的合作者在學(xué)術(shù)界公開(kāi)發(fā)表的ShiDianNao架構(gòu)進(jìn)行推斷(我們假設(shè)寒武紀(jì)商用芯片和前些年的學(xué)術(shù)工作ShiDianNao在架構(gòu)上有一脈相承之處,畢竟中科院計(jì)算所陳天石團(tuán)隊(duì)的成員都是主要架構(gòu)師或論文的第一作者)。

【雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))注:DianNao系列架構(gòu)和寒武紀(jì)在名稱(chēng)上已經(jīng)有明確的界限。DianNao系列特指前期中科院計(jì)算所會(huì)同國(guó)際同行共同提出的處理器架構(gòu),是面向?qū)W術(shù)界的。從商業(yè)角度出發(fā),寒武紀(jì)公司(中科院計(jì)算所下屬企業(yè))從未公開(kāi)過(guò)寒武紀(jì)商用芯片的具體架構(gòu)?!?/p>

根據(jù)ShiDianNao架構(gòu)的論文描述,結(jié)合之前的論述,我們可以大致得出以下猜測(cè):

(1)Google的TPU很有可能也是單指令完成多個(gè)神經(jīng)元的計(jì)算。


(2)知道了Google的機(jī)器學(xué)習(xí)算法,就可以推斷出TPU支持的指令集。


(3)根據(jù)Google對(duì)TPU的描述“能夠降低運(yùn)算精度”,猜測(cè)TPU內(nèi)部可能也是采用更低位寬的定點(diǎn)或浮點(diǎn)乘法,雖然具體位寬未知。


(4)乘累加單元搭建的向量或矩陣指令仍然是基礎(chǔ)運(yùn)算的核心。


(5)Google強(qiáng)調(diào)TPU有領(lǐng)先7年的性能功耗比(十倍以上的提升),據(jù)此猜測(cè),TPU可能也沒(méi)有使用DRAM做存儲(chǔ),可能仍然使用SRAM來(lái)存儲(chǔ)數(shù)據(jù)。但從性能功耗比提升量級(jí)上看,還遠(yuǎn)未達(dá)到專(zhuān)用處理器的提升上限,因此很可能本質(zhì)上采用的是數(shù)據(jù)位寬更低的類(lèi)GPU架構(gòu),可能還是具有較強(qiáng)的通用性。

雷鋒網(wǎng)注:本文為雷鋒網(wǎng)獨(dú)家特約稿件,如需轉(zhuǎn)載,請(qǐng)聯(lián)系雷鋒網(wǎng)授權(quán)并保存以上完整信息,不得刪減。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

深入解讀“寒武紀(jì)”后,我們對(duì)Google TPU有了這些認(rèn)識(shí)

分享:
相關(guān)文章

專(zhuān)欄作者

威盛電子高級(jí)芯片工程師
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)