如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

本文作者：汪思穎

2017-09-08 15:40

導語：怎么做，看過來。

雷鋒網(wǎng) AI科技評論按，本文來源于王天祺在知乎問題【如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？】下的回答，雷鋒網(wǎng) AI科技評論獲其授權(quán)轉(zhuǎn)發(fā)。

以下主要引用自西安郵電大學李濤老師關(guān)于連接智能和符號智能的報告，以及fpl2016上ASU的 Yufei Ma的文章和slide，推薦大家去讀下原文。

Scalable and Modularized RTL Compilation of Convolutional Neural Network onto FPGA

地址：http://fpl2016.org/slides/S5b_1.pdf

我做過一些計算加速的工作，個人感覺要入手先要想好幾個問題: 要加速的是什么應(yīng)用，應(yīng)用的瓶頸是什么，再針對這個瓶頸，參考前人工作選擇合適的方案。

過早地執(zhí)著于fpga的技術(shù)細節(jié)(用hdl還是hls，用啥芯片，用啥接口)容易只見樹木不見森林?，F(xiàn)在software define network/flash/xxx，已然大勢所趨。之前開組會時跟同志們聊過，算法是綱，綱舉目張；軟件是媽，軟件是爹，軟件比基金委都親。所以推薦先把cnn的算法看一下，拿一些開源代碼跑一下經(jīng)典的例子(lenet, alexnet, etc)看好輸入輸出，摸清算法。

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

比如以下是一個lenet的cpp和opencl的實現(xiàn)：

nachiket/papaa-opencl

地址：https://github.com/nachiket/papaa-opencl

以下圖片源自Yufei Ma的Slide。

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

可以看到cnn算法主要由conv ，pooling，norm等幾個部分組成。工作時將image跟weight灌進去，最終得到預測結(jié)果。

接下來拿profiler(比如perf)去分析下軟件算法，找找熱點和性能瓶頸。在cnn里面主要耗時的就是conv二維卷積了。性能瓶頸也主要在于卷積時需要大量乘加運算，參與計算的大量weight參數(shù)會帶來的很多訪存請求。

接下來考察下前人的工作和當前的灌水熱點。按理說這種大量的乘加運算用dsp應(yīng)該不錯，但是在cnn中大家并不需要這么大的位寬，有時候8位就夠了。dsp動輒32/64位的乘加器實在是浪費。于是乎大家就開始減位寬，多堆幾個運算單元。面對大量的訪存請求，大家就開始設(shè)計各種tricky的緩存了。

以下是大家的一些灌水方向：

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

于是就有了以下各路硬件設(shè)計：

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

有人照著dsp風格去設(shè)計加速器：

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

ceva也出了一系列面向CNN的IP：

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

有人用了脈動陣列或者Dataflow的風格：

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

有人設(shè)計了專用的芯片比如計算所的Cambricon：

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

還有的就是你提到的fpga。

所有的事情到了硬件層面實際上能用的手段也就有限了。不外乎堆資源和切流水兩招。再不然就是做一些bit level的小技巧，比如乘法器變查表之類的，這些技巧在很多二十年前的dsp教材里面都描述得很細致了，拿來用就好。比如這本書親測有效。

VLSI Digital Signal Processing System--Design and Implementation by Keshab

典型的fpga實現(xiàn)可以參考Yufei Ma的文章，不論是conv，還是pooling，依葫蘆畫瓢設(shè)計data path，切好流水，再想好狀態(tài)機加上控制信號。這些就看大家擼rtl的基本功了。

比如Conv模塊如下圖，主要拿一堆乘法器以及加法器樹搭好data path，切好流水，接著加上控制信號。

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

Pooling也是大同小異：

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

還有Norm：

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

最后把這些模塊通過router連接，外面再套一層控制模塊，封成ip就好了。

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

剩下的就是集成進你的系統(tǒng)(microblaze, nios還是arm，配好dma，寫好灌數(shù)據(jù)的驅(qū)動，這些就是各有各的道兒了)。推薦動手碼rtl前先寫好文檔，約定好端口，寄存器和軟件api，否則邊寫邊改容易亂。

整體來說，cnn這種應(yīng)用流水線控制相對cpu簡單，沒有寫cpu的那一堆hazard讓人煩心，也不用寫匯編器啥的。太大的cnn放在fpga里挺費勁，做出創(chuàng)新很難，但是fpga上寫個能用的lenet這種級別的cnn還是挺容易的。最后還可以依照慣例跟cpu比性能，跟gpu比功耗。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學術(shù)，例如論文

發(fā)私信

當月熱門文章

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？

如何用FPGA加速卷積神經(jīng)網(wǎng)絡(luò)(CNN)？