丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
AI+ 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

本文作者: AI研習(xí)社 2019-07-17 14:51
導(dǎo)語:團隊設(shè)計了單目標檢測的深度學(xué)習(xí)算法ShuffleDet,和面向Xilinx ZU3的AI硬件加速器,獲得了FPGA賽道的第二名

雷鋒網(wǎng)AI研習(xí)社按:DAC19目標檢測設(shè)計是一個面向移動端的單目標物體檢測的比賽,檢測精度高且能耗低者勝出。我們團隊設(shè)計了單目標檢測的深度學(xué)習(xí)算法ShuffleDet,和面向Xilinx ZU3的AI硬件加速器,獲得了FPGA賽道的第二名。本次分享主要介紹我們團隊的設(shè)計方案。

 

分享嘉賓:趙文哲,西安交通大學(xué)人工智能與機器人研究所研究員,倫斯勒理工學(xué)院訪問學(xué)者,主要研究方向為計算機體系結(jié)構(gòu),糾錯碼設(shè)計,以及企業(yè)級存儲方案設(shè)計。


公開課鏈接:http://www.mooc.ai/open/course/674?=from%20leifeng0717


分享主題:HiPU設(shè)計簡介--DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹

 

分享提綱:

  • DAC19比賽背景介紹;

  • 算法選擇及訓(xùn)練介紹;

  • 一種通用目的的AI加速器設(shè)計簡介;

  • 性能分析與結(jié)論。

 

雷鋒網(wǎng)AI研習(xí)社將其分享內(nèi)容整理如下:

 

大家好,我們來自于西安交通大學(xué)人工智能研究所。在今年DAC會議舉辦的自動化系統(tǒng)設(shè)計大賽上獲得了亞軍,今天主要介紹一下我們的設(shè)計方案。我負責這個方案的算法部分,算法部分主要進行了目標檢測遞層框架的搭建、神經(jīng)網(wǎng)絡(luò)算法的壓縮,后面主要由趙老師講一下硬件架構(gòu)的設(shè)計。

HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

這個是由英偉達、大疆他們共同組建的一個比賽,數(shù)據(jù)集由大疆提供——基于大疆無人機拍攝出的目標檢測的數(shù)據(jù)集,比賽從準確率、速率、網(wǎng)絡(luò)效率等方面綜合考量之后,給參賽隊伍一個相應(yīng)的分數(shù),以上這些是關(guān)于比賽的大概介紹。

HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

在比賽中,算法方面主要是兩個工作,第一個是神經(jīng)網(wǎng)絡(luò)的選取,這個工作需要在一非常小的BP上配置神經(jīng)網(wǎng)絡(luò),所以首選儲存空間小、效率高的這種來作為特征提取的基本網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)訓(xùn)練過程中,主要進行了兩個部分的優(yōu)化,首先是將神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練,第二個優(yōu)化是針對硬件優(yōu)化的,將ShuffleNet V2變成8的倍數(shù),方便后面進行配置。

HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

算法方面的第二個工作主要是介紹網(wǎng)絡(luò)的量化,網(wǎng)絡(luò)的量化也分為兩個主要的部分,首先是將一些特殊的層進行融合,如圖示左邊部分。其次是8bit的量化過程,如圖示右邊部分。

HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

下面介紹一下量化過程中的一些關(guān)鍵點,第一個點就是神經(jīng)網(wǎng)絡(luò)越小,量化難度越高,來看一下下圖所示右邊部分,是當時我們?yōu)榱蓑炞C這個說法做的一個實驗。第二個點就是上一頁的cabs函數(shù),這個函數(shù)主要是保護權(quán)重和輸出在要求的范圍內(nèi)不產(chǎn)生溢出,最好是先讓網(wǎng)絡(luò)訓(xùn)練一段時間,在權(quán)重和輸出都比較穩(wěn)定的時候再把函數(shù)加入進去。第三個點就是ratio_a,指的是輸出值,這個值的統(tǒng)計是一個非常精細的過程。第四個需要注意的點就是,在完成離線的量化工作之后,在實際操作中,需要跳過round函數(shù)的梯度。

 

關(guān)于量化這個領(lǐng)域,建議大家讀一下以下這些論文,如下圖。

HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

我這部分講完了,接下來是趙老師來介紹。

 

在我們的網(wǎng)絡(luò)和參數(shù)訓(xùn)練完成之后,就需要設(shè)計一套硬件加速處理器,以便讓神經(jīng)網(wǎng)絡(luò)能夠高效的運行。為了實現(xiàn)上述目標,我們設(shè)計了一個通用的,可以支持幾乎所有網(wǎng)絡(luò)的加速器,將它命名為HiPU。這個加速器主要包括這樣幾個模塊,首先是一般的控制模塊,除此之外有矩陣運算和矢量運算。在HiPU里面,主要是處理卷積、Depth-wise卷積、padding、pooling、跟channel相關(guān)的shuffle操作以及concat操作。

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié) 

先看一下幾個基本操作,如下圖右側(cè)所示,是HiPU的基本結(jié)構(gòu)圖。

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié) 

接下來看一下計算過程,以卷積為例,當數(shù)據(jù)已經(jīng)放在MRa、MRb中之后,通過計算器發(fā)出開始卷積的命令,然后conv_ctrl模塊會把一個卷積拆解成很多矩陣運算和矢量運算的指令,MPU和VPU內(nèi)部會把數(shù)據(jù)讀上來,計算完之后再送到VPU做一次運算的結(jié)尾部分,算完之后再寫回到MRa之中,流程大概就是這樣。DW卷積也是類似,如圖所示。

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

接下來看一下相關(guān)的幾個優(yōu)化,首先我們并不是算完一層就立刻返回,以module_c為例,先做一個切分,把前一半的數(shù)據(jù)直接傳到后面,后一半的數(shù)據(jù)分別經(jīng)過1x1的卷積,然后經(jīng)過3x3的卷積,再經(jīng)過1x1的卷積,和之前的數(shù)據(jù)做一個shuffle之后輸出。在這個過程中,并不是說做一個卷積就算完了就立刻輸出。繼續(xù)講第二個優(yōu)化,在此之前說一下我們這種做法的問題,問題是一次需要讀入8個輸入channel的數(shù)據(jù),但是輸入層只有RGB三個通路,如果要處理這樣的數(shù)據(jù),就必須要補上5個channel的0,計算效率也就只有八分之三。針對這個問題,如果第一層卷積是3x3的,可以考慮做這樣一個變換,把相關(guān)的數(shù)據(jù)排列過來,如下圖,這樣的做法可以讓卷積效率提高很多。

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié) 

除此之外我們再看一下作為系統(tǒng)的優(yōu)化,系統(tǒng)分為PS側(cè)和PL側(cè),大部分卷積運算都是放在PL側(cè)進行的,最后一層的輸出是放在PS側(cè)來做的。在PL側(cè)做大量卷積運算的時候,PS側(cè)是空閑著的,但是現(xiàn)在在做當前圖的卷積運算的時候,PS側(cè)會進行下一張圖的預(yù)讀取,通過這種方式可以顯著地減少讀圖所消耗的時間。除此之外是對計算Calc bbox的優(yōu)化,通過外擴C函數(shù),把計算時間從2毫秒降到0.6毫秒,而且,讀圖像的時間也可以減少。最后還有一個問題,之前使用的SD卡并不是最好的SD卡,會出現(xiàn)這種PS側(cè)一直在讀圖,但是PL側(cè)已經(jīng)算完了的尷尬情況,于是增加了一個門控時鐘來降低功耗。

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié) 

接下來是HiPU的一個總結(jié)。我們的HiPU可以在單倍頻和雙倍頻模式下工作在233MHz,峰值算力為268Gops。資源占比中,LUT站到62%左右,還有繼續(xù)提升的空間。編程API為C以及RISC-V風(fēng)格的匯編。支持的主要操作如下圖所示:

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié) 

下圖是HiPU在不同的配置環(huán)境下執(zhí)行這次比賽的任務(wù)的性能分析:

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié) 

介紹一下我們的Roadmap,如圖所示:

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié) 

最后請欣賞我們設(shè)計的2個Demo:

 HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)HiPU設(shè)計簡介——DAC19目標檢測設(shè)計競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié) 


今天的介紹主要就是這些,謝謝大家。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)) AI 研習(xí)社社區(qū)http://ai.yanxishe.com/觀看。關(guān)注微信公眾號:AI 研習(xí)社(okweiwu),可獲取最新公開課直播時間預(yù)告。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說