丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預(yù)覽，將在時失效

AI+ 正文

發(fā)私信給AI研習(xí)社

發(fā)送

0

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

本文作者： AI研習(xí)社

2019-07-17 14:51

導(dǎo)語：團(tuán)隊(duì)設(shè)計(jì)了單目標(biāo)檢測的深度學(xué)習(xí)算法ShuffleDet，和面向Xilinx ZU3的AI硬件加速器，獲得了FPGA賽道的第二名

雷鋒網(wǎng)AI研習(xí)社按：DAC19目標(biāo)檢測設(shè)計(jì)是一個面向移動端的單目標(biāo)物體檢測的比賽，檢測精度高且能耗低者勝出。我們團(tuán)隊(duì)設(shè)計(jì)了單目標(biāo)檢測的深度學(xué)習(xí)算法ShuffleDet，和面向Xilinx ZU3的AI硬件加速器，獲得了FPGA賽道的第二名。本次分享主要介紹我們團(tuán)隊(duì)的設(shè)計(jì)方案。

分享嘉賓：趙文哲，西安交通大學(xué)人工智能與機(jī)器人研究所研究員，倫斯勒理工學(xué)院訪問學(xué)者，主要研究方向?yàn)橛?jì)算機(jī)體系結(jié)構(gòu)，糾錯碼設(shè)計(jì)，以及企業(yè)級存儲方案設(shè)計(jì)。

公開課鏈接：http://www.mooc.ai/open/course/674?=from%20leifeng0717

分享主題：HiPU設(shè)計(jì)簡介--DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹

分享提綱：

DAC19比賽背景介紹；
算法選擇及訓(xùn)練介紹；
一種通用目的的AI加速器設(shè)計(jì)簡介；
性能分析與結(jié)論。

雷鋒網(wǎng)AI研習(xí)社將其分享內(nèi)容整理如下：

大家好，我們來自于西安交通大學(xué)人工智能研究所。在今年DAC會議舉辦的自動化系統(tǒng)設(shè)計(jì)大賽上獲得了亞軍，今天主要介紹一下我們的設(shè)計(jì)方案。我負(fù)責(zé)這個方案的算法部分，算法部分主要進(jìn)行了目標(biāo)檢測遞層框架的搭建、神經(jīng)網(wǎng)絡(luò)算法的壓縮，后面主要由趙老師講一下硬件架構(gòu)的設(shè)計(jì)。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

這個是由英偉達(dá)、大疆他們共同組建的一個比賽，數(shù)據(jù)集由大疆提供——基于大疆無人機(jī)拍攝出的目標(biāo)檢測的數(shù)據(jù)集，比賽從準(zhǔn)確率、速率、網(wǎng)絡(luò)效率等方面綜合考量之后，給參賽隊(duì)伍一個相應(yīng)的分?jǐn)?shù)，以上這些是關(guān)于比賽的大概介紹。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

在比賽中，算法方面主要是兩個工作，第一個是神經(jīng)網(wǎng)絡(luò)的選取，這個工作需要在一非常小的BP上配置神經(jīng)網(wǎng)絡(luò)，所以首選儲存空間小、效率高的這種來作為特征提取的基本網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)訓(xùn)練過程中，主要進(jìn)行了兩個部分的優(yōu)化，首先是將神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練，第二個優(yōu)化是針對硬件優(yōu)化的，將ShuffleNet V2變成8的倍數(shù)，方便后面進(jìn)行配置。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

算法方面的第二個工作主要是介紹網(wǎng)絡(luò)的量化，網(wǎng)絡(luò)的量化也分為兩個主要的部分，首先是將一些特殊的層進(jìn)行融合，如圖示左邊部分。其次是8bit的量化過程，如圖示右邊部分。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

下面介紹一下量化過程中的一些關(guān)鍵點(diǎn)，第一個點(diǎn)就是神經(jīng)網(wǎng)絡(luò)越小，量化難度越高，來看一下下圖所示右邊部分，是當(dāng)時我們?yōu)榱蓑?yàn)證這個說法做的一個實(shí)驗(yàn)。第二個點(diǎn)就是上一頁的cabs函數(shù)，這個函數(shù)主要是保護(hù)權(quán)重和輸出在要求的范圍內(nèi)不產(chǎn)生溢出，最好是先讓網(wǎng)絡(luò)訓(xùn)練一段時間，在權(quán)重和輸出都比較穩(wěn)定的時候再把函數(shù)加入進(jìn)去。第三個點(diǎn)就是ratio_a,指的是輸出值，這個值的統(tǒng)計(jì)是一個非常精細(xì)的過程。第四個需要注意的點(diǎn)就是，在完成離線的量化工作之后，在實(shí)際操作中，需要跳過round函數(shù)的梯度。

關(guān)于量化這個領(lǐng)域，建議大家讀一下以下這些論文，如下圖。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

我這部分講完了，接下來是趙老師來介紹。

在我們的網(wǎng)絡(luò)和參數(shù)訓(xùn)練完成之后，就需要設(shè)計(jì)一套硬件加速處理器，以便讓神經(jīng)網(wǎng)絡(luò)能夠高效的運(yùn)行。為了實(shí)現(xiàn)上述目標(biāo)，我們設(shè)計(jì)了一個通用的，可以支持幾乎所有網(wǎng)絡(luò)的加速器，將它命名為HiPU。這個加速器主要包括這樣幾個模塊，首先是一般的控制模塊，除此之外有矩陣運(yùn)算和矢量運(yùn)算。在HiPU里面，主要是處理卷積、Depth-wise卷積、padding、pooling、跟channel相關(guān)的shuffle操作以及concat操作。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

先看一下幾個基本操作，如下圖右側(cè)所示，是HiPU的基本結(jié)構(gòu)圖。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

接下來看一下計(jì)算過程，以卷積為例，當(dāng)數(shù)據(jù)已經(jīng)放在MRa、MRb中之后，通過計(jì)算器發(fā)出開始卷積的命令，然后conv_ctrl模塊會把一個卷積拆解成很多矩陣運(yùn)算和矢量運(yùn)算的指令,MPU和VPU內(nèi)部會把數(shù)據(jù)讀上來，計(jì)算完之后再送到VPU做一次運(yùn)算的結(jié)尾部分，算完之后再寫回到MRa之中，流程大概就是這樣。DW卷積也是類似，如圖所示。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

接下來看一下相關(guān)的幾個優(yōu)化，首先我們并不是算完一層就立刻返回，以module_c為例，先做一個切分，把前一半的數(shù)據(jù)直接傳到后面，后一半的數(shù)據(jù)分別經(jīng)過1x1的卷積，然后經(jīng)過3x3的卷積，再經(jīng)過1x1的卷積，和之前的數(shù)據(jù)做一個shuffle之后輸出。在這個過程中，并不是說做一個卷積就算完了就立刻輸出。繼續(xù)講第二個優(yōu)化，在此之前說一下我們這種做法的問題，問題是一次需要讀入8個輸入channel的數(shù)據(jù)，但是輸入層只有RGB三個通路，如果要處理這樣的數(shù)據(jù)，就必須要補(bǔ)上5個channel的0，計(jì)算效率也就只有八分之三。針對這個問題，如果第一層卷積是3x3的，可以考慮做這樣一個變換，把相關(guān)的數(shù)據(jù)排列過來，如下圖，這樣的做法可以讓卷積效率提高很多。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

除此之外我們再看一下作為系統(tǒng)的優(yōu)化，系統(tǒng)分為PS側(cè)和PL側(cè)，大部分卷積運(yùn)算都是放在PL側(cè)進(jìn)行的，最后一層的輸出是放在PS側(cè)來做的。在PL側(cè)做大量卷積運(yùn)算的時候，PS側(cè)是空閑著的，但是現(xiàn)在在做當(dāng)前圖的卷積運(yùn)算的時候，PS側(cè)會進(jìn)行下一張圖的預(yù)讀取，通過這種方式可以顯著地減少讀圖所消耗的時間。除此之外是對計(jì)算Calc bbox的優(yōu)化，通過外擴(kuò)C函數(shù)，把計(jì)算時間從2毫秒降到0.6毫秒，而且，讀圖像的時間也可以減少。最后還有一個問題，之前使用的SD卡并不是最好的SD卡，會出現(xiàn)這種PS側(cè)一直在讀圖，但是PL側(cè)已經(jīng)算完了的尷尬情況，于是增加了一個門控時鐘來降低功耗。

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

接下來是HiPU的一個總結(jié)。我們的HiPU可以在單倍頻和雙倍頻模式下工作在233MHz，峰值算力為268Gops。資源占比中，LUT站到62%左右，還有繼續(xù)提升的空間。編程API為C以及RISC-V風(fēng)格的匯編。支持的主要操作如下圖所示：

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

下圖是HiPU在不同的配置環(huán)境下執(zhí)行這次比賽的任務(wù)的性能分析：

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

介紹一下我們的Roadmap,如圖所示：

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

最后請欣賞我們設(shè)計(jì)的2個Demo:

HiPU設(shè)計(jì)簡介——DAC19目標(biāo)檢測設(shè)計(jì)競賽FPGA賽道亞軍方案介紹| AI 研習(xí)社 157期大講堂總結(jié)

今天的介紹主要就是這些，謝謝大家。

以上就是本期嘉賓的全部分享內(nèi)容。更多公開課視頻請到雷鋒網(wǎng)(公眾號：雷鋒網(wǎng)) AI 研習(xí)社社區(qū)http://ai.yanxishe.com/觀看。關(guān)注微信公眾號：AI 研習(xí)社（okweiwu），可獲取最新公開課直播時間預(yù)告。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

分享：

相關(guān)文章

AI研習(xí)社

編輯

聚焦數(shù)據(jù)科學(xué)，連接 AI 開發(fā)者。更多精彩內(nèi)容，請?jiān)L問：yanxishe.com

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

物聯(lián)網(wǎng) 電商 SpaceX 庫克 Groupon AlphaGo IoT TechCrunch Disrupt Moto X Evernote MIUI

為了您的賬戶安全，請驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說