5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

本文作者：包永剛

2019-12-24 15:12

導(dǎo)語(yǔ)：可重構(gòu)是否是解決AI計(jì)算挑戰(zhàn)的一個(gè)好方向？已經(jīng)推出的可重構(gòu)AI芯片有何不同？

新的方法、新的思維、新的目標(biāo)一直引領(lǐng)著新的浪潮。2017年的兩位圖靈獎(jiǎng)得主John L. Hennessy 和 David A. Patterson在年初的一篇報(bào)告中展望，未來(lái)的十年將是計(jì)算機(jī)體系架構(gòu)領(lǐng)域的“新的黃金十年”。

AI的發(fā)展更加期待新架構(gòu)的出現(xiàn)，因?yàn)?，?jīng)典的馮諾依曼架構(gòu)處理器應(yīng)用于深度學(xué)習(xí)計(jì)算時(shí)面臨著內(nèi)存墻挑戰(zhàn)（訪問存儲(chǔ)器的速度無(wú)法跟上運(yùn)算器消耗數(shù)據(jù)的速度）。粗粒度可重構(gòu)架構(gòu)（CGRA，Coarse Grain Reconfigurable Architecture）是AI芯片受關(guān)注的一個(gè)方向，目前已經(jīng)有5款采用該技術(shù)的芯片推出。

可重構(gòu)是否是解決AI計(jì)算挑戰(zhàn)的一個(gè)好方向？已經(jīng)推出的可重構(gòu)AI芯片有何不同？

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

什么是可重構(gòu)？

可重構(gòu)的概念最早在20世紀(jì)60年代被提出。到了80、90年代，可重構(gòu)芯片技術(shù)源頭的高層次綜合理論和方法誕生。進(jìn)入新的世紀(jì)，2015年國(guó)際半導(dǎo)體技術(shù)發(fā)展路線圖（ITRS）認(rèn)為，粗顆粒度可重構(gòu)架構(gòu)（CGRA）是未來(lái)最有發(fā)展前途的新興計(jì)算架構(gòu)之一。

2018年，美國(guó)DARPA正式啟動(dòng)旨在支撐美國(guó)2025-2030年電子技術(shù)能力的“電子復(fù)興計(jì)劃”（ERI），提到研發(fā)具有軟件和硬件雙編程能力，并獲得接近專用電路性能的技術(shù)。在這里領(lǐng)域，魏少軍教授牽頭的清華大學(xué)可重構(gòu)芯片課題組在這個(gè)計(jì)劃提出的十年前就開始了研究，課題組現(xiàn)在的成果比ERI設(shè)定關(guān)鍵性能的指標(biāo)更高。

從60年前可重構(gòu)概念的提出，到2019年有可重構(gòu)AI芯片量產(chǎn)，可重構(gòu)并不是一個(gè)新概念，卻是一個(gè)挑戰(zhàn)眾多的技術(shù)。這種挑戰(zhàn)很大程度來(lái)源于，動(dòng)態(tài)可重構(gòu)芯片既要有CPU和GPU級(jí)別的軟件可編程性，也要有FPGA級(jí)別的硬件可編程性。

魏少軍教授總結(jié)認(rèn)為動(dòng)態(tài)可重構(gòu)芯片預(yù)期的特點(diǎn)和潛在能力區(qū)別于傳統(tǒng)芯片有7點(diǎn)：

（1）軟硬件可編程；

（2）硬件架構(gòu)的動(dòng)態(tài)可變性及高效的架構(gòu)變換能力；

（3）兼具高計(jì)算效率和高能量效率；

（4）本征安全性；

（5）應(yīng)用簡(jiǎn)便性，不需要芯片設(shè)計(jì)的知識(shí)和能力；

（6）軟件定義芯片；

（7）實(shí)現(xiàn)智能的能力。

可重構(gòu)芯片的技術(shù)的源頭高層次綜合（High-LevelSynthesis）理論和方法，是一種從行為描述到電路的優(yōu)化設(shè)計(jì)方法。也就是先找到數(shù)據(jù)依賴關(guān)系，然后通過運(yùn)行時(shí)間的分割，對(duì)運(yùn)算進(jìn)行調(diào)度來(lái)實(shí)現(xiàn)計(jì)算資源的復(fù)用。

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

高層次綜合生成的專用集成電路架構(gòu)

用高層次綜合系統(tǒng)的實(shí)現(xiàn)過程進(jìn)行更具體的解釋，系統(tǒng)輸入用硬件描述語(yǔ)言（HDL）寫成的系統(tǒng)行為描述（如VHDL或Verilog），然后根據(jù)這些行為描述，通過高層次綜合的編譯器，生成包含數(shù)據(jù)和互連網(wǎng)絡(luò)配置信息的微控制碼以及與系統(tǒng)功能相關(guān)的有限狀態(tài)機(jī)。

不過，這里所說(shuō)的“編譯器”與傳統(tǒng)的計(jì)算機(jī)的編譯器并沒有任何關(guān)系，只是借用編譯器的概念，其核心是一整套高層次綜合方法學(xué)的內(nèi)容。

高層次綜合系統(tǒng)使設(shè)計(jì)過程變得非常有序，也被認(rèn)為是20世紀(jì)80、90年代集成電路設(shè)計(jì)方法學(xué)中最好的選擇。

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

可重構(gòu)芯片的基本架構(gòu)

不過，半導(dǎo)體制程技術(shù)的演進(jìn)也帶來(lái)了高成本的問題。如果研發(fā)一款14nm制程的芯片，綜合成本高達(dá)1.5-2億美元，通常要銷售3000萬(wàn)顆以上才能把研發(fā)成本合理地?cái)備N到每顆芯片上。如果采用目前最先進(jìn)的7nm制程的芯片，綜合成本可能高達(dá)3億甚至更多。芯片的設(shè)計(jì)和制造成本在增加，但AI對(duì)算力的需求也在按月增加。

這時(shí)候，復(fù)用芯片是個(gè)不錯(cuò)的選擇。設(shè)想一下，相同的芯片，功能可通過軟件改變，不同的軟件寫入就變成了“專用”芯片。這將是非常理想的情況，如果這個(gè)想法實(shí)現(xiàn)，可以認(rèn)為軟件定義芯片就成為了現(xiàn)實(shí)。

但挑戰(zhàn)在于，軟件可以無(wú)限復(fù)雜，執(zhí)行時(shí)間可以無(wú)窮長(zhǎng)，硬件不管多大都有邊界。可重構(gòu)芯片業(yè)面臨眾多挑戰(zhàn)，其中有三個(gè)主要的挑戰(zhàn)：

計(jì)算模式：如何提高陣列利用率？

陣列結(jié)構(gòu)：如何提高計(jì)算能效？

算法映射：如何優(yōu)化映射效率？

可重構(gòu)技術(shù)的優(yōu)勢(shì)和挑戰(zhàn)都同樣顯著，采用這個(gè)技術(shù)，清微智能、耐能、云天勵(lì)飛、燧原科技、WaveComputing相繼推出了AI芯片，他們有何不同？

5款可重構(gòu)AI芯片面世

清微智能

清微智的核心成員來(lái)自清華大學(xué)可重構(gòu)計(jì)算研究團(tuán)隊(duì)，2019年量產(chǎn)的首顆芯片是TX210，這款語(yǔ)音SoC芯片可以應(yīng)用于智能手機(jī)、可穿戴智能設(shè)備、小家電、大家電、玩具、車載等場(chǎng)景。清微的可重構(gòu)芯片主要分為三個(gè)維度，從MAC層面支持不同的位寬重構(gòu)，到執(zhí)行單元層面支持不同算子重構(gòu)，再到陣列層面支持不同功能重構(gòu)。

用一個(gè)更容易理解的類比來(lái)解釋清微可重構(gòu)芯片的可重構(gòu)程度，清微的可重構(gòu)芯片既可以是“樂高”層級(jí)的可重構(gòu)，也可以是“面粉”層級(jí)的可重構(gòu)。

清微智能CTO歐陽(yáng)鵬此前接受雷鋒網(wǎng)采訪時(shí)透露，在可重構(gòu)計(jì)算更低能耗和更強(qiáng)靈活性的基礎(chǔ)上，他們?cè)诰唧w的芯片設(shè)計(jì)上又做了兩方面深化。

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

清微的AI芯片支持從1bit-16bit的混合精度計(jì)算，同時(shí)，不同的神經(jīng)網(wǎng)絡(luò)層可以采用不同的精度表示，可實(shí)現(xiàn)實(shí)時(shí)切換精度。在具體實(shí)現(xiàn)過程中，可重構(gòu)模式動(dòng)態(tài)重組計(jì)算資源和帶寬，根據(jù)精度表示，讓計(jì)算資源和帶寬接近滿負(fù)荷進(jìn)行計(jì)算，從而將混合精度網(wǎng)絡(luò)下的計(jì)算資源和帶寬的利用率逼近極限，高效支持多種混合精度的神經(jīng)網(wǎng)絡(luò)。

另外，清微的AI芯片針對(duì)神經(jīng)網(wǎng)絡(luò)部分和非神經(jīng)網(wǎng)絡(luò)均進(jìn)行了計(jì)算效率考慮。針對(duì)非神經(jīng)網(wǎng)絡(luò)處理邏輯，從算法數(shù)據(jù)流圖進(jìn)行空間映射，以接近ASIC效率計(jì)算。同時(shí)，通過配置形成不同的電路結(jié)構(gòu)來(lái)動(dòng)態(tài)處理不同非神經(jīng)網(wǎng)絡(luò)計(jì)算邏輯，在保證靈活性前提下，計(jì)算效率有極大提升。

需要指出，可重構(gòu)芯片代表的是采用的是數(shù)據(jù)驅(qū)動(dòng)下的空域執(zhí)行模式，區(qū)別于CPU、GPU、NPU諾依曼架構(gòu)的時(shí)域計(jì)算模式，數(shù)據(jù)流驅(qū)動(dòng)的芯片從架構(gòu)上就可以避免了馮諾依曼架構(gòu)的限制。

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

目前，清微智能除了可重構(gòu)架構(gòu)的語(yǔ)音芯片，還發(fā)布了面向智能家居、智能安防和新零售領(lǐng)域的低功耗圖像識(shí)別芯片。

云天勵(lì)飛

云天勵(lì)飛沒有具體解釋其芯片中的可重構(gòu)架構(gòu)，云天勵(lì)飛副總裁芯片產(chǎn)品線負(fù)責(zé)人李愛軍在接受雷鋒網(wǎng)采訪時(shí)表示，云天的實(shí)現(xiàn)方式是從PE的維度進(jìn)行可重構(gòu)，可以理解為運(yùn)算單元的可重構(gòu)，通過工具鏈實(shí)現(xiàn)芯片的靈活性。因此，采用的方式和維度會(huì)有所不同（與清微相比），但最終的效果應(yīng)該是異曲同工。

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

在其今年11月發(fā)布的專注邊緣和端側(cè)視覺新產(chǎn)品DeepEye1000介紹中提到，采用存算融合體系架構(gòu)和可重構(gòu)計(jì)算陣列，可以靈活、高效的執(zhí)行各種深度學(xué)習(xí)算法模型的推理計(jì)算，峰值算力達(dá)2.0Tops。

神經(jīng)網(wǎng)絡(luò)處理器采用可重構(gòu)計(jì)算陣列，支持靈活可編程計(jì)算流，計(jì)算效率超過99%，同時(shí)采用存算融合體系架構(gòu)，使得DDR存儲(chǔ)訪問帶寬下降77%，功耗下降60%。

更多的技術(shù)細(xì)節(jié)，需要云天勵(lì)飛進(jìn)一步披露。

耐能

耐能今年5月在國(guó)內(nèi)發(fā)布物聯(lián)網(wǎng)專用AI SoC——KL520時(shí)表示這款新品使用了可重組架構(gòu)，雖然不是可重構(gòu)技術(shù)，但兩者之間同樣存在關(guān)聯(lián)。還是用上面的類比來(lái)解釋，耐能的架構(gòu)是積木層級(jí)的可重組，清微智能的可重構(gòu)則是面粉層級(jí)的可重組，更加底層。

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

耐能CEO劉峻誠(chéng)解釋，可重組架構(gòu)可以理解為這款芯片提供的是一堆樂高積木，需要支持語(yǔ)音AI的模型時(shí)就通過指令集進(jìn)行組合，需要支持圖像AI模型時(shí)，再重新組合，可以很好地支持多種神經(jīng)網(wǎng)絡(luò)模型，并且保持架構(gòu)的精簡(jiǎn)性。

由此能夠帶來(lái)性能和功耗的優(yōu)勢(shì)，如果選用更加成熟的工藝制程，降低成本，最終能實(shí)現(xiàn)高性能、低成本、低功耗、高兼容性的優(yōu)勢(shì)。

至于如何解決AI芯片存儲(chǔ)挑戰(zhàn)的問題，劉峻誠(chéng)透露，他們的巧思是實(shí)現(xiàn)了動(dòng)態(tài)存儲(chǔ)DMA（Dynamic Memory Assessment），當(dāng)處理器對(duì)存儲(chǔ)沒有很高的需求時(shí)，就預(yù)先準(zhǔn)備好，當(dāng)需要使用的時(shí)候就直接讀取，實(shí)現(xiàn)效率的提升。

另外，可重組架構(gòu)還能動(dòng)態(tài)支持同一個(gè)神經(jīng)網(wǎng)絡(luò)的不同數(shù)據(jù)精度需求。最終產(chǎn)品可以根據(jù)客戶的需求，支持Int8、FP16或更高的精度。壓縮率也能夠控制在0.5%以內(nèi)則是來(lái)源于耐能獨(dú)特的開放平臺(tái)，通過這個(gè)開放平臺(tái)能夠?qū)嚎s率提升40甚至50倍，壓縮率損失則小于0.5%，這是軟件或者說(shuō)軟硬一體優(yōu)勢(shì)的體現(xiàn)。

據(jù)悉，耐能的可重組架構(gòu)研究已經(jīng)在國(guó)際知名的半導(dǎo)體期刊上發(fā)布，并且在美國(guó)、臺(tái)灣都拿到了專利。

燧原科技

除了將可重構(gòu)的理念和技術(shù)應(yīng)用于邊緣端，同樣是國(guó)內(nèi)初創(chuàng)公司的燧原科技在其云端訓(xùn)練AI芯片中也用到了可重構(gòu)。

燧原科技的首款芯片邃思DTU基于可重構(gòu)芯片的設(shè)計(jì)理念，其計(jì)算核心包含32個(gè)通用可擴(kuò)展神經(jīng)元處理器（SIP），每8個(gè)SIP組合成1個(gè)可擴(kuò)展智能計(jì)算群（SIC）。SIC之間通過HBM實(shí)現(xiàn)高速互聯(lián)，通過片上調(diào)度算法，數(shù)據(jù)在搬遷中完成計(jì)算，實(shí)現(xiàn)SIP利用率最大化。

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

如何理解DTU中的可重構(gòu)芯片設(shè)計(jì)理念？燧原科技創(chuàng)始人兼 COO 張亞林告訴雷鋒網(wǎng)，“端上的可重構(gòu)更多是低功耗以及可以輕易移植應(yīng)用。云端的可重構(gòu)主要的是把整個(gè)數(shù)學(xué)計(jì)算變成一種可編程的指令集和可控的流水線，讓數(shù)學(xué)計(jì)算的模型可以重構(gòu)，這樣可以保證芯片的通用性，也能夠適應(yīng)快速迭代的AI算法?！?/p>

更進(jìn)一步的細(xì)節(jié)目前也暫不清楚。

Wave Computing

國(guó)內(nèi)采用可重構(gòu)技術(shù)的AI芯片不少，國(guó)外初創(chuàng)公司W(wǎng)ave Computing的AI芯片也采用該技術(shù)。其基于數(shù)據(jù)流驅(qū)動(dòng)DataFlow技術(shù)的DPU采用非馮諾依曼架構(gòu)的軟件可動(dòng)態(tài)重構(gòu)處理器CGRA技術(shù)，能在最合理分配和使用算力的同時(shí)，成倍節(jié)約了數(shù)據(jù)存儲(chǔ)和傳輸帶寬。官方表示，這一方案基本上能將芯片算力資源的利用效率保證在75%-80%以上。

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

具體而言，DPU對(duì)一個(gè)完整的神經(jīng)網(wǎng)絡(luò)計(jì)算流程，每個(gè)計(jì)算節(jié)點(diǎn)，可以先分配好合理的資源，使得整個(gè)計(jì)算流程達(dá)到資源有效地使用。處理完第一個(gè)任務(wù)節(jié)點(diǎn)，它會(huì)將數(shù)據(jù)直接傳輸?shù)降诙€(gè)任務(wù)節(jié)點(diǎn)的輸入端，第二個(gè)任務(wù)處理完數(shù)據(jù)后，又會(huì)將任務(wù)送到第三個(gè)任務(wù)節(jié)點(diǎn)的輸入端，就像流水線，最大程度減少數(shù)據(jù)存儲(chǔ)和傳輸。

同時(shí)， DataFlow技術(shù)架構(gòu)的整體解決方案會(huì)有一個(gè)獨(dú)立的通用CPU模組來(lái)提供控制、管理和數(shù)據(jù)預(yù)處理功能，但無(wú)需實(shí)時(shí)干預(yù)DPU。

目前，Wave Computing商用的DPU采用16nm制程工藝，每個(gè)DPU有16384個(gè)處理元件（PE），面積為300多平方毫米，并以6 GHz以上的速度運(yùn)行。其DPU與國(guó)內(nèi)外多家云服務(wù)商和AI公司均有緊密合作，合適汽車電子、智慧醫(yī)療等各種復(fù)雜、算力要求高的各類AI應(yīng)用。

無(wú)論是國(guó)外還是國(guó)內(nèi)，無(wú)論是云端還是終端，都有采用可重構(gòu)技術(shù)的AI芯片已經(jīng)推出，這表明可重構(gòu)技術(shù)無(wú)疑是業(yè)界關(guān)注的一個(gè)新技術(shù)。但各家對(duì)技術(shù)的理解和應(yīng)用也有差別，從目前的信息看，清微智能對(duì)該技術(shù)做了更深入的解讀，Wave Computing也發(fā)布文章解釋其DTU，云天勵(lì)飛、耐能、燧原科技還沒更進(jìn)一步的技術(shù)解讀。

理想的可重構(gòu)不僅能夠滿足不斷迭代的AI算法以及各種應(yīng)用的需求，軟件定義芯片的方式也能盡可能延長(zhǎng)芯片的使用時(shí)間，但實(shí)現(xiàn)理想的可重構(gòu)芯片仍然還有許多挑戰(zhàn)。

首發(fā) | 全新類別AI芯片量產(chǎn)，清微的可重構(gòu)芯片將成市場(chǎng)主流？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？

5款芯片已經(jīng)面世，可重構(gòu)架構(gòu)是AI芯片的新風(fēng)潮？