0
本文作者: 包永剛 | 2020-01-13 14:53 |
2012年,深度學(xué)習(xí)算法在圖像分類競賽中展現(xiàn)出的顯著性能提升引發(fā)了新一輪的AI熱潮。
2015年,深度學(xué)習(xí)算法對芯片的快速增長需求引發(fā)了AI芯片創(chuàng)業(yè)熱潮。
不過,擁抱AI芯片的設(shè)計者們很快發(fā)現(xiàn),使用經(jīng)典馮諾依曼計算架構(gòu)的AI芯片即使在運算單元算力大幅提升,但存儲器性能提升速度較慢的情況下,兩者的性能差距越來越明顯,而深度學(xué)習(xí)算法帶來的數(shù)據(jù)搬運消耗的能量是計算消耗能量的幾十倍甚至幾百倍,“內(nèi)存墻”的問題越來越顯著。
因此,依靠軟件算法以及云端強大計算能力的人工智能雖然取得了較大的成功,可以勝任多種特定的智能處理任務(wù),但是面臨功耗、速度、成本等諸多挑戰(zhàn),離智能萬物互聯(lián)時代還有巨大差距。
AI芯片的核心技術(shù)之一就是解決“內(nèi)存墻”挑戰(zhàn),可以在存儲器內(nèi)直接做計算的存內(nèi)計算(In-Memory Computing)技術(shù)在沉寂了近30年后,AI熱潮下近年來成為焦點。無論是頂級學(xué)術(shù)會議,還是巨頭公司都在尋找能夠用存內(nèi)計算打破AI芯片“內(nèi)存墻”的最佳技術(shù)方案。
那么,誰會是最終的破局者?
存內(nèi)計算最適合AI?
存內(nèi)計算被不少業(yè)內(nèi)人士認(rèn)為是最適合AI的芯片架構(gòu),廣受學(xué)術(shù)界和產(chǎn)業(yè)界的青睞。
2018年,國際頂級學(xué)術(shù)會議-IEEE國際固態(tài)電路會議(ISSCC)有一個專門的議程討論存內(nèi)計算。2019年和2020年關(guān)于存內(nèi)運算的論文更是大爆發(fā),ISSCC2020與存內(nèi)計算相關(guān)的論文數(shù)量上升到了7篇。同時,2019年電子器件領(lǐng)域頂級會議IEDM有三個專門的議程共二十余篇存內(nèi)計算相關(guān)的論文。
除了學(xué)術(shù)界,產(chǎn)業(yè)界也越來越多的玩家布局該技術(shù)。IBM基于其獨特的相變存內(nèi)計算已經(jīng)有了數(shù)年的技術(shù)積累;臺積電正大力推進(jìn)基于ReRAM的存內(nèi)計算方案;英特爾、博世、美光、Lam Research、應(yīng)用材料、微軟、亞馬遜、軟銀則投資了基于NOR Flash的存內(nèi)計算芯片。
其實,利用存儲器做計算在很早以前就有人研究,上世紀(jì)90年代就有學(xué)者發(fā)表過相關(guān)論文。但沒有人真正實現(xiàn)產(chǎn)業(yè)落地,究其原因,一方面是設(shè)計挑戰(zhàn)比較大,更為關(guān)鍵的是沒有殺手級應(yīng)用。隨著深度學(xué)習(xí)的大規(guī)模爆發(fā),存內(nèi)計算技術(shù)才開始產(chǎn)業(yè)化落地。
存內(nèi)計算的產(chǎn)業(yè)化落地歷程,與知存科技創(chuàng)始人的求學(xué)創(chuàng)業(yè)經(jīng)歷關(guān)系密切。
2011年,郭昕婕本科畢業(yè)于北大信息科學(xué)技術(shù)學(xué)院微電子專業(yè),本科畢業(yè)之后郭昕婕開始了美國加州大學(xué)圣塔芭芭拉分校(UCSB)的博士學(xué)業(yè),她的導(dǎo)師Dmitri B.Strukov教授是存內(nèi)計算領(lǐng)域的學(xué)術(shù)大牛,2008年在惠普完成了憶阻器的首次制備,2010年加入了美國加州大學(xué)圣塔芭芭拉分校。郭昕婕也成為了Dmitri B.Strukov教授的第一批博士生,開始了基于NOR FLASH存內(nèi)計算芯片的研究。
Dmitri B. Strukov告訴她,F(xiàn)LASH已經(jīng)商用幾十年,技術(shù)成熟,成本很低,是最接近產(chǎn)業(yè)化的方向,但缺點同樣是因為FLASH研究起步較早,學(xué)術(shù)界對FLASH存內(nèi)計算的研究期望較高,發(fā)表文章不易。2013年,隨著深度學(xué)習(xí)的研究熱潮席卷學(xué)術(shù)界,在導(dǎo)師的支持下,郭昕婕開始嘗試基于NOR FLASH存內(nèi)計算的芯片研發(fā)。
耗時4年,歷經(jīng)6次流片,郭昕婕終于在2016年研發(fā)出全球第一個3層神經(jīng)網(wǎng)絡(luò)的浮柵存內(nèi)計算深度學(xué)習(xí)芯片,首次驗證了基于浮柵晶體管的存內(nèi)計算在深度學(xué)習(xí)應(yīng)用中的效用。僅一年后,她就進(jìn)一步攻下7層神經(jīng)網(wǎng)絡(luò)的浮柵存內(nèi)計算深度學(xué)習(xí)芯片。
也是在2016年,郭昕婕的大學(xué)同學(xué),也是她丈夫的王紹迪,同樣看到了存內(nèi)計算芯片在AI中的應(yīng)用價值,選擇和郭昕婕繼續(xù)在博士后階段從事存內(nèi)計算的研究工作。2017年,美國開始大力資助存內(nèi)計算技術(shù)的研發(fā),王紹迪和其導(dǎo)師的項目也獲得了600萬美金的資助。郭昕婕夫婦認(rèn)為時機(jī)成熟,毅然選擇回國創(chuàng)業(yè),并獲得了啟迪之星、兆易創(chuàng)新等關(guān)聯(lián)人的投資支持。
2017年10月,知存科技在北京成立,由于積累了豐富的經(jīng)驗,知存科技在成立后的10個月內(nèi)就首次流片。同時加上存內(nèi)計算技術(shù)逐漸獲得認(rèn)可,知存科技的發(fā)展也在逐步加快,并于2018年12月獲得獲訊飛領(lǐng)投的天使+輪融資,2019年8月又獲得中芯聚源領(lǐng)投的近億元A輪融資。
測試晶圓圖 來源:知存科技
王紹迪對存內(nèi)計算技術(shù)在AI中的應(yīng)用充滿信心,他接受雷鋒網(wǎng)采訪時表示:“AI算法的參數(shù)越多,存內(nèi)計算的優(yōu)勢越大。因為存內(nèi)計算是在存儲器中儲存了一個操作數(shù),輸入另一個操作數(shù)后就可以得到運算結(jié)果。所以參數(shù)越多,節(jié)省的數(shù)據(jù)搬運就越多,優(yōu)勢也就越明顯。存內(nèi)計算可以看作是一個大的錘子,AI算法是釘子,早期落地的算法是小釘子,隨著時間推演,釘子會越來越大越來越多?!?/strong>
知存科技CEO王紹迪
知存科技的方案是從底層重新設(shè)計存儲器,利用NOR FLASH存儲單元的物理特性,對存儲陣列進(jìn)行改造,重新設(shè)計外圍電路使其能夠容納更多的數(shù)據(jù),同時將算子也存儲到存儲器當(dāng)中,使得每個單元都能進(jìn)行模擬運算并且能直接輸出運算結(jié)果,以達(dá)到存內(nèi)計算的目的。
由此看來,存內(nèi)計算是破解“內(nèi)存墻”瓶頸的好方法,但為什么在多種存內(nèi)計算的技術(shù)路徑中,知存科技選擇的是NOR FLASH?
為什么選擇NOR-FLASH?
其實,能做存內(nèi)計算的存儲器并不多,除了FLASH,還有億阻器、相變存儲器、鐵電存儲器、自旋存儲器、SRAM等,但各有各的優(yōu)缺點。
綜合來看,NOR FLASH是目前最適合產(chǎn)業(yè)化的方向,眾多巨頭投資的美國初創(chuàng)公司Mythic采用的也正是NOR FLASH。至于為什么用NOR FLASH做存內(nèi)計算被業(yè)界看好,王紹迪表示:“單獨從器件特性看,NOR FLASH的優(yōu)勢不僅體現(xiàn)在功耗和成熟度等方面,高精度也是很大的優(yōu)勢。目前主要的問題是沒有28nm以下的NOR FLASH工藝,但是基于當(dāng)前工藝的NOR FLASH存內(nèi)計算相比傳統(tǒng)方案的優(yōu)勢已經(jīng)足夠高了?!?/strong>
使用NOR FLASH單元可以完成8bit權(quán)重存儲和8bit * 8bit的模擬矩陣乘加運算。單一NOR FLASH陣列可并行完成200萬次矩陣乘加法運算,計算吞吐量相比DRAM和SRAM等存儲器帶寬高出100-1000倍。
知存科技存算一體芯片技術(shù)
“相比使用數(shù)字電路計算,使用NOR FLASH進(jìn)行存內(nèi)計算減少了數(shù)據(jù)搬運消耗的能量,再加上NOR FLASH進(jìn)行乘加法運算功耗也很低,這樣就會帶來百倍甚至千倍的功耗降低?!蓖踅B迪表示。
當(dāng)然,考慮到外圍電路的功耗,NOR FLASH存內(nèi)計算最終能夠?qū)崿F(xiàn)的功耗降低在幾十倍到上百倍之間。不同的算法和應(yīng)用能夠?qū)崿F(xiàn)的提升也不同。
王紹迪介紹,目前來看NOR FLASH存內(nèi)計算技術(shù)可以在單芯片中支持到300M左右的深度學(xué)習(xí)權(quán)重參數(shù),不需要額外的內(nèi)存就可以進(jìn)行計算。目前智能語音模型的大小通常在幾百K到幾兆的大小,端側(cè)的圖像推理模型大小通常在幾兆到幾十兆之間,因此NOR FLASH存內(nèi)計算芯片可以滿足大部分AI場景的需求。
存內(nèi)計算可以支持的模型精度可以達(dá)到現(xiàn)在主流的8比特。王紹迪說,8比特可以覆蓋大部分的深度學(xué)習(xí)應(yīng)用,即便有些極限場景需要更高的16比特,我們也有解決方案在研發(fā)。我們希望未來存內(nèi)計算能夠覆蓋60%-70%的AI應(yīng)用。
需要指出的是,知存科技的技術(shù)水平領(lǐng)先業(yè)界3-4年。郭昕婕博士在2012、2013年就開始研究基于NORFLASH的存內(nèi)計算技術(shù),其他公司基本到2018年才開始研發(fā)投入。作為一項新興前沿技術(shù),研發(fā)存內(nèi)計算需要大量的技術(shù)積累,存在許多坑需要一步一步去踩,即便其他公司投入大量資源,在不出現(xiàn)技術(shù)泄露的情況下,至少也得三四年左右的時間才能達(dá)到知科技存目前的成績。
這其中的設(shè)計挑戰(zhàn),包含了控制電路、模擬電路、編程技術(shù)、可靠性設(shè)計、架構(gòu)設(shè)計等。模擬設(shè)計就是其中非常大的挑戰(zhàn),由于FLASH進(jìn)行的是模擬計算,但算法都是基于數(shù)字電路開發(fā),這就對模擬運算增加了很多苛刻的要求。
王紹迪說:“雖然理論上存內(nèi)計算芯片在功能上無需完全匹配現(xiàn)有的芯片,但目前業(yè)界的AI算法都是基于現(xiàn)有芯片架構(gòu)開發(fā)的,因此知存科技的產(chǎn)品必須去適應(yīng)這些商用算法,并且要做到高精度,這經(jīng)歷了一次次地流片迭代,這些經(jīng)歷和技術(shù)積累也成為了知存科技的優(yōu)勢?!?/p>
“在迭代的過程中,我們需要去解決工藝、溫度、編程、噪聲等帶來的誤差,同時還要解決一些模擬運算遇到的問題,解決問題的過程也是一個創(chuàng)新的過程。正如魏少軍教授所說:產(chǎn)品創(chuàng)新是芯片設(shè)計企業(yè)的永恒話題。”他進(jìn)一步表示。
而這也解釋了知存科技選擇NOR FLASH的原因,從零開始設(shè)計NOR FLASH存內(nèi)計算芯片需要非常長的時間,NOR FLASH之所以能比NAND FLASH進(jìn)度更快,是因為NOR-FLASH已經(jīng)有一套成熟的方案,可以基于已有的方案進(jìn)行優(yōu)化,更快推出產(chǎn)品。
誰是破局者?
經(jīng)歷了多次流片和技術(shù)迭代之后,知存科技上月底發(fā)布了兩款智能語音芯片MemCore001/MemCore001P,支持智能語音識別、語音降噪、聲紋識別等多種智能語音應(yīng)用。芯片運行功耗小于300uA,待機(jī)功耗小于10uA。
根據(jù)知存科技的技術(shù)文檔,MemCore001/MemCore001P典型工作頻率為24MHz(工作時鐘)和2MHz(喚醒時鐘),MemCore001P在低功耗模式下,采用片內(nèi)獨立的低功耗時鐘,可與其他芯片通過中斷協(xié)同交互,進(jìn)一步降低整個系統(tǒng)的功耗。
MemCore001系列芯片尺寸
MemCore001/MemCore001P內(nèi)置2MB深度學(xué)習(xí)網(wǎng)絡(luò)參數(shù)存儲空間,可同時存儲和運算多達(dá)32層的多個(相同或不同)深度學(xué)習(xí)網(wǎng)絡(luò)算法,支持DNN/RNN/LSTM/TDNN等多種網(wǎng)絡(luò)結(jié)構(gòu)。
作為協(xié)處理器,MemCore001/MemCore001P可兼容基于Arm架構(gòu)的Cortex-M4/M3/M33/M0等系列MCU以及基于RISC-V的MCU。
不過,芯片想要落地,還要把存內(nèi)計算的硬件優(yōu)勢轉(zhuǎn)化為落地優(yōu)勢。王紹迪表示,產(chǎn)品能落地僅有一點優(yōu)勢并不夠,能否落地還要看市場的需求。當(dāng)然,想要盡快落地,要做到讓現(xiàn)在的商用算法在盡可能少做改變的同時盡快適配我們的芯片,這點非常重要的,這就需要和算法公司一起合作,在落地過程中不斷了解需求,讓軟件和硬件協(xié)同起來,都發(fā)揮最大作用。
他進(jìn)一步指出,軟件平臺可以讓開發(fā)者在算法遷移和調(diào)試的時候更加方便。不過存內(nèi)計算的工作方式比較簡單,比如傳統(tǒng)架構(gòu)需要幾百萬個周期才能完成的計算,存內(nèi)計算一個周期就可以完成,所以存內(nèi)計算的編譯器是粗顆粒度的,開發(fā)難度較低。
因此,知存科技與合作方開發(fā)了相應(yīng)的系統(tǒng)解決方案,包含智能語音降噪和智能語音識別等算法,可直接集成在芯片中,供應(yīng)用開發(fā)者方便調(diào)用。
與其它大部分AI芯片一樣,知存科技的MemCore001/MemCore001P在進(jìn)行算法遷移的時候也需要重新訓(xùn)練。這時候,如何才能吸引客戶使用存內(nèi)計算的芯片?
王紹迪說:“如果我的芯片能夠帶來的提升非常明顯,或者原先不能落地的應(yīng)用使用了我們的芯片之后可以落地,這樣才有人愿意嘗試。這樣的場景很多,需要去探索,不過目前已經(jīng)有意向客戶準(zhǔn)備使用我們的產(chǎn)品?!?/strong>
知存科技在存內(nèi)計算的領(lǐng)先性從另一個角度也能說明,“早期研發(fā)的時候,由于缺乏晶圓工廠和EDA工具的支持,我們的開發(fā)工作很多就要從自動變成手動,但這同時讓知存科技建立起了存內(nèi)計算芯片的設(shè)計方法學(xué)?!蓖踅B迪表示。
這樣的領(lǐng)先讓知存科技有可能成為存內(nèi)AI芯片的破局者,知存科技的目標(biāo)是在三年內(nèi)實現(xiàn)5000萬顆芯片的出貨目標(biāo)。對此,王紹迪表示樂觀,他認(rèn)為消費市場5000萬的出貨量并不多,如果選對了方向,一個產(chǎn)品的出貨量在幾年內(nèi)就能達(dá)到上千萬。
5000萬的出貨意味著公司可以實現(xiàn)盈利,在這樣的目標(biāo)下,硬件和軟件都需要不斷迭代。王紹迪透露,現(xiàn)在公司每三到四個月就會流片一次,一年會推出一款甚至兩款新產(chǎn)品。視覺芯片的樣片會在明年流片,預(yù)計后年會正式推出。
雷鋒網(wǎng)小結(jié)
作為AI發(fā)展的關(guān)鍵推動力,AI芯片能夠在多大程度上滿足AI算法的需求成為關(guān)鍵。要滿足AI算法的需求就需要解決AI芯片內(nèi)存墻的核心挑戰(zhàn),存內(nèi)計算以其能夠同時存儲和計算的特性被視為解決內(nèi)存墻挑戰(zhàn)的一種方法,但其用模擬計算滿足數(shù)字算法的需求,外圍電路設(shè)計、軟件設(shè)計、工藝帶來的誤差都是挑戰(zhàn)。
存內(nèi)計算的公司之間顯然還不是競爭關(guān)系,但我們都期待存內(nèi)計算AI芯片能夠出現(xiàn)代表性地應(yīng)用,推動AI的快速落地和持續(xù)發(fā)展。雷鋒網(wǎng)
相關(guān)文章:
Live回顧:值得你去了解的“存算一體AI芯片技術(shù)”
Live預(yù)告| 知存科技CEO:存算一體AI芯片的架構(gòu)創(chuàng)新
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。