0
本文作者: 愷歌 | 2023-02-07 11:25 |
近日, 在第 68 屆年度 IEEE 國(guó)際電子器件會(huì)議 (IEDM) 上,臺(tái)積電發(fā)表了題為“用于移動(dòng)SoC和高性能計(jì)算應(yīng)用的3納米CMOS FinFlexTM平臺(tái)技術(shù)具有更高的功效和性能”的論文。WikiChip 在這篇論文中發(fā)現(xiàn),雖然邏輯電路仍在或多或少地沿著歷史軌跡前行,但 SRAM 在這方面的路線似乎已經(jīng)完全崩潰。對(duì)于新的 N3E 節(jié)點(diǎn),高密度 SRAM 位單元尺寸并沒有縮小,依然是 0.021 m ,這與 N5 節(jié)點(diǎn)的位單元大小完全相同。但N3B 實(shí)裝了 SRAM 縮放,其單元大小僅有 0.0199 m ,相比上一個(gè)版本縮小了 5%。由此可見,SRAM的微縮性瓶頸已經(jīng)到來。
這意味著什么?
隨著AI算力需求的不斷提升,除了傳統(tǒng)馮·諾伊曼架構(gòu)面臨著多重瓶頸外,傳統(tǒng)存儲(chǔ)器件也到達(dá)了尺寸的極限,摩爾定律面臨失效。依靠先進(jìn)制程工藝不斷縮小器件面積、同時(shí)提升算力的方式似乎已經(jīng)走入死路。
北京大學(xué)集成電路學(xué)院院長(zhǎng)蔡一茂認(rèn)為,一方面是器件層面上的瓶頸,一些傳統(tǒng)存儲(chǔ)器例如SRAM, Nand Flash 等,由于器件本身微縮性差,支撐芯片制造的尺寸縮小接近物理極限,也就是通常所說的摩爾定律面臨失效的風(fēng)險(xiǎn);其次是架構(gòu)瓶頸,即計(jì)算與存儲(chǔ)單元分離帶來的數(shù)據(jù)交換存在存儲(chǔ)墻和功耗墻問題。 第三則是能耗瓶頸,基于目前器件尺寸越小且密度越大的趨勢(shì),若產(chǎn)品功耗無法等比例縮小或大致縮小,那么其功耗便會(huì)面臨較大問題。數(shù)據(jù)顯示,預(yù)計(jì)到2040年,大數(shù)據(jù)1040次運(yùn)算需要1027焦耳的能耗。此外,除了工藝之外,馮·諾依曼架構(gòu)的瓶頸可說是從底層上限制了神經(jīng)網(wǎng)絡(luò)和AI智能芯片的進(jìn)一步發(fā)展。
近年來,圍繞AI芯片大模型算力突破進(jìn)行的嘗試很多,而當(dāng)前普遍認(rèn)為突破AI算力困境的方式,有著兩條清晰的路線:架構(gòu)創(chuàng)新與存儲(chǔ)器件創(chuàng)新。
2021年 5月14日,國(guó)家科技體制改革和創(chuàng)新體系建設(shè)領(lǐng)導(dǎo)小組第十八次會(huì)議提出了面向后摩爾時(shí)代的集成電路潛在顛覆性技術(shù)。用架構(gòu)和技術(shù)來劃分,可以分成四類:
一、全新技術(shù)與架構(gòu)下的基礎(chǔ)物理探索(量子計(jì)算機(jī))
二、搭“摩爾”便車在馮架構(gòu)下進(jìn)行應(yīng)用創(chuàng)新(GPGPU AI芯片)
三、基于現(xiàn)行架構(gòu)探索非“硅”技術(shù)(存儲(chǔ)器創(chuàng)新)
四、基于現(xiàn)行硅技術(shù)探索非馮架構(gòu)(架構(gòu)創(chuàng)新)
架構(gòu)創(chuàng)新的道路似乎是可行的。2020年初,阿里達(dá)摩院發(fā)布《2020十大科技趨勢(shì)》報(bào)告顯示,在人工智能方面,計(jì)算存儲(chǔ)一體化,類似于人腦,將數(shù)據(jù)存儲(chǔ)單元和計(jì)算單元融為一體,能顯著減少數(shù)據(jù)搬運(yùn),極大提高計(jì)算并行度和能效。
該報(bào)告指出,對(duì)于廣義上計(jì)算存儲(chǔ)一體化計(jì)算架構(gòu)的發(fā)展,近期策略的關(guān)鍵在于通過芯片設(shè)計(jì)、集成、封裝技術(shù)拉近存儲(chǔ)單元與計(jì)算單元的距離,增加帶寬,降低數(shù)據(jù)搬運(yùn)的代價(jià),緩解由于數(shù)據(jù)搬運(yùn)產(chǎn)生的瓶頸;中期規(guī)劃是通過架構(gòu)方面的創(chuàng)新,設(shè)存儲(chǔ)器于計(jì)算單元中或者置計(jì)算單元于存儲(chǔ)模塊內(nèi),可以實(shí)現(xiàn)計(jì)算和存儲(chǔ)你中有我,我中有你;遠(yuǎn)期展望是通過器件層面的創(chuàng)新,實(shí)現(xiàn)器件既是存儲(chǔ)單元也是計(jì)算單元,不分彼此,融為一體,成為真正的計(jì)算存儲(chǔ)一體化。近年來,一些新型非易失存儲(chǔ)器,如阻變內(nèi)存,顯示了一定的計(jì)算存儲(chǔ)融合的潛力。
計(jì)算存儲(chǔ)一體化也被稱為存算一體化,國(guó)內(nèi)外早已有不少玩家入局。但各家采用的存儲(chǔ)器類型不盡相同。由于該架構(gòu)帶來低功耗的特性,多被應(yīng)用于中小算力,而試圖打破大算力困局的企業(yè)則選用了一些新型非易失存儲(chǔ)器來抵消傳統(tǒng)存儲(chǔ)器的天然劣勢(shì)。
(圖片來源:與非網(wǎng))
IEEE Fellow Lee 博士認(rèn)為,SRAM的問題在于它的靜態(tài)電流非常大,面積也比較大,所以并不適合做大算力的存算一體化芯片,因?yàn)楫?dāng)大量的SRAM堆積在芯片上時(shí),會(huì)產(chǎn)生一種被稱為DI/DT的工程性問題,也就是電流在短時(shí)間內(nèi)大量變化,非常具有挑戰(zhàn)性。
GraphCore是英國(guó)一家做AI訓(xùn)練芯片的公司,他們將198兆的SRAM堆疊在訓(xùn)練芯片上,采用分布式的設(shè)計(jì)。即使這樣,GraphCore還要借助臺(tái)積電的新工藝,專門打造另外一個(gè)晶圓,布滿充電電容,以解決DI/DT的問題。這導(dǎo)致了生產(chǎn)成本十分昂貴。
另外,Lee 博士補(bǔ)充道:“ SRAM的體積是比較大的,我們知道要想提高算力就必須要提高器件的密度,從這點(diǎn)來說,SRAM是不太適合做大算力場(chǎng)景的。也正因于此,采用SRAM的這些公司都在基于邊緣端做小算力的場(chǎng)景,比如語音識(shí)別、智能家居的喚醒、關(guān)鍵命令詞的識(shí)別等?!?/p>
國(guó)內(nèi)也有已經(jīng)量產(chǎn)的芯片商基于另一種傳統(tǒng)存儲(chǔ)器件閃存(Flash)來做存算一體。據(jù)了解,該企業(yè)是利用美國(guó)SST公司基于Flash的存算一體IP進(jìn)行設(shè)計(jì)。Flash因?yàn)橐揽吭跍系览锩鎡rap電荷的方式進(jìn)行記憶,所以當(dāng)溝道的尺寸隨著工藝縮小的時(shí)候,就會(huì)產(chǎn)生很多穩(wěn)定性的問題,導(dǎo)致Flash在22納米以下很難做到穩(wěn)定,目前業(yè)內(nèi)提升Flash密度的方式普遍是通過3D堆疊的方式來實(shí)現(xiàn),也不太適合做大算力的場(chǎng)景。
基于以上兩種普遍認(rèn)知,行業(yè)內(nèi)將目光逐漸轉(zhuǎn)向了新型存儲(chǔ)器。比如近期英飛凌宣布其下一代 AURIX ?微控制器 (MCU)將采用新型非易失性存儲(chǔ)器 (NVM) RRAM (ReRAM);STT-MRAM和SOT-MRAM也已在各種PIM架構(gòu)中得以實(shí)現(xiàn)。相信未來AI大算力的困境將會(huì)因這些新型存儲(chǔ)器的創(chuàng)新而改寫。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。