0
近日, 在第 68 屆年度 IEEE 國際電子器件會議 (IEDM) 上,臺積電發(fā)表了題為“用于移動SoC和高性能計算應用的3納米CMOS FinFlexTM平臺技術具有更高的功效和性能”的論文。WikiChip 在這篇論文中發(fā)現,雖然邏輯電路仍在或多或少地沿著歷史軌跡前行,但 SRAM 在這方面的路線似乎已經完全崩潰。對于新的 N3E 節(jié)點,高密度 SRAM 位單元尺寸并沒有縮小,依然是 0.021 m ,這與 N5 節(jié)點的位單元大小完全相同。但N3B 實裝了 SRAM 縮放,其單元大小僅有 0.0199 m ,相比上一個版本縮小了 5%。由此可見,SRAM的微縮性瓶頸已經到來。
這意味著什么?
隨著AI算力需求的不斷提升,除了傳統(tǒng)馮·諾伊曼架構面臨著多重瓶頸外,傳統(tǒng)存儲器件也到達了尺寸的極限,摩爾定律面臨失效。依靠先進制程工藝不斷縮小器件面積、同時提升算力的方式似乎已經走入死路。
北京大學集成電路學院院長蔡一茂認為,一方面是器件層面上的瓶頸,一些傳統(tǒng)存儲器例如SRAM, Nand Flash 等,由于器件本身微縮性差,支撐芯片制造的尺寸縮小接近物理極限,也就是通常所說的摩爾定律面臨失效的風險;其次是架構瓶頸,即計算與存儲單元分離帶來的數據交換存在存儲墻和功耗墻問題。 第三則是能耗瓶頸,基于目前器件尺寸越小且密度越大的趨勢,若產品功耗無法等比例縮小或大致縮小,那么其功耗便會面臨較大問題。數據顯示,預計到2040年,大數據1040次運算需要1027焦耳的能耗。此外,除了工藝之外,馮·諾依曼架構的瓶頸可說是從底層上限制了神經網絡和AI智能芯片的進一步發(fā)展。
近年來,圍繞AI芯片大模型算力突破進行的嘗試很多,而當前普遍認為突破AI算力困境的方式,有著兩條清晰的路線:架構創(chuàng)新與存儲器件創(chuàng)新。
2021年 5月14日,國家科技體制改革和創(chuàng)新體系建設領導小組第十八次會議提出了面向后摩爾時代的集成電路潛在顛覆性技術。用架構和技術來劃分,可以分成四類:
一、全新技術與架構下的基礎物理探索(量子計算機)
二、搭“摩爾”便車在馮架構下進行應用創(chuàng)新(GPGPU AI芯片)
三、基于現行架構探索非“硅”技術(存儲器創(chuàng)新)
四、基于現行硅技術探索非馮架構(架構創(chuàng)新)
架構創(chuàng)新的道路似乎是可行的。2020年初,阿里達摩院發(fā)布《2020十大科技趨勢》報告顯示,在人工智能方面,計算存儲一體化,類似于人腦,將數據存儲單元和計算單元融為一體,能顯著減少數據搬運,極大提高計算并行度和能效。
該報告指出,對于廣義上計算存儲一體化計算架構的發(fā)展,近期策略的關鍵在于通過芯片設計、集成、封裝技術拉近存儲單元與計算單元的距離,增加帶寬,降低數據搬運的代價,緩解由于數據搬運產生的瓶頸;中期規(guī)劃是通過架構方面的創(chuàng)新,設存儲器于計算單元中或者置計算單元于存儲模塊內,可以實現計算和存儲你中有我,我中有你;遠期展望是通過器件層面的創(chuàng)新,實現器件既是存儲單元也是計算單元,不分彼此,融為一體,成為真正的計算存儲一體化。近年來,一些新型非易失存儲器,如阻變內存,顯示了一定的計算存儲融合的潛力。
計算存儲一體化也被稱為存算一體化,國內外早已有不少玩家入局。但各家采用的存儲器類型不盡相同。由于該架構帶來低功耗的特性,多被應用于中小算力,而試圖打破大算力困局的企業(yè)則選用了一些新型非易失存儲器來抵消傳統(tǒng)存儲器的天然劣勢。
(圖片來源:與非網)
IEEE Fellow Lee 博士認為,SRAM的問題在于它的靜態(tài)電流非常大,面積也比較大,所以并不適合做大算力的存算一體化芯片,因為當大量的SRAM堆積在芯片上時,會產生一種被稱為DI/DT的工程性問題,也就是電流在短時間內大量變化,非常具有挑戰(zhàn)性。
GraphCore是英國一家做AI訓練芯片的公司,他們將198兆的SRAM堆疊在訓練芯片上,采用分布式的設計。即使這樣,GraphCore還要借助臺積電的新工藝,專門打造另外一個晶圓,布滿充電電容,以解決DI/DT的問題。這導致了生產成本十分昂貴。
另外,Lee 博士補充道:“ SRAM的體積是比較大的,我們知道要想提高算力就必須要提高器件的密度,從這點來說,SRAM是不太適合做大算力場景的。也正因于此,采用SRAM的這些公司都在基于邊緣端做小算力的場景,比如語音識別、智能家居的喚醒、關鍵命令詞的識別等?!?/p>
國內也有已經量產的芯片商基于另一種傳統(tǒng)存儲器件閃存(Flash)來做存算一體。據了解,該企業(yè)是利用美國SST公司基于Flash的存算一體IP進行設計。Flash因為依靠在溝道里面trap電荷的方式進行記憶,所以當溝道的尺寸隨著工藝縮小的時候,就會產生很多穩(wěn)定性的問題,導致Flash在22納米以下很難做到穩(wěn)定,目前業(yè)內提升Flash密度的方式普遍是通過3D堆疊的方式來實現,也不太適合做大算力的場景。
基于以上兩種普遍認知,行業(yè)內將目光逐漸轉向了新型存儲器。比如近期英飛凌宣布其下一代 AURIX ?微控制器 (MCU)將采用新型非易失性存儲器 (NVM) RRAM (ReRAM);STT-MRAM和SOT-MRAM也已在各種PIM架構中得以實現。相信未來AI大算力的困境將會因這些新型存儲器的創(chuàng)新而改寫。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。