0
“馮·諾伊曼架構(gòu)存儲和計算分離的模型,已無法滿足人工智能應(yīng)用的需求,計算存儲一體化將突破AI算力瓶頸?!边@是達摩院2020十大科技趨勢中的技術(shù)趨勢之一。
外界未預(yù)料到的是,早在這一趨勢誕生之前,達摩院就已經(jīng)在存算一體領(lǐng)域排兵布陣,暗自發(fā)力。
近日,達摩院宣布在存算一體芯片的研究上取得新突破,成功研發(fā)全球首款基于DRAM的3D鍵合堆疊存算一體芯片。作為一條嶄新的技術(shù)分支,這顆芯片也許是芯片行業(yè)的一道曙光,但70年的馮·諾依曼攻計算體系幾乎已成為行業(yè)鐵律,要攻克技術(shù)和應(yīng)用難題是持久戰(zhàn),達摩院能否破局?
計算機領(lǐng)域的阿克琉斯之踵
二戰(zhàn)爆發(fā)期間,美國軍方要求彈道研究實驗室為陸軍炮彈部隊每天提供6張射表,按照當(dāng)時的計算工具,需要雇傭200多名計算員至少2個月才能算完一張射表。
為此,美國集結(jié)了一群科學(xué)家,投資48萬美元,最終于1946年建造完成世界上第一臺通用電子計算機ENICA,實現(xiàn)每秒5000次加法或400次乘法的算力。這臺計算機若龐然大物,功耗也在千瓦級別。
ENICA建造完成后,團隊工程師馮·諾依曼寫了一份報告作為反思,報告明確提到,未來的計算機應(yīng)該包括控制器、存儲器和運算器等組成部分,馮·諾依曼體系結(jié)構(gòu)由此誕生。
馮·諾依曼體系結(jié)構(gòu)意義重大,存儲與計算分離的設(shè)計,不僅簡化了計算機的設(shè)計,也讓編程和控制變得更簡單。
此后,馮·諾依曼體系結(jié)構(gòu)、晶體管和布爾邏輯計算共同組成傳統(tǒng)計算機的三大基石,和硬件之上的軟件、匯編語言、編譯器、應(yīng)用軟件共同推動計算系統(tǒng)向前發(fā)展。
時至今日,計算機經(jīng)歷半個多世紀(jì)的迭代,雖然架構(gòu)上也有不少改動,但始終沒能擺脫馮氏架構(gòu)的束縛。
使用馮·諾依曼體系結(jié)構(gòu)本身沒有問題,問題在于,AI技術(shù)的長足進步,對算力需求呈爆炸式增長,雖然多核并行加速技術(shù)提升算力的有效途徑之一,但在后摩爾時代,晶體管微縮逼近物理極限,芯片算力增長步履維艱。
最終,算力需求與實際增長之間的矛盾將根源指向馮·諾依曼架構(gòu)存算分離的局限性。
計算與內(nèi)存分離,在計算的過程中需要不斷通過總線交換數(shù)據(jù),將數(shù)據(jù)從內(nèi)存讀進CPU,計算完成后再寫回存儲。這一運轉(zhuǎn)方式讓馮·諾依曼架構(gòu)成為計算機領(lǐng)域的阿克琉斯之踵。
一方面,內(nèi)存發(fā)展的速度嚴重滯后于處理器的發(fā)展速度,處理器的算力以每兩年3.1倍的速度增長,而內(nèi)存的性能每兩年只有1.4倍的提升,處理器和存儲器如同漏斗組合,狹窄的存儲器一端極大的影響了數(shù)據(jù)傳輸?shù)乃俣取?/p>
另一方面,數(shù)據(jù)搬運對能量消耗巨大。數(shù)據(jù)顯示,數(shù)據(jù)從內(nèi)存單元傳輸?shù)接嬎銌卧枰墓拇蠹s是計算本身的200倍,真正用于計算的時間和功耗占比大大降低。
于是,業(yè)界學(xué)界在降低數(shù)據(jù)搬運開銷方面下功夫,高帶寬內(nèi)存、高帶寬數(shù)據(jù)通信、提高存儲器的速度,增加片上存儲等方法一一涌現(xiàn),不過這些方法都沒有改變數(shù)據(jù)存儲和處理的方式,只是某種程度上的緩解,不能從根本上解決馮·諾依曼架構(gòu)瓶頸。為此,將計算和存儲合二為一的存算一體技術(shù)誕生。
實際上,這一技術(shù)早在90年代就已經(jīng)被提出,但受限于技術(shù)的復(fù)雜度、高昂的設(shè)計成本以及應(yīng)用場景的匱乏,過去幾十年,業(yè)界對存算一體芯片的研究進展緩慢。直至近幾年,英特爾、三星、美光等傳統(tǒng)半導(dǎo)體公司,F(xiàn)acebook、谷歌等都互聯(lián)網(wǎng)公司開始積極布局并逐漸誕生成果,也有諸如Mythic、Syntiant、知存科技、閃億半導(dǎo)體等初創(chuàng)公司涌入這一賽道,但如今尚未有一家公司的存算一體技術(shù)解決方案受到廣泛的市場認可。
面對這一現(xiàn)狀,阿里巴巴希望通過自研創(chuàng)新技術(shù)解決業(yè)界難題。
破技術(shù)局:達摩院走出新道路
眾所周知,平頭哥是阿里巴巴旗下的半導(dǎo)體公司,但雷峰網(wǎng)了解到,這顆存算一體芯片的研發(fā)來自達摩院。
阿里巴巴達摩院下設(shè)面向5個領(lǐng)域的16個實驗室,包括機器智能、數(shù)據(jù)計算、機器人、金融科技和X實驗室,其中計算技術(shù)實驗室是一支前沿芯片技術(shù)研究的精銳,由國內(nèi)外名校畢業(yè)且擁有半導(dǎo)體大廠經(jīng)驗研究人員組成,致力于計算、存儲和互聯(lián)芯片的前沿技術(shù)研究,研究方向涵蓋系統(tǒng)架構(gòu)、計算機體系結(jié)構(gòu)、芯片設(shè)計優(yōu)化等領(lǐng)域。
達摩院成立的四年里,計算技術(shù)實驗室一直保持低調(diào),但團隊出手就是精品,與產(chǎn)業(yè)鏈合作伙伴聯(lián)合研發(fā)出全球首款基于DRAM的3D鍵合堆疊存算一體芯片,這意味著,在存算一體技術(shù)領(lǐng)域達摩院走出了一條全新的路。
從全球來看,盡管存算一體技術(shù)的布局者眾多,但仍未有企業(yè)交出優(yōu)秀的答卷,沒有成功的經(jīng)驗借鑒,達摩院投入必須走一條自己的路!
2019年5月,項目啟動之初,達摩院計算技術(shù)實驗室科學(xué)家、該項目研發(fā)負責(zé)人鄭宏忠?guī)ьI(lǐng)團隊成員反復(fù)調(diào)研對比已有技術(shù)路線,例如近存儲、內(nèi)存計算和內(nèi)存執(zhí)行計算,不同的技術(shù)路線都指向同樣的終極目標(biāo),即像人腦一樣,實現(xiàn)存儲和計算的完全融合。
在眾多方案中,達摩院走上了近存計算這條路,并且進一步選擇3D鍵合堆疊技術(shù)來實現(xiàn)。
“工藝成熟度和成本是我們選擇使用存儲邏輯鍵合的主要原因,盡管研發(fā)之路坎坷,但我們也一直沒有動搖?!编嵑曛冶硎?。
在鄭宏忠看來,很多存算一體的技術(shù)方案對整個系統(tǒng)架構(gòu)的破壞性較強,對外部工藝、工具鏈以及應(yīng)用的要求更苛刻,而通過鍵合的方式將計算和存儲相融合,既可以分開設(shè)計,又可以將其鍵合在一起。
而在此之前的設(shè)計工作,更是決定這場戰(zhàn)役成敗的關(guān)鍵。達摩院與其上下游合作伙伴深度合作,研發(fā)多個創(chuàng)新性技術(shù)。
例如其中內(nèi)存單元采用了異質(zhì)集成嵌入式DRAM(SeDRAM),擁有超大帶寬、超大容量等特點。計算芯片方面,達摩院研發(fā)設(shè)計了基于流的定制化加速器架構(gòu),對推薦系統(tǒng)端到端進行加速,包括匹配、粗排序、神經(jīng)網(wǎng)絡(luò)計算、細排序等任務(wù)。
經(jīng)達摩院實驗證明,這顆芯片與數(shù)據(jù)中心的推薦系統(tǒng)對于帶寬/存儲的需求完美匹配。大幅提升帶寬的同時還實現(xiàn)了超低功耗,展示了近存計算在數(shù)據(jù)中心場景的潛力。
測試顯示,在實際推薦系統(tǒng)應(yīng)用中,該芯片相對于傳統(tǒng)CPU計算系統(tǒng)可以達到10倍以上性能提升和300倍的能效提升。這一成果很快也被國際頂級機構(gòu)認可,相關(guān)論文已被ISSCC2022收錄。
“研發(fā)這顆芯片需要把技術(shù)路線的選擇與產(chǎn)品定義緊密結(jié)合,合適的技術(shù)才能解決真正的問題。”鄭宏忠說道。
破應(yīng)用局:三五年后見分曉
目前,全球范圍內(nèi)布局存算一體技術(shù)的企業(yè)主要有存儲基因和計算基因兩類。例如,以三星為代表的存儲芯片廠商,研發(fā)的存算一體芯片偏存儲而輕計算,另一部分是以英特爾為代表的計算芯片廠商,偏計算而輕存儲。
阿里作為半導(dǎo)體領(lǐng)域的新人,依然擁有巨大的機會,其在實現(xiàn)存算平衡和計算架構(gòu)設(shè)計上優(yōu)勢明顯。
過去幾年,達摩院計算技術(shù)實驗室已有幾次創(chuàng)新性成果,這是團隊研發(fā)存算一體技術(shù)的硬實力。但不容忽視的是,阿里巴巴廣闊的應(yīng)用場景是讓阿里成為存算一體從技術(shù)走向商業(yè)落地“破局者”的重要推力。
“豐富的應(yīng)用場景是存算架構(gòu)落地的關(guān)鍵推力?!编嵑曛艺f道。
以搜索推薦為例,這一場景對內(nèi)存帶寬、功耗、時延等方面有很高的要求,如果用傳統(tǒng)計算來實現(xiàn),成本耗費高,但用存算的方式就能解決這些問題,同時降低成本。在前期的測試中,達摩院這顆存算一體芯片已經(jīng)被證明能夠在推薦系統(tǒng)中展現(xiàn)了極大的應(yīng)用價值。
瞄準(zhǔn)真正的需求再做針對性的設(shè)計研發(fā),正是達摩院區(qū)別于其他存算一體技術(shù)研發(fā)團隊的特點。
當(dāng)然,達摩院并不會止步于此。達摩院表示,未來會逐步攻克技術(shù)難題,在三維堆疊的近存芯片后會進一步攻克存內(nèi)計算技術(shù)。
另一方面,也會和阿里內(nèi)部業(yè)務(wù)保持更緊密的合作,讓這一技術(shù)更快速地落地應(yīng)用。
這是一項浩大的工程,也許需要3到5年的等待時間?!拔覀冄鐾强?,但也需要腳踏實地,對于一項全新的芯片技術(shù)來說,我們需要有足夠的耐心和定力?!?/p>
對于已誕生70年之久的馮·諾依曼計算機體系架構(gòu)而言,這樣的等待時間并不算久,前期各大研究機構(gòu)和企業(yè)的堅持投入是人類對極致算力追求的必然選擇,一旦這一技術(shù)走向市場,AI、VR/AR、天文探索這些場景終將迎來翻天覆地的變化,而存儲和計算芯片產(chǎn)業(yè)也將迎來新的格局!
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。