0
作者| 包永剛
編輯|王亞峰
ChatGPT火爆時(shí),浩然被兩股矛盾的情緒夾在縫隙:一面是興奮,一面是悲傷。
作為一名AI芯片公司的高級(jí)軟件工程師,ChatGPT大爆發(fā)前夜,浩然對(duì)自己參與研發(fā)的大算力AI芯片充滿信心,他相信為特定AI算法研發(fā)的專用芯片,相比英偉達(dá)通用的GPGPU在同等功耗下可以有2倍的性能優(yōu)勢(shì),價(jià)格可以做到50%甚至更低,只要軟件體驗(yàn)不太差,客戶一定會(huì)買單。
可ChatGPT掀起的大模型熱潮,讓浩然和同行們都開始思考,AI算法是否有從百家爭(zhēng)鳴走向大一統(tǒng)的可能。
這意味著,過去為特定領(lǐng)域AI算法研發(fā)的專用AI芯片,由于計(jì)算負(fù)載特性的急劇變化,之前的性價(jià)比優(yōu)勢(shì)會(huì)被明顯削弱,英偉達(dá)兼具高帶寬、高互聯(lián)特性的通用GPU優(yōu)勢(shì)將會(huì)進(jìn)一步擴(kuò)大,想要和英偉達(dá)競(jìng)爭(zhēng)的難度更大了,這讓浩然有些悲觀。
但從自己工作的角度,AI算法的大一統(tǒng)可以讓硬件工程師和軟件工程師工作的目標(biāo)都更清晰,工作會(huì)難度降低,這是浩然歡呼的理由。
“我不相信英偉達(dá)能一直保持領(lǐng)先?!毙酒軜?gòu)師宇陽保持信心,“GPU不見得是大模型的最佳解,中國AI芯片公司里一定會(huì)有能和英偉達(dá)掰手腕的公司。
國內(nèi)眾多的AI大芯片公司,誰能吃下大模型市場(chǎng)?
芯片公司想喝口大模型的湯也不容易
就算是英偉達(dá)長(zhǎng)久以來的競(jìng)爭(zhēng)對(duì)手AMD,在英偉達(dá)大口吃AI大模型肥肉的時(shí)候,AMD也沒喝上多少湯。綜合實(shí)力不及AMD的國內(nèi)初創(chuàng)公司們,就算嘴上高呼趕超英偉達(dá),心里也清楚能做互聯(lián)網(wǎng)公司的第二供應(yīng)商,喝上大模型的湯就是巨大的成功。
大模型火爆,全世界的公司都在找英偉達(dá)買GPU。原先售價(jià)3萬多美元的最新款H800 GPU,就算終端售價(jià)加價(jià)1萬多美元依舊一卡難求。這種供不應(yīng)求的盛況直接將英偉達(dá)的市值推向1萬億美元,創(chuàng)造了全球半導(dǎo)體公司市值的新紀(jì)錄。
“客戶很奇怪,就算AMD有性能不錯(cuò)的GPU現(xiàn)貨,許多想要購買H800 GPU的人依舊不為所動(dòng)。”一家AI芯片公司的高管道出想要超越英偉達(dá)的難度。
技術(shù)出身,如今已是芯片公司高管的洪杰深諳其中的道理,“客戶對(duì)AMD的要求和對(duì)英偉達(dá)產(chǎn)品的要求一樣,有的時(shí)候甚至更苛刻,客戶愿意買單的替代產(chǎn)品是比英偉達(dá)的GPU便宜,體驗(yàn)還要差不多。”
“采購英偉達(dá)GPU量最大的公司還沒有第二供應(yīng)商?!焙榻芨袊@,“不得不承認(rèn)英偉達(dá)的強(qiáng)大,現(xiàn)階段不要說超越英偉達(dá),成為二供都很難。”
困難的事情往往收益很高,像是字節(jié)跳動(dòng)這類大客戶,每年采購英偉達(dá)GPU的訂單金額就接近百億元。只要能從英偉達(dá)嘴里分到幾十億的市場(chǎng)份額,就足夠養(yǎng)活幾家國內(nèi)的AI芯片公司。
離開AMD創(chuàng)業(yè)的人成為二供的概率會(huì)更大嗎?歡迎添加文章作者微信BENSONEIT聊聊離開AMD的人。
「追隨派」和「創(chuàng)新派」?fàn)帗尨竽P?/span>
國內(nèi)AI大芯片初創(chuàng)公司非常特別,有跟隨英偉達(dá)路線做GPGPU的初創(chuàng)公司,可以叫他們“追隨派”。也有另辟蹊徑,設(shè)計(jì)AI專用芯片(也就是DSA,Domain Specific Architecture,領(lǐng)域?qū)S眉軜?gòu))的“創(chuàng)新派”。
這是一個(gè)非常有趣的現(xiàn)象,因?yàn)樵?strong>國外只有創(chuàng)新派沒有追隨派,也就是沒人選擇走GPGPU的技術(shù)路線創(chuàng)業(yè)。
“所有人都知道,沿著英偉達(dá)的路徑不可能超越英偉達(dá),這幾乎是不證自明的事情。并且,西方的創(chuàng)業(yè)者更喜歡做顛覆式創(chuàng)新?!焙榻芊治?,“尋求顛覆式創(chuàng)新的架構(gòu)師們對(duì)AI計(jì)算問題的理解與定義不同,自然也計(jì)出了各種不同的AI芯片架構(gòu)?!?/p>
谷歌定義的TPU專用性很強(qiáng),是一個(gè)典型的領(lǐng)域?qū)S眯酒珼SA。被譽(yù)為全球AI芯片獨(dú)角獸的SambaNova Systems選擇了可重構(gòu)架構(gòu)。Cerebras Systems走了一條直接用晶圓做芯片的路。英國AI芯片獨(dú)角獸Graphcore創(chuàng)造了獨(dú)特的IPU架構(gòu)。
國內(nèi)也有多家走DSA路徑創(chuàng)業(yè)的AI大芯片公司,比如寒武紀(jì)、昆侖芯、燧原科技、瀚博半導(dǎo)體、墨芯人工智能。
“選擇DSA路徑創(chuàng)業(yè)還有一個(gè)優(yōu)勢(shì),核心IP設(shè)計(jì)門檻相對(duì)較低?!毙酒幾g器專家德輝打了個(gè)比方,
用搭樂高來理解設(shè)計(jì)GPGPU和DSA的難度,設(shè)計(jì)GPGPU就是面向18歲以上玩家的樂高,有許多精細(xì)的小模塊,拼起來難度大但作品很精巧。設(shè)計(jì)DSA就像是面向5歲的樂高,模塊更大拼起來更容易。
“DSA的門檻可以很低,上限也可以很高?!庇铌栒f,“ GPU也是一個(gè)DSA。最初的GPU圖形專用加速芯片,沒有可編程性,后來英偉達(dá)為其增加了通用性之后才變成了GPGPU?!?/p>
英偉達(dá)將GPU變?yōu)榇蟊娬J(rèn)知里的通用芯片,也是通過了近20年的努力,從建立CUDA軟件生態(tài)到成熟,讓GPGPU能做圖形加速,AI計(jì)算,科學(xué)計(jì)算。
“從技術(shù)維度,區(qū)別CPU和DSA可以看其是否能運(yùn)行Windows、Linux這樣的操作系統(tǒng)。”宇陽補(bǔ)充,“從這個(gè)角度看GPU依舊是DSA?!?/p>
只是在大部分人眼里,英偉達(dá)的GPGPU已然成為了一顆通用芯片,在當(dāng)下最為火熱的AI市場(chǎng)里供不應(yīng)求。
早已看到英偉達(dá)GPGPU強(qiáng)大的中國創(chuàng)業(yè)者,直接選擇了GPGPU架構(gòu)進(jìn)行創(chuàng)業(yè),就像天數(shù)智芯、登臨科技、壁仞科技、海飛科。
“選擇GPGPU的路徑雖然不能超越英偉達(dá),但有國產(chǎn)替代的剛需,而且這條路線可以通過多種技術(shù)方案做到‘兼容CUDA’,降低用戶的軟件切換成本?!焙迫恢毖裕坝辛藝a(chǎn)替代的需求,讓中國大芯片創(chuàng)業(yè)公司有機(jī)會(huì)與英偉達(dá)競(jìng)爭(zhēng),并且最終一定會(huì)留下幾家AI大芯片的公司。”
這時(shí)誰能吃下大模型的問題就變成了追隨派和創(chuàng)新派的機(jī)會(huì)誰更大?
兩派相爭(zhēng),創(chuàng)新派已死?
一個(gè)非常犀利的觀點(diǎn)是,DSA已死。這是一個(gè)極具爭(zhēng)議性的話題,探討這個(gè)話題可以添加作者微信BENSONEIT。
這種論調(diào)核心的邏輯是英偉達(dá)編程性很強(qiáng)的GPGPU已經(jīng)通過了AI大模型的驗(yàn)證,在Transformer讓AI算法趨于收斂的現(xiàn)狀下,英偉達(dá)可以通過手工優(yōu)化底層代碼,高效調(diào)度底層硬件獲得持續(xù)的性能提升,讓已經(jīng)流片量產(chǎn)的DSA不再擁有設(shè)計(jì)之初的巨大性能優(yōu)勢(shì)。
“算法不確定的時(shí)候,英偉達(dá)沒有動(dòng)力針對(duì)某個(gè)算法做手工優(yōu)化。這讓針對(duì)某類算法(比如CNN)的DSA可以有2倍甚至更多的性能優(yōu)勢(shì)。”浩然對(duì)DSA的未來有些悲觀,“現(xiàn)在算法和模型收斂,英偉達(dá)進(jìn)行手工優(yōu)化可以充分釋放出硬件的性能,每一代CUDA升級(jí)都會(huì)帶來10-20%的性能提升。而通過底層硬件固化實(shí)現(xiàn)性價(jià)比優(yōu)勢(shì)的DSA要持續(xù)通過軟件優(yōu)化提升性能的難度很大,極端的情況軟件甚至沒有多大的提升空間?!?/p>
德輝從他擅長(zhǎng)的編譯角度解釋,F(xiàn)lashAttention系列工作在大模型上的驚艷效果,正是說明針對(duì)特定模型(比如CNN類網(wǎng)絡(luò))的手工融合大算子是一種典型手段,本質(zhì)是通過手工將特定的模型子結(jié)構(gòu)從存儲(chǔ)受限(memory bound)轉(zhuǎn)化成了計(jì)算受限(compute bound),最大程度發(fā)揮出了GPU的計(jì)算性能。
“這種方式只是做了局部的優(yōu)化,手工成本比較高,也難以泛化到整個(gè)模型或者新的模型?!?strong>德輝不認(rèn)為DSA已死,“只有擁有一個(gè)能夠自動(dòng)生成融合算子的編譯器,GPU才能最大程度發(fā)揮出性能優(yōu)勢(shì)。但英偉達(dá)的軟件經(jīng)過十多年迭代,也還沒有這樣的編譯器,這是一個(gè)業(yè)界難題?!?/p>
比編譯器更底層的芯片架構(gòu),也決定著計(jì)算AI大模型任務(wù)的效率。
宇陽也指出了GPU架構(gòu)的局限性,GPU為了保證很強(qiáng)的編程性,在架構(gòu)上借鑒了CPU的設(shè)計(jì),芯片上沒有緩沖器(Buffer),每次操作的對(duì)象只能是寄存器,典型寄存器大小是個(gè)很短的向量,比如64字節(jié),這是保證編程靈活性的最好設(shè)計(jì),但數(shù)據(jù)要不斷在芯片內(nèi)部和外部存儲(chǔ)之間搬運(yùn),效率不高。
“AI大模型動(dòng)輒就是上百億個(gè)參數(shù),要提升計(jì)算效率需要盡量減少數(shù)據(jù)的搬移。DSA可以為大模型設(shè)計(jì)很大的片上緩存,一次可以操作64字節(jié)的上千倍,相比GPGPU有明顯優(yōu)勢(shì)。”宇陽指出。
兩者的差別非常明顯,GPGPU計(jì)算 AI模型時(shí)計(jì)算單元的利用率一般情況下只有30%-40%,而DSA一般都能做到計(jì)算單元的利用率達(dá)到80%-90%。
“許多人沒看到DSA的核心價(jià)值——數(shù)據(jù)流優(yōu)化。”德輝的經(jīng)驗(yàn)告訴他,“通過充分發(fā)揮DSA片上有的大存儲(chǔ)器(SRAM)優(yōu)勢(shì),利用編譯器進(jìn)行徹底優(yōu)化,實(shí)現(xiàn)理想的圖編譯,每一層都把大模型計(jì)算的存儲(chǔ)受限轉(zhuǎn)化為計(jì)算受限,能夠最大化DSA的優(yōu)勢(shì)?!?/p>
而DSA的優(yōu)勢(shì)沒被充分挖掘出來,還是因?yàn)?strong>許多DSA芯片公司都在用英偉達(dá)的思路設(shè)計(jì)軟件。
“用英偉達(dá)GPGPU的方法設(shè)計(jì)軟件既是一個(gè)思維定式,也是一個(gè)經(jīng)過驗(yàn)證成功的路,風(fēng)險(xiǎn)更低。并且,要針對(duì)DSA的優(yōu)勢(shì)用另外的思路設(shè)計(jì)編譯器,也有技術(shù)上的挑戰(zhàn),比如打破算子邊界帶來的復(fù)雜性?!边@是德輝的心得。
即便再看好DSA,宇陽和德輝都沒有否認(rèn)未來的趨勢(shì)是混合DSA。
專用和通用融合才是大模型的最優(yōu)解
“一個(gè)完美的AI大模型處理器應(yīng)該是用T4 GPU的計(jì)算核心,用H100 GPU的顯存。”洪杰用一個(gè)形象的說法道出大模型的真實(shí)需求。
而兼具通用性和專用性的混合DSA芯片才是滿足大模型需求的理想產(chǎn)品,未來AI芯片公司的比拼是混合DSA。
6年前,英偉達(dá)的Volta架構(gòu)首次為深度學(xué)習(xí)加入了Tensor Core,此后的每代架構(gòu)都不斷優(yōu)化Tensor Core,增強(qiáng)GPU的AI性能。
2022年發(fā)布的H100 GPU,又增加了軟硬結(jié)合的Transformer Engine,目的是加速AI大模型計(jì)算。
Tensor Core和Transformer引擎,都是為AI工作流設(shè)計(jì)的專用計(jì)算單元。也就是說,英偉達(dá)早就在“通用”的GPGPU上增加了“專用”的AI加速單元,這種融合設(shè)計(jì)兼顧了GPGPU的通用性,又能發(fā)揮專用加速單元的能效比優(yōu)勢(shì),更像是大模型的最優(yōu)解。
這里有一個(gè)會(huì)讓人費(fèi)解的問題,既然AI模型都穩(wěn)定了,為什么不是設(shè)計(jì)一個(gè)Transformer專用的加速芯片,還需要通用性?
“算法的類別雖然從幾千種變成幾百種,但還在不斷優(yōu)化,只有具備足夠的通用性,才能最大化芯片的價(jià)值?!庇铌柦忉?。
“從芯片的設(shè)計(jì)規(guī)律看,設(shè)計(jì)一個(gè)Transformer專用加速芯片,去‘賭’未來三至五年內(nèi)不會(huì)有新的模型結(jié)構(gòu)顛覆性的替換掉Transformer,也是一個(gè)非常瘋狂的想法?!焙迫谎a(bǔ)充。
那混合DSA的路線明確之后,各家芯片的差異會(huì)如何體現(xiàn)?
“混合DSA其實(shí)就是在通用的CPU和純粹專用的DSA之間找一個(gè)平衡點(diǎn)。不同的架構(gòu)師選擇的點(diǎn)會(huì)完全不一樣,但到底誰的設(shè)計(jì)更好,需要時(shí)間的檢驗(yàn)。因?yàn)榧軜?gòu)的設(shè)計(jì)不是一個(gè)純粹的技術(shù)問題,還與當(dāng)時(shí)所處的時(shí)間,環(huán)境有很大關(guān)系?!庇铌栠@樣認(rèn)為。
其中有賭的部分,浩然說,“混合DSA的片上存儲(chǔ)(SRAM)非常貴,因?yàn)樾枰加玫男酒娣e非常大,所以到底設(shè)計(jì)多大的SRAM,需要賭。”
最終混合DSA芯片之間差異將會(huì)很小。
“就像如今安卓系統(tǒng)和iOS系統(tǒng)越來越像一樣,最后能夠留下來的混合DSA架構(gòu)的AI芯片,可能也是80%相同,只有20%不同?!焙榻茏龀隽诉@樣的判斷。
但在走到這一天之前,混合DSA還有一個(gè)巨大的難題——比GPGPU和DSA都更復(fù)雜的軟件棧。這很容易理解,既然是將兩種架構(gòu)融合,系統(tǒng)就更加復(fù)雜,難度自然也更大。
當(dāng)然,更明確的算法又能降低軟件開發(fā)和優(yōu)化的難度。
此時(shí),就可以回到最初的問題,中國芯片公司誰能喝到大模型的湯?
誰能更快吃上大模型?
商業(yè)的成功不是單純的技術(shù)路線“好壞”就可以決定,現(xiàn)在可以看到的是,跟隨派轉(zhuǎn)向混合DSA的技術(shù)難度相對(duì)低一些,創(chuàng)新派有RISC-V CPU可選,可謂各有優(yōu)劣。具體到每一家公司的時(shí)候,情況又各不相同。
“GPU的眾核(Many Core)設(shè)計(jì),相比DSA的設(shè)計(jì)難度更大,所以已經(jīng)設(shè)計(jì)出GPGPU的初創(chuàng)公司,再增加一個(gè)DSA,比DSA增加一個(gè)GPGPU的難度小一些?!焙迫粡谋姾嗽O(shè)計(jì)的難度判斷各家芯片公司面臨的挑戰(zhàn)大小。
“GPU的一致性控制確實(shí)很難?!庇铌柌糠终J(rèn)同浩然的觀點(diǎn),“但增加可編程性并不一定就是要做一個(gè)GPGPU,有很多路徑可選?!?/p>
德輝就非??春肦ISC-V CPU加上DSA的混合DSA,“RISC-V CPU可以提供向量計(jì)算,并且有足夠的通用性,與DSA混合是一個(gè)不錯(cuò)的選擇?!?/p>
這種混合DSA方式要自己建立軟件生態(tài),需要投入的資源巨大。
“芯片要落地非常關(guān)鍵的是要接受客戶的批評(píng)和質(zhì)疑,然后務(wù)實(shí)的迭代?!焙榻艿南敕ㄊ?,“芯片公司要把客戶不愿做的活都做了,比如遷移芯片的大量工作,讓客戶可以無感遷移,但這需要極大的人力和時(shí)間的投入?!?/p>
相比之下,DSA路徑的公司想兼容CUDA生態(tài)的難度比GPGPU路徑的公司難度更大。
但對(duì)于走GPGPU路徑創(chuàng)業(yè)的公司也不是一件容易的事情,要兼容英偉達(dá)的CUDA生態(tài),硬件設(shè)計(jì)和軟件都要盡量接近英偉達(dá),才能實(shí)現(xiàn)接近英偉達(dá)GPU的性能。
“AMD就是走兼容英偉達(dá)的路,國內(nèi)公司走這條路的天花板就是AMD。”德輝指出,“在部分場(chǎng)景做到英偉達(dá)80%的體驗(yàn)沒有問題,但超越不了英偉達(dá)?!?/p>
再大致看看各家的情況,追隨派里天數(shù)智芯和登臨科技具有先發(fā)優(yōu)勢(shì),壁仞科技也被多位內(nèi)工程師視作黑馬。
創(chuàng)新派里的寒武紀(jì)受到美國禁令的限制前途難料;燧原科技每一代產(chǎn)品都采用了HBM(高帶寬存儲(chǔ)器)適合大模型,但和其它公司一樣,軟件是個(gè)不小的挑戰(zhàn)。
注意一個(gè)時(shí)間點(diǎn),2025年英特爾計(jì)劃推出融合其GPU和DSA的新一代AI芯片,那時(shí)候AI芯片的競(jìng)爭(zhēng)將會(huì)更加激烈。
你看好哪家AI芯片公司?歡迎添加本文作者微信BENSONEIT交流。
注文中浩然、宇陽、洪杰、德輝均為化名 雷峰網(wǎng)
福利票上線,免費(fèi)搶500新幣/張的大會(huì)通票
為答謝雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))忠實(shí)讀者,我們提供20張GAIR SUMMIT 2023免費(fèi)門票,掃碼下方二維碼,即可有機(jī)會(huì)獲取,先到先得。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。