0
比起大模型前臺的火熱,人們的注意力很少關注到產(chǎn)業(yè)鏈上游。
畢竟,相較于ChatGPT流利的回答、豐富的趣味性,帶來工作效率的提升,芯片、存儲等硬件并不性感甚至略顯枯燥。
但人們不能忽視這樣一個問題:在產(chǎn)業(yè)分工極度明確的時代,行業(yè)進步從來不是某家廠商推動的結果,而是整條產(chǎn)業(yè)鏈的協(xié)同驅(qū)動。
ChatGPT驚艷全世界的背后,并非只有OpenAI 無數(shù)天才工程師日夜的技術攻堅。Nvidia的GPU、Samsung的存儲器、Intel 的 CPU等硬件亦不可或缺。
從更底層的邏輯看,以ChatGPT為代表的大模型,本質(zhì)上離不開兩個要素:海量有效的數(shù)據(jù),和強大的算力。
在人工智能的三架馬車中,數(shù)據(jù)是生產(chǎn)原料,算力是基礎設施,算法則是大模型的邏輯表示,三者的關系逐層遞進,水乳交融。
毫無疑問,大模型的高樓,建立在數(shù)據(jù)和算力的基底之上。
如今,國內(nèi)千行百業(yè)涌起大模型熱潮,進入“群魔共舞”時代,誰能做出中國版的ChatGPT尚且未知。
但訓練大模型所需要的GPU和存儲器,卻迎來了一次新的擴容機會。
今年5月底,GPU頭部玩家 Nvidia 的市值突破萬億美金,昭示著大模型這場火,首先蔓延至產(chǎn)業(yè)鏈上游,讓企業(yè)吃到了第一波技術紅利。
與數(shù)據(jù)相伴相生的存儲器,在大模型的推動下,也正迎來一次技術革命和市場躍遷。
肇始于數(shù)據(jù)大爆炸,當前的數(shù)據(jù)量正在極速增長,從TB到PB再到驚人的ZB,如何存儲海量的數(shù)據(jù),是諸多數(shù)據(jù)中心、企業(yè)必須要解決的問題。
另一方面,以大模型為代表的多模態(tài)AI,數(shù)據(jù)結構、類型遠比單模態(tài)AI復雜,數(shù)據(jù)量也更加龐大。
兩大趨勢相互疊加,市場對于存儲的增量需求呼之欲出。
站在微觀角度,企業(yè)研發(fā)大模型要經(jīng)過以下幾個階段:數(shù)據(jù)歸集、數(shù)據(jù)預處理、模型訓練、推理應用,每個階段都離不開存儲。
在數(shù)據(jù)歸集階段,大模型所需要的數(shù)據(jù)量大且種類繁多。對于存儲而言,除了要擴容裝下數(shù)據(jù),更重要的是把各種非結構化的數(shù)據(jù)整合在一起,并且安全地流轉,才能為企業(yè)所用。
這并非一件易事,因為數(shù)據(jù)格式、種類以及協(xié)議各不相同,企業(yè)需要花大量人力物力來打通壁壘,甚至建立起標準和生態(tài),技術優(yōu)勢和商業(yè)地位缺一不可。
而到了模型訓練階段,數(shù)據(jù)的質(zhì)量決定著模型的上限。
換句話說,大模型依賴數(shù)據(jù)并不嚴謹,更準確的說法,應該是依賴有效數(shù)據(jù)。
以往的訓練模式,XPU通常直接調(diào)用所有數(shù)據(jù)進行訓練。
但在海量數(shù)據(jù)中,并非所有數(shù)據(jù)都能用得上,一些數(shù)據(jù)的存在反而會降低模型訓練效果,延長訓練周期。
因此,在預訓練階段,可以事先做數(shù)據(jù)預處理和歸集,排除這些數(shù)據(jù)“噪音”,留下干凈有效的數(shù)據(jù),以減少模型的“幻覺”。
更進一步,由于網(wǎng)絡波動、XPU故障,許多大模型在訓練時會中斷,即Checkpoint時刻,然后重啟訓練?;謴瓦^程中,訓練會退回到此前的一個節(jié)點,相當于有一部分會重新訓練一次,這既延長了時間,又增加了XPU功耗。
該問題的關鍵點在于,如何快速地接觸到Checkpoint的數(shù)據(jù),恢復訓練,縮短時間,這對存儲的并發(fā)性、帶寬傳輸?shù)纫髽O高。
最后一關是推理應用,大模型將直接與客戶面對面,是展現(xiàn)模型效果最有效的窗口。
這個窗口關系著用戶體驗,因此對于大模型的響應時間要求非常之高。
以ChatGPT為例,在一些簡單的問題上,用戶提問得到回答的平均時間在10s以內(nèi)。如果時間太長,用戶體驗將會很糟糕,并且喪失對模型的信任,乃至給予差評。
這反應的是大模型推理的時延現(xiàn)象。通常來說,模型精度相近,時延越長,體驗越差。因而縮短時延,對于大模型廠商而言至關重要,類似問題其實可以在存儲上做創(chuàng)新,進行模型優(yōu)化。
回歸第一性原理,訓練大模型的幾個難點,本質(zhì)上都是圍繞如何利用好數(shù)據(jù)這一核心命題展開。
存儲作為數(shù)據(jù)的基礎硬件,并非僅僅只是簡單地記錄數(shù)據(jù),而是深刻參與到了數(shù)據(jù)歸集、流轉、利用等大模型訓練的全流程。
國內(nèi)大模型百家爭鳴,率先勝出的卻是GPU廠商Nvidia。那么,按照XPU的增長邏輯,存儲也理所應當能夠復制Nvidia的造富奇跡。
這一制勝的法門在于,存儲廠商誰能搶先解耦大模型訓練的痛點,誰就能占據(jù)高地,成為第一個吃螃蟹的人。
以往,訓練模型的方法簡單而粗暴:大量的數(shù)據(jù)加上人工,以及強大的算力,不斷調(diào)優(yōu),提高模型精度。
這種大力出奇跡的方法有用,但成本極高,一度成為許多AI公司脫不掉的舊長衫。
事實上,在AI的三架馬車之中,對任何一個環(huán)節(jié)的優(yōu)化,都能降本增效。而此前的訓練方法,將側重點放在了算力方面,一些公司買了強大的XPU,訓練效率確實提高了,但模型訓練效果仍然較差,效率低、功耗大、精度低等問題層出不窮。
根本原因在于,算力只是工具,而數(shù)據(jù)才是生產(chǎn)要素,只提升工具而不優(yōu)化數(shù)據(jù)的做法,抓錯了重點。
這就好比,巧婦難為無米之炊,一個再精干的廚師,沒有好的食材,也很難做出一道精美可口的菜肴。
在類似大力出奇跡的模式下,過去幾年,國內(nèi)的公司積累了大量的算力資源。現(xiàn)在面臨的問題是:如何把這些算力用上,而不至于冗余、閑置,造成浪費,并且創(chuàng)造價值。
華為蘇黎世研究所存儲首席科學家張霽認為,在算力足夠的情況下,模型訓練的效率已經(jīng)達到極致,如果要進一步提高效率和模型效果,需要在數(shù)據(jù)上下功夫;更進一步,則是在數(shù)據(jù)依附的存儲器上做技術創(chuàng)新。
以前文提及的數(shù)據(jù)預處理為例,過去的訓練方式是XPU直接調(diào)用所有的數(shù)據(jù)訓練,用完之后放回存儲器,這種方式存在幾個問題。
首先,XPU調(diào)動的是所有數(shù)據(jù),這些數(shù)據(jù)存在噪音,會影響訓練效果;其次,XPU在調(diào)用、放回數(shù)據(jù)時,會增加能耗及時間;最后,由于數(shù)據(jù)量過于龐大,單靠內(nèi)存遠遠不夠,因此必須加載外存的方式來存儲數(shù)據(jù),那么數(shù)據(jù)在流轉時,面臨安全風險。
舉個簡單例子:
假設手機里有一萬張照片,如何快速、準確地找到其中一張?
傳統(tǒng)的方式是,打開手機文件夾,里面會顯示一萬張照片,如果照片分辨率過高,手機加載圖片還需要時間,然后由用戶一張一張比對、查找,低效而且容易出錯。
目前比較常見的是,在手機存入照片時,存儲器便已經(jīng)提取照片的特征值,做好數(shù)據(jù)歸集。那么當用戶想要查找照片時,只需輸入圖片的標簽,就能找到符合特征的圖片,縮小了查找范圍。
從存儲的角度看,這里面的邏輯,其實是存儲器做了數(shù)據(jù)預處理,當CPU在查找圖片時,根據(jù)特征值,調(diào)用的是一萬張圖片里的一個小的數(shù)據(jù)集,因此速度快、能耗低,準確度高,并且不占用更多的計算資源。
對于大模型而言,上面的邏輯依然成立。
在存儲器端,企業(yè)可以先做數(shù)據(jù)預處理,剔除無效數(shù)據(jù)(噪音),并將數(shù)據(jù)做歸集整理,那么XPU在調(diào)用數(shù)據(jù)時,則只調(diào)用需要用到的數(shù)據(jù),速度更快,效率更高,并且XPU的利用率,也得到提升。
并且,存儲器本身直接與數(shù)據(jù)接觸,是數(shù)據(jù)安全的第一關。因此在存儲器上對數(shù)據(jù)進行加密、保護,也能最大限度地保證數(shù)據(jù)的安全流轉。
如果說大力出奇跡是靠鋪算力來提升模型訓練效果,那么在存儲器上對數(shù)據(jù)做預處理,則是從整個模型的訓練流程來縮減存算成本、提高效率和精度。
很明顯,前一種方式被廣泛使用并達到了極限,后一種方式正呈星火燎原之勢,開始席卷整個AI行業(yè)。
翻開ChatGPT的發(fā)展史,從1.0迭代到4.0,OpenAI投入了數(shù)以億計的資金,即便是當下,訓練一次的成本也高達數(shù)百萬美元。
說到底,現(xiàn)階段大模型還是一門燒錢的生意,沒有強大的資金實力和人才梯隊,根本上不了牌桌。
業(yè)界存在一個觀點:通用大模型只能是大廠的游戲。但這并不意味著,非大廠企業(yè)不能夠擁有自身的模型。
當前,在基礎大模型之上,建立行業(yè)大模型,成為普遍的商業(yè)范式。
對于缺少AI能力的企業(yè)而言,站在巨人肩膀上,無疑是一條省時省力且省錢的捷徑。
這些企業(yè)的比較優(yōu)勢在于,靠近數(shù)據(jù),而且這些數(shù)據(jù)真實有效。
這一優(yōu)勢恰恰也是劣勢:很多企業(yè)不會用這些數(shù)據(jù)。
為此,企業(yè)不得不與基礎大模型廠商合作,將數(shù)據(jù)開放,訓練模型。
但對于部分企業(yè),數(shù)據(jù)安全的重要性或許更甚于數(shù)據(jù)的價值。
那么,如何在保證數(shù)據(jù)安全流轉的情況下,又能利用好數(shù)據(jù),激活數(shù)據(jù)價值,擴展業(yè)務?
答案呼之欲出:在存儲器上,把企業(yè)數(shù)據(jù),通過向量的方式,轉化為模型所需要的數(shù)據(jù)。并且,基于存儲器本身的安全管理,可實現(xiàn)數(shù)據(jù)的安全流轉。
這樣一來,企業(yè)不但可以訓練行業(yè)模型,并且只需要維護這一小部分數(shù)據(jù),入住門檻降低了;還能將數(shù)據(jù)的所有權掌握在自身手中,安全系數(shù)也升高了。
基于此,華為推出了兩款AI存儲產(chǎn)品:OceanStor A310 ,F(xiàn)usionCube A3000。
OceanStor A310 是一款深度學習數(shù)據(jù)湖存儲產(chǎn)品,可以為企業(yè)訓練大模型提供從“數(shù)據(jù)歸集、預處理到模型訓練、推理”的存儲支撐。
具體參數(shù)方面,OceanStor A310滿足多協(xié)議無損融合互通,支持96閃存盤,其帶寬達到400G/秒,IOPS達到1200萬,最高支持4096個節(jié)點的橫向擴展。
同時,OceanStor A310具備存內(nèi)計算能力,內(nèi)置的算力可以支持AI大模型接入分散在各個地方的原始數(shù)據(jù),并實現(xiàn)跨系統(tǒng)、跨地域、跨多云的全局統(tǒng)一數(shù)據(jù)視圖和調(diào)度,簡化數(shù)據(jù)的歸集流程。
FusionCube A3000則是一款訓/推超融合一體機,集存儲、網(wǎng)絡、計算、模型開發(fā)平臺于一體,內(nèi)置了OceanStor A300的存儲節(jié)點,面向百億級模型應用,并支持一站式安裝部署,2小時即可部署應用,并通過藍鯨應用商城提供業(yè)界主流大模型服務。
目前,華為FusionCube A3000產(chǎn)品既可以一站式交付,也支持集成其他的AI大模型軟件,并開發(fā)算力平臺、網(wǎng)絡等。在其內(nèi)置的OceanStor A300存儲節(jié)點上,廠商可以集成第三方GPU、軟件平臺,構建適合自身的超融合節(jié)點。
簡而言之,OceanStor A310 和 FusionCube A3000,本質(zhì)上是為了解決許多企業(yè)在構建行業(yè)模型時缺乏技術支撐的難題。
而且,這兩款產(chǎn)品本身適用于不同的客戶,前者適用于“存”,具備通用的能力;后者提供一站式交付能力,為企業(yè)實施大模型應用降低門檻。
從工業(yè)社會到信息社會,伴隨著新技術的發(fā)展,數(shù)據(jù)的總量呈幾何級數(shù)增長。
如何利用好數(shù)據(jù)成為關鍵,而這又與存儲技術息息相關,兩者相互影響、互相作用。
當大模型這類技術開始“涌現(xiàn)”,市場對于新的存儲架構、技術的需求驟然加快。
華為蘇黎世研究所存儲首席科學家張霽認為,在傳統(tǒng)以XPU為計算中心的體系下,所有的數(shù)據(jù)都圍繞XPU展開,在這個過程中,數(shù)據(jù)的流轉會帶來能耗、效率、安全等諸多問題。
這些問題實際上可以通過數(shù)據(jù)和控制分離,利用技術創(chuàng)新,讓一些數(shù)據(jù)繞過CPU,直接“投喂”給GPU,一方面減少CPU負荷,另一方面提高GPU利用率,縮減整個訓練過程中的流程成本。
“模型訓練應該回歸到數(shù)據(jù)本身?!?span style="color: #FFFFFF;">雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。