0
本文作者: 郭思 | 2023-12-31 10:01 |
作者:郭思
編輯:陳彩嫻
人工智能的快速發(fā)展催生了智算中心這個(gè)概念。自 2023 年下半年起,中國(guó)智能計(jì)算中心的建設(shè)速度明顯提升。
據(jù)不完全統(tǒng)計(jì),目前已有超過(guò)30個(gè)城市投身于智算中心的建設(shè)或規(guī)劃之中。
一方面,隨著生成式人工智能的飛速進(jìn)步和對(duì)大模型需求的急劇膨脹,處理和分析海量數(shù)據(jù)所需的強(qiáng)大算力變得至關(guān)重要。
另一方面,市場(chǎng)在追求規(guī)模效應(yīng)的過(guò)程中,出現(xiàn)了盲目超前的建設(shè)和大量囤積現(xiàn)象,導(dǎo)致對(duì)需求的管理不夠精細(xì),運(yùn)營(yíng)過(guò)程缺乏透明度和監(jiān)管,從而引發(fā)了智算中心的空轉(zhuǎn)甚至停機(jī)問(wèn)題。這不僅未能充分利用設(shè)備生命周期的潛在價(jià)值,還造成了資源和資金的浪費(fèi)。
實(shí)際上,空轉(zhuǎn)率在算力行業(yè)并非鮮見(jiàn),它是一個(gè)重要的指標(biāo),無(wú)論人工智能需求量大小,都需關(guān)注。即便在我們的日常生活中,家用 PC 也存在空轉(zhuǎn)率問(wèn)題。然而,大模型的爆炸式增長(zhǎng)使得這一問(wèn)題變得尤為關(guān)鍵,只是由于現(xiàn)在行業(yè)仍處于一卡難求的供不應(yīng)求時(shí)期,它的緊迫性尚不顯著。
大模型加碼,算力行業(yè)迎來(lái)新的機(jī)遇,在這波熱潮之下,對(duì)于整個(gè)算力的部署,我們也需要一些不一樣的冷思考。
AI 智算中心的成立并非由大模型直接催生。事實(shí)上,在今年 ChatGPT 大火之前,國(guó)內(nèi)已經(jīng)有幾家大型廠商相繼成立了大型的 AI 計(jì)算裝置,如商湯的 AI 大裝置、阿里的飛天智算、百度的 AI 大底座等等。
大模型前夜,這些智算中心的用途主要是小型深度學(xué)習(xí)模型的訓(xùn)練與推理,而大模型爆發(fā)后,萬(wàn)卡規(guī)模、GPU 漸為算力集群核心的特征成為新一代智算中心的挑戰(zhàn)。人們將大模型的起步階段比喻為“淘金期”,認(rèn)為淘金浪潮下的淘金者不一定能成功淘到金、但賣(mài)鏟子的人一定穩(wěn)賺不賠。于是,為大模型時(shí)代建立智算中心成為今年中國(guó)科技圈的另一番火熱現(xiàn)象。
這一思路沒(méi)毛病,但現(xiàn)實(shí)永遠(yuǎn)比理想復(fù)雜。一個(gè)少為人知的數(shù)據(jù)是,在大模型爆火之前,一些智算中心一度有價(jià)無(wú)市,如果沒(méi)有模型在機(jī)器上跑,一天的閑置成本就高達(dá)十幾萬(wàn)。換言之,大模型的爆火“救”了一部分智算中心。而高昂的空轉(zhuǎn)成本背后,恰是一座 AI 智算中心高昂的運(yùn)行成本。
以萬(wàn)卡規(guī)模的智算中心為例。據(jù) AI 科技評(píng)論與相關(guān)行業(yè)人士了解后粗略估算,運(yùn)營(yíng)一座能用于大模型訓(xùn)練與推理的萬(wàn)卡規(guī)模智算中心需要每年投入高達(dá) 10 億人民幣。
與傳統(tǒng)的數(shù)據(jù)中心相比,智能中心的建設(shè)對(duì)能耗和基礎(chǔ)設(shè)施的要求更高。以算力行業(yè)常見(jiàn)的 42U 服務(wù)器機(jī)柜為例,傳統(tǒng)數(shù)據(jù)中心大約會(huì)部署 20 至 30 臺(tái) CPU 服務(wù)器,而在相同空間內(nèi),若換成 GPU 服務(wù)器,則需要考慮多方面因素。
多位行業(yè)人士向 AI 科技評(píng)論表示,供電、制冷和承重等多方面的限制因素共同決定了機(jī)柜內(nèi)可以放置的機(jī)器數(shù)量。行業(yè)形成的共識(shí)是,大多數(shù)智算中心的一個(gè)機(jī)柜通常最多能放兩臺(tái) GPU 服務(wù)器,超過(guò)四臺(tái)的情況下就需要進(jìn)行特殊的電力改造。標(biāo)準(zhǔn)機(jī)柜一般最多能容納兩臺(tái) 8 卡的 GPU 服務(wù)器。
據(jù) AI 科技評(píng)論了解,在條件允許的情況下,大部分智算中心部署的都是市面上熱捧的 DGX A100 服務(wù)器。DGX A100 服務(wù)器在發(fā)布時(shí)的售價(jià)為 19.9 萬(wàn)美元,折合人民幣約為 140 萬(wàn)元。目前,其市場(chǎng)價(jià)格已攀升至約 170 萬(wàn)元。這一價(jià)格涵蓋了內(nèi)部配備的兩個(gè)高性能 AMD 64 核霄龍?zhí)幚砥饕约鞍藗€(gè)先進(jìn)的 A100 GPU。然而,這僅僅是硬件成本的一部分。
購(gòu)買(mǎi)并安裝一臺(tái) DGX A100服務(wù)器,加上存儲(chǔ)擴(kuò)充、部分備件以及調(diào)試等費(fèi)用,總成本將達(dá)到 170 萬(wàn)元。部分服務(wù)器還具備存儲(chǔ)擴(kuò)展能力,這將進(jìn)一步提高總價(jià)。按照市面上服務(wù)器的平均四年折舊期計(jì)算,每年的折舊成本約為 42.5 萬(wàn)元。
DGX A100 服務(wù)器的最大系統(tǒng)功耗為 6500W,其外形尺寸為 6U??紤]到 42U 的標(biāo)準(zhǔn)機(jī)柜配置,通常一個(gè)機(jī)柜最多可以容納兩臺(tái) GPU 服務(wù)器。若超過(guò)四臺(tái)服務(wù)器,則需要進(jìn)行特殊的電力改造。標(biāo)準(zhǔn)機(jī)柜一般能夠承載兩臺(tái) 8 卡的 GPU 服務(wù)器。
因此,單個(gè)機(jī)柜可容納兩臺(tái) DGX A100 服務(wù)器,對(duì)應(yīng)的總功耗為 13KW。假設(shè)設(shè)備全年持續(xù)運(yùn)行(每天 24 小時(shí),每年 365 天),則每年的耗電量為 13KW * 24小時(shí)/天 * 365天/年 = 113.880KW。
以每度電0.54元(1度=1千瓦時(shí),kWh)的價(jià)格計(jì)算,每年的電費(fèi)為:113.880KW * 0.54元/kWh = 99,440元,接近每年10萬(wàn)元。
在常規(guī)的互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)中,電力消耗主要來(lái)源于 IT 設(shè)備、冷卻系統(tǒng)、電源系統(tǒng)以及照明系統(tǒng)等。盡管不同類(lèi)型的 IDC 中心電力消耗比例可能存在差異,但通常情況下,IT設(shè)備是最大的電力消耗源,約占總耗電量的50%至60%。其次為冷卻系統(tǒng),其電力消耗占比在 30% 至 40% 之間。電源系統(tǒng)和照明系統(tǒng)等其他設(shè)施的耗電量相對(duì)較小。
基于這些數(shù)據(jù),我們可以粗略估算出,一臺(tái)全負(fù)荷運(yùn)行的服務(wù)器每年的電費(fèi)大約為20萬(wàn)元。考慮到電費(fèi)通常占IDC中心運(yùn)營(yíng)成本的約 50%,那么該服務(wù)器一年的運(yùn)行成本可能大約是電費(fèi)的兩倍左右,估算為 40 萬(wàn)元。
綜上所述,運(yùn)營(yíng)一臺(tái) DGX A100 服務(wù)器,一年的成本包括約 42.5 萬(wàn)元的折舊費(fèi)和約 40 萬(wàn)元的運(yùn)行電費(fèi),總計(jì)約為 82.5 萬(wàn)元。
可以想象,一臺(tái)成本如此高昂的服務(wù)器如果不能得到滿打滿載的利用,那么所造成的浪費(fèi)不可小覷。
以一個(gè)擁有萬(wàn)卡的廠商為例,8 卡一臺(tái)服務(wù)器,相對(duì)應(yīng)廠商會(huì)擁有 1250 臺(tái)服務(wù)器,粗略以每臺(tái) 80 萬(wàn)的成本來(lái)計(jì)算,一年都需要 1250*80 萬(wàn)也就是 10 億的成本。
在衡量大模型智算中心的建設(shè)價(jià)值時(shí),人們常習(xí)慣舉諸如高速公路、大型發(fā)電廠等基礎(chǔ)設(shè)施的例子來(lái)辯證——雖然高速公路的建設(shè)成本高,但當(dāng)在路上跑的車(chē)輛越多,成本均攤下來(lái)就越便宜。在這樣的邏輯上,容易被忽視的問(wèn)題是:
大模型時(shí)代剛起步,大模型的原生應(yīng)用還遠(yuǎn)遠(yuǎn)沒(méi)有爆發(fā),市場(chǎng)需求存在虛空。如果高速公路建成了、但每年跑在公路上的汽車(chē)只有數(shù)百輛,均攤成本由誰(shuí)來(lái)承擔(dān)?
大模型仍然在發(fā)展,但 2023 年即將過(guò)去,算力中心空轉(zhuǎn)率成為一個(gè)需要關(guān)注的問(wèn)題。
一位算力從業(yè)者在參觀某市的一個(gè)大型智算中心時(shí)發(fā)現(xiàn),雖然占了一個(gè)山頭寫(xiě)著“**中心”,但實(shí)際上每年固定投入3000萬(wàn),但機(jī)房?jī)?nèi)只有不到100個(gè)有機(jī)架式服務(wù)器,很多服務(wù)器都是空轉(zhuǎn)。而據(jù) AI 科技評(píng)論了解,該現(xiàn)象不是孤例。
當(dāng)面臨巨大的算力需求時(shí),智算相應(yīng)的基礎(chǔ)設(shè)施建設(shè)成本會(huì)不可避免地增加。另一方面,對(duì)于市場(chǎng)實(shí)際需求把握不夠精準(zhǔn)也會(huì)造成智算中心建設(shè)后,服務(wù)器上架率卻達(dá)不到理想狀態(tài)。
沙利文的數(shù)據(jù)顯示,2022 年中國(guó)數(shù)據(jù)中心的上架率大約為 58%,這意味著在數(shù)據(jù)中心中,大約有 58% 的服務(wù)器被擺放到機(jī)柜上并投入使用,而剩下的 42% 的機(jī)柜可能是空的,即尚未被服務(wù)器占用。
造成算力中心空轉(zhuǎn)的原因主要有兩塊,一塊是技術(shù)上的不成熟,另一塊則是市場(chǎng)需求的認(rèn)知偏差。
技術(shù)上,無(wú)論是英偉達(dá)的計(jì)算卡還是國(guó)內(nèi)某些品牌的芯片,在長(zhǎng)時(shí)間運(yùn)行過(guò)程中,都可能會(huì)出現(xiàn)故障,如突然掉卡等問(wèn)題。一位云計(jì)算行業(yè)的專(zhuān)業(yè)人士告訴AI科技評(píng)論,他在最近的一次會(huì)議上得知,某國(guó)產(chǎn)知名 AI 芯片在訓(xùn)練30天后可能會(huì)完全報(bào)廢。
此外,由于芯片的更新?lián)Q代周期性,芯片制造商不斷推出新產(chǎn)品,幾年后,新一代服務(wù)器將成為市場(chǎng)主流,導(dǎo)致部分服務(wù)器不得不被廢棄或閑置。
國(guó)內(nèi)大型智算中心廠商表示,算力資源的利用率的確會(huì)出現(xiàn)高峰和低谷,在需求旺盛的時(shí)候,利用率可能達(dá)到 80% 到 90%,空轉(zhuǎn)率在那些時(shí)候會(huì)相對(duì)較低,大約在 10% 到 20% 之間波動(dòng)。在尖峰時(shí)刻,計(jì)算資源可能會(huì)被充分利用,空轉(zhuǎn)率才會(huì)降低。
而從應(yīng)用端而言,據(jù) AI 科技評(píng)論了解,現(xiàn)如今底層模型端的需求主要是用于訓(xùn)練,但大模型發(fā)展至今,真正的殺手級(jí) AI 原生應(yīng)用卻遲遲未見(jiàn)蹤影,當(dāng)前中國(guó)的大模型原生應(yīng)用數(shù)量遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到大眾預(yù)期。
數(shù)據(jù)顯示,截至10月份,國(guó)內(nèi)已經(jīng)發(fā)布了238個(gè)大模型,相較于6月份的79個(gè),在四個(gè)月內(nèi)增長(zhǎng)三倍,但相較于國(guó)外的幾十個(gè)基礎(chǔ)大模型和上千個(gè)AI原生應(yīng)用來(lái)看,國(guó)內(nèi)AI原生應(yīng)用數(shù)量卻很少?;诂F(xiàn)有基座大模型推出的 AI 原生應(yīng)用并沒(méi)有大面積爆發(fā),也就是說(shuō)DGX 服務(wù)器基本還是用于基座模型的訓(xùn)練,還沒(méi)有用于實(shí)際的推理端。
這就好比我們?cè)谇拔奶峒暗母咚俟方ㄔO(shè),建成了,前期雖有200多車(chē)輛來(lái)平攤成本,但是一旦訓(xùn)練需求下降,后續(xù)沒(méi)有原生應(yīng)用,如此高昂的成本便成為了實(shí)打?qū)嵉睦速M(fèi)。
在如今應(yīng)用側(cè)還沒(méi)有完全起來(lái)的情況下,智算中心空轉(zhuǎn)成本,仍是一個(gè)顯著問(wèn)題。
以某AI公司發(fā)表的財(cái)報(bào)為例,2023 年上半年期內(nèi)銷(xiāo)售成本大幅增長(zhǎng)近63%,達(dá)到78億4千萬(wàn)人民幣;其中占比達(dá)82%的硬件成本及分包服務(wù)費(fèi)同比增長(zhǎng)54%,另外兩塊成本——AI數(shù)據(jù)中心(AIDC)運(yùn)營(yíng)和折舊攤銷(xiāo)成本也分別暴增75%、562%,但該公司AI營(yíng)收卻微,上半年生成式AI相關(guān)收入僅約為2.91億元。
而AI 原生應(yīng)用爆發(fā)后的效果,以 ChatGPT 為例,在 ChatGPT(GPT3.5和GPT4)下每個(gè)單詞大概消耗1.12個(gè)token,官方計(jì)費(fèi)標(biāo)準(zhǔn)為 $0.002 / 1k tokens,在英語(yǔ)中“一個(gè) token 通常對(duì)應(yīng)大約 4 個(gè)字符”,而1個(gè)漢字大致是2~2.5個(gè)token。1000 tokens大概是750單詞。那也就是說(shuō),大概2美元可以問(wèn)100萬(wàn)個(gè)token,相當(dāng)于750000個(gè)單詞。日常我們使用基本問(wèn)清楚1個(gè)問(wèn)題就要耗費(fèi)100~200個(gè)token,以ChatGPT的1億月活用戶的來(lái)算,算下來(lái)一個(gè)月至少得花200萬(wàn)美元。若月活用戶持續(xù)增多或者當(dāng)用戶規(guī)模進(jìn)一步擴(kuò)大,調(diào)用API帶來(lái)的運(yùn)算和效益會(huì)更加巨大。
一個(gè)AI 應(yīng)用尚且能獲得如此大的收入,而當(dāng)行業(yè)不再只有200個(gè)基座大模型,而是幾百上千個(gè)AI應(yīng)用出現(xiàn)時(shí),巨額的算力成本或許也就有法可解了。
所以,只有當(dāng)更多切實(shí)有效的大模型應(yīng)用場(chǎng)景得以發(fā)掘,或是關(guān)鍵技術(shù)實(shí)現(xiàn)重大突破時(shí),這些閑置的資源才可能被重新激活。
當(dāng)大模型熱潮興起時(shí),人們常常將其比喻為電力。業(yè)內(nèi)也有非常的多的模式來(lái)優(yōu)化算力資源的調(diào)度。一行業(yè)人士告訴 AI 科技評(píng)論,一些廠商正在研發(fā)GPU服務(wù),采用類(lèi)似service的架構(gòu)。盡管實(shí)現(xiàn)方式各異,但大家的目標(biāo)是一致的:希望能夠按照客戶實(shí)際的使用量來(lái)計(jì)算費(fèi)用,就像使用水電一樣——按用量計(jì)費(fèi)。
算力池化是一種做法,池化顧名思義,就是把這些智算中心、資產(chǎn)中心里面的這些 AI 芯片、 AI 加速器,池化完了之后,然后,通過(guò)網(wǎng)絡(luò)為需要計(jì)算資源的上層應(yīng)用提供服務(wù)。這意味著應(yīng)用可以根據(jù)需要提取資源,使用時(shí)即時(shí)獲取,用完后歸還到資源池中。
而另一方面,智算中心的高效運(yùn)營(yíng)本身就離不開(kāi)技術(shù)層面其余 IT 能力的提升。
行業(yè)人士告訴AI科技評(píng)論,對(duì)于一個(gè)專(zhuān)業(yè)的智算中心而言,冗余和備用方案是至關(guān)重要的,以便在某個(gè)組件或資源出現(xiàn)故障時(shí),其他資源可以自動(dòng)接管,從而實(shí)現(xiàn)無(wú)縫切換,減少服務(wù)中斷的時(shí)間。另一方面,數(shù)據(jù)中心的運(yùn)營(yíng)還非常依賴(lài)于人員的技術(shù)能力。數(shù)據(jù)中心不僅需要提供計(jì)算資源,還需要提供技術(shù)支持和專(zhuān)業(yè)服務(wù)。
而縱觀整個(gè)行業(yè),在大模型技術(shù)的席卷之下,當(dāng)前對(duì)算力資源的精細(xì)化管理仍顯得相對(duì)滯后。盡管緊跟行業(yè)趨勢(shì)、積極布局大模型戰(zhàn)略對(duì)于企業(yè)來(lái)說(shuō)無(wú)可非議,但就如同在一架全速飛行的飛機(jī)上,必須時(shí)刻警醒并密切關(guān)注那些可能潛藏風(fēng)險(xiǎn)的關(guān)鍵部件一樣,對(duì)于算力基礎(chǔ)設(shè)施的關(guān)注與優(yōu)化同樣至關(guān)重要。前瞻性地規(guī)劃三步之遙,深度思考一步之內(nèi),方能在創(chuàng)新競(jìng)賽中領(lǐng)先半步。
實(shí)際上,現(xiàn)在行業(yè)已經(jīng)意識(shí)到AI應(yīng)用的開(kāi)發(fā)與突破是下一步人工智能從理論層面步入實(shí)踐領(lǐng)域,并形成其價(jià)值轉(zhuǎn)化的關(guān)鍵節(jié)點(diǎn)。此前,百度李彥宏就曾點(diǎn)出,在基礎(chǔ)模型之上,要有千千萬(wàn)萬(wàn)甚至數(shù)以百萬(wàn)計(jì)的 AI 原生應(yīng)用,這個(gè)大模型的價(jià)值才能被體現(xiàn)出來(lái)。
而從根本上講,要解決智算中心資源利用率不高的實(shí)質(zhì)性問(wèn)題,關(guān)鍵也在于如何積極引導(dǎo)并推動(dòng)大模型應(yīng)用的廣泛普及與深度整合,確保計(jì)算設(shè)施能夠精準(zhǔn)匹配真實(shí)世界的需求,實(shí)現(xiàn)高效、有序的運(yùn)行狀態(tài)。通過(guò)大模型應(yīng)用的全面開(kāi)花,不僅可以有效利用現(xiàn)有智算中心的強(qiáng)大算力,還能進(jìn)一步推動(dòng)人工智能技術(shù)與實(shí)體經(jīng)濟(jì)的深度融合,釋放更大的創(chuàng)新活力與價(jià)值潛力。
從這一層面而言,如今面對(duì)智算中心潛在的空轉(zhuǎn)問(wèn)題所帶來(lái)的冷思考,并非僅是對(duì)既有認(rèn)知的簡(jiǎn)單顛覆,更可能是關(guān)乎重大風(fēng)險(xiǎn)預(yù)警的“灰犀牛”現(xiàn)象。
雷峰網(wǎng) 雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) 雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。