丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給郭思
發(fā)送

0

大模型算力的「熱」與10億萬卡成本的「冷」思考

本文作者: 郭思 2023-12-31 10:01
導(dǎo)語:大模型原生應(yīng)用仍未爆發(fā),誰能cover動輒10億/年的萬卡成本?


大模型算力的「熱」與10億萬卡成本的「冷」思考 

作者:郭思

編輯:陳彩嫻

 

人工智能的快速發(fā)展催生了智算中心這個概念。自 2023 年下半年起,中國智能計算中心的建設(shè)速度明顯提升。

 

據(jù)不完全統(tǒng)計,目前已有超過30個城市投身于智算中心的建設(shè)或規(guī)劃之中。

 

一方面,隨著生成式人工智能的飛速進(jìn)步和對大模型需求的急劇膨脹,處理和分析海量數(shù)據(jù)所需的強(qiáng)大算力變得至關(guān)重要。

 

另一方面,市場在追求規(guī)模效應(yīng)的過程中,出現(xiàn)了盲目超前的建設(shè)和大量囤積現(xiàn)象,導(dǎo)致對需求的管理不夠精細(xì),運營過程缺乏透明度和監(jiān)管,從而引發(fā)了智算中心的空轉(zhuǎn)甚至停機(jī)問題。這不僅未能充分利用設(shè)備生命周期的潛在價值,還造成了資源和資金的浪費。

 

大模型算力的「熱」與10億萬卡成本的「冷」思考 

 

實際上,空轉(zhuǎn)率在算力行業(yè)并非鮮見,它是一個重要的指標(biāo),無論人工智能需求量大小,都需關(guān)注。即便在我們的日常生活中,家用 PC 也存在空轉(zhuǎn)率問題。然而,大模型的爆炸式增長使得這一問題變得尤為關(guān)鍵,只是由于現(xiàn)在行業(yè)仍處于一卡難求的供不應(yīng)求時期,它的緊迫性尚不顯著。

 

大模型加碼,算力行業(yè)迎來新的機(jī)遇,在這波熱潮之下,對于整個算力的部署,我們也需要一些不一樣的冷思考。

 

運行一座 AI 智算中心需要多少錢?

 

AI 智算中心的成立并非由大模型直接催生。事實上,在今年 ChatGPT 大火之前,國內(nèi)已經(jīng)有幾家大型廠商相繼成立了大型的 AI 計算裝置,如商湯的 AI 大裝置、阿里的飛天智算、百度的 AI 大底座等等。

 

大模型前夜,這些智算中心的用途主要是小型深度學(xué)習(xí)模型的訓(xùn)練與推理,而大模型爆發(fā)后,萬卡規(guī)模、GPU 漸為算力集群核心的特征成為新一代智算中心的挑戰(zhàn)。人們將大模型的起步階段比喻為“淘金期”,認(rèn)為淘金浪潮下的淘金者不一定能成功淘到金、但賣鏟子的人一定穩(wěn)賺不賠。于是,為大模型時代建立智算中心成為今年中國科技圈的另一番火熱現(xiàn)象。

 

這一思路沒毛病,但現(xiàn)實永遠(yuǎn)比理想復(fù)雜。一個少為人知的數(shù)據(jù)是,在大模型爆火之前,一些智算中心一度有價無市,如果沒有模型在機(jī)器上跑,一天的閑置成本就高達(dá)十幾萬。換言之,大模型的爆火“救”了一部分智算中心。而高昂的空轉(zhuǎn)成本背后,恰是一座 AI 智算中心高昂的運行成本。

 

以萬卡規(guī)模的智算中心為例。據(jù) AI 科技評論與相關(guān)行業(yè)人士了解后粗略估算,運營一座能用于大模型訓(xùn)練與推理的萬卡規(guī)模智算中心需要每年投入高達(dá) 10 億人民幣。

 

與傳統(tǒng)的數(shù)據(jù)中心相比,智能中心的建設(shè)對能耗和基礎(chǔ)設(shè)施的要求更高。以算力行業(yè)常見的 42U 服務(wù)器機(jī)柜為例,傳統(tǒng)數(shù)據(jù)中心大約會部署 20 至 30 臺 CPU 服務(wù)器,而在相同空間內(nèi),若換成 GPU 服務(wù)器,則需要考慮多方面因素。

 

多位行業(yè)人士向 AI 科技評論表示,供電、制冷和承重等多方面的限制因素共同決定了機(jī)柜內(nèi)可以放置的機(jī)器數(shù)量。行業(yè)形成的共識是,大多數(shù)智算中心的一個機(jī)柜通常最多能放兩臺 GPU 服務(wù)器,超過四臺的情況下就需要進(jìn)行特殊的電力改造。標(biāo)準(zhǔn)機(jī)柜一般最多能容納兩臺 8 卡的 GPU 服務(wù)器。

                         

據(jù) AI 科技評論了解,在條件允許的情況下,大部分智算中心部署的都是市面上熱捧的 DGX A100 服務(wù)器。DGX A100 服務(wù)器在發(fā)布時的售價為 19.9 萬美元,折合人民幣約為 140 萬元。目前,其市場價格已攀升至約 170 萬元。這一價格涵蓋了內(nèi)部配備的兩個高性能 AMD 64 核霄龍?zhí)幚砥饕约鞍藗€先進(jìn)的 A100 GPU。然而,這僅僅是硬件成本的一部分。

大模型算力的「熱」與10億萬卡成本的「冷」思考 

 

購買并安裝一臺 DGX A100服務(wù)器,加上存儲擴(kuò)充、部分備件以及調(diào)試等費用,總成本將達(dá)到 170 萬元。部分服務(wù)器還具備存儲擴(kuò)展能力,這將進(jìn)一步提高總價。按照市面上服務(wù)器的平均四年折舊期計算,每年的折舊成本約為 42.5 萬元。

 

DGX A100 服務(wù)器的最大系統(tǒng)功耗為 6500W,其外形尺寸為 6U。考慮到 42U 的標(biāo)準(zhǔn)機(jī)柜配置,通常一個機(jī)柜最多可以容納兩臺 GPU 服務(wù)器。若超過四臺服務(wù)器,則需要進(jìn)行特殊的電力改造。標(biāo)準(zhǔn)機(jī)柜一般能夠承載兩臺 8 卡的 GPU 服務(wù)器。

 

因此,單個機(jī)柜可容納兩臺 DGX A100 服務(wù)器,對應(yīng)的總功耗為 13KW。假設(shè)設(shè)備全年持續(xù)運行(每天 24 小時,每年 365 天),則每年的耗電量為 13KW * 24小時/天 * 365天/年 = 113.880KW。

 

以每度電0.54元(1度=1千瓦時,kWh)的價格計算,每年的電費為:113.880KW * 0.54元/kWh = 99,440元,接近每年10萬元。

 

在常規(guī)的互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)中,電力消耗主要來源于 IT 設(shè)備、冷卻系統(tǒng)、電源系統(tǒng)以及照明系統(tǒng)等。盡管不同類型的 IDC 中心電力消耗比例可能存在差異,但通常情況下,IT設(shè)備是最大的電力消耗源,約占總耗電量的50%至60%。其次為冷卻系統(tǒng),其電力消耗占比在 30% 至 40% 之間。電源系統(tǒng)和照明系統(tǒng)等其他設(shè)施的耗電量相對較小。

 

基于這些數(shù)據(jù),我們可以粗略估算出,一臺全負(fù)荷運行的服務(wù)器每年的電費大約為20萬元??紤]到電費通常占IDC中心運營成本的約 50%,那么該服務(wù)器一年的運行成本可能大約是電費的兩倍左右,估算為 40 萬元。

 

綜上所述,運營一臺 DGX A100 服務(wù)器,一年的成本包括約 42.5 萬元的折舊費和約 40 萬元的運行電費,總計約為 82.5 萬元。

 

可以想象,一臺成本如此高昂的服務(wù)器如果不能得到滿打滿載的利用,那么所造成的浪費不可小覷。

 

以一個擁有萬卡的廠商為例,8 卡一臺服務(wù)器,相對應(yīng)廠商會擁有 1250 臺服務(wù)器,粗略以每臺 80 萬的成本來計算,一年都需要 1250*80 萬也就是 10 億的成本。

 

在衡量大模型智算中心的建設(shè)價值時,人們常習(xí)慣舉諸如高速公路、大型發(fā)電廠等基礎(chǔ)設(shè)施的例子來辯證——雖然高速公路的建設(shè)成本高,但當(dāng)在路上跑的車輛越多,成本均攤下來就越便宜。在這樣的邏輯上,容易被忽視的問題是:

 

大模型時代剛起步,大模型的原生應(yīng)用還遠(yuǎn)遠(yuǎn)沒有爆發(fā),市場需求存在虛空。如果高速公路建成了、但每年跑在公路上的汽車只有數(shù)百輛,均攤成本由誰來承擔(dān)?

 

浮華之下,暗礁實在

 

大模型仍然在發(fā)展,但 2023 年即將過去,算力中心空轉(zhuǎn)率成為一個需要關(guān)注的問題。

 

一位算力從業(yè)者在參觀某市的一個大型智算中心時發(fā)現(xiàn),雖然占了一個山頭寫著“**中心”,但實際上每年固定投入3000萬,但機(jī)房內(nèi)只有不到100個有機(jī)架式服務(wù)器,很多服務(wù)器都是空轉(zhuǎn)。而據(jù) AI 科技評論了解,該現(xiàn)象不是孤例。

 

當(dāng)面臨巨大的算力需求時,智算相應(yīng)的基礎(chǔ)設(shè)施建設(shè)成本會不可避免地增加。另一方面,對于市場實際需求把握不夠精準(zhǔn)也會造成智算中心建設(shè)后,服務(wù)器上架率卻達(dá)不到理想狀態(tài)。

 

沙利文的數(shù)據(jù)顯示,2022 年中國數(shù)據(jù)中心的上架率大約為 58%,這意味著在數(shù)據(jù)中心中,大約有 58% 的服務(wù)器被擺放到機(jī)柜上并投入使用,而剩下的 42% 的機(jī)柜可能是空的,即尚未被服務(wù)器占用。

 

造成算力中心空轉(zhuǎn)的原因主要有兩塊,一塊是技術(shù)上的不成熟,另一塊則是市場需求的認(rèn)知偏差。

 

技術(shù)上,無論是英偉達(dá)的計算卡還是國內(nèi)某些品牌的芯片,在長時間運行過程中,都可能會出現(xiàn)故障,如突然掉卡等問題。一位云計算行業(yè)的專業(yè)人士告訴AI科技評論,他在最近的一次會議上得知,某國產(chǎn)知名 AI 芯片在訓(xùn)練30天后可能會完全報廢。

 

此外,由于芯片的更新?lián)Q代周期性,芯片制造商不斷推出新產(chǎn)品,幾年后,新一代服務(wù)器將成為市場主流,導(dǎo)致部分服務(wù)器不得不被廢棄或閑置。

 

國內(nèi)大型智算中心廠商表示,算力資源的利用率的確會出現(xiàn)高峰和低谷,在需求旺盛的時候,利用率可能達(dá)到 80% 到 90%,空轉(zhuǎn)率在那些時候會相對較低,大約在 10% 到 20% 之間波動。在尖峰時刻,計算資源可能會被充分利用,空轉(zhuǎn)率才會降低。

 

而從應(yīng)用端而言,據(jù) AI 科技評論了解,現(xiàn)如今底層模型端的需求主要是用于訓(xùn)練,但大模型發(fā)展至今,真正的殺手級 AI 原生應(yīng)用卻遲遲未見蹤影,當(dāng)前中國的大模型原生應(yīng)用數(shù)量遠(yuǎn)遠(yuǎn)沒有達(dá)到大眾預(yù)期。

 

數(shù)據(jù)顯示,截至10月份,國內(nèi)已經(jīng)發(fā)布了238個大模型,相較于6月份的79個,在四個月內(nèi)增長三倍,但相較于國外的幾十個基礎(chǔ)大模型和上千個AI原生應(yīng)用來看,國內(nèi)AI原生應(yīng)用數(shù)量卻很少?;诂F(xiàn)有基座大模型推出的 AI 原生應(yīng)用并沒有大面積爆發(fā),也就是說DGX 服務(wù)器基本還是用于基座模型的訓(xùn)練,還沒有用于實際的推理端。

 

這就好比我們在前文提及的高速公路建設(shè),建成了,前期雖有200多車輛來平攤成本,但是一旦訓(xùn)練需求下降,后續(xù)沒有原生應(yīng)用,如此高昂的成本便成為了實打?qū)嵉睦速M。

 

在如今應(yīng)用側(cè)還沒有完全起來的情況下,智算中心空轉(zhuǎn)成本,仍是一個顯著問題。

 

以某AI公司發(fā)表的財報為例,2023 年上半年期內(nèi)銷售成本大幅增長近63%,達(dá)到78億4千萬人民幣;其中占比達(dá)82%的硬件成本及分包服務(wù)費同比增長54%,另外兩塊成本——AI數(shù)據(jù)中心(AIDC)運營和折舊攤銷成本也分別暴增75%、562%,但該公司AI營收卻微,上半年生成式AI相關(guān)收入僅約為2.91億元。

 

大模型算力的「熱」與10億萬卡成本的「冷」思考 

 而AI 原生應(yīng)用爆發(fā)后的效果,以 ChatGPT 為例,在 ChatGPT(GPT3.5和GPT4)下每個單詞大概消耗1.12個token,官方計費標(biāo)準(zhǔn)為 $0.002 / 1k tokens,在英語中“一個 token 通常對應(yīng)大約 4 個字符”,而1個漢字大致是2~2.5個token。1000 tokens大概是750單詞。那也就是說,大概2美元可以問100萬個token,相當(dāng)于750000個單詞。日常我們使用基本問清楚1個問題就要耗費100~200個token,以ChatGPT的1億月活用戶的來算,算下來一個月至少得花200萬美元。若月活用戶持續(xù)增多或者當(dāng)用戶規(guī)模進(jìn)一步擴(kuò)大,調(diào)用API帶來的運算和效益會更加巨大。

 

一個AI 應(yīng)用尚且能獲得如此大的收入,而當(dāng)行業(yè)不再只有200個基座大模型,而是幾百上千個AI應(yīng)用出現(xiàn)時,巨額的算力成本或許也就有法可解了。

 

所以,只有當(dāng)更多切實有效的大模型應(yīng)用場景得以發(fā)掘,或是關(guān)鍵技術(shù)實現(xiàn)重大突破時,這些閑置的資源才可能被重新激活。

 

算力的悖論要如何破解?

 

當(dāng)大模型熱潮興起時,人們常常將其比喻為電力。業(yè)內(nèi)也有非常的多的模式來優(yōu)化算力資源的調(diào)度。一行業(yè)人士告訴 AI 科技評論,一些廠商正在研發(fā)GPU服務(wù),采用類似service的架構(gòu)。盡管實現(xiàn)方式各異,但大家的目標(biāo)是一致的:希望能夠按照客戶實際的使用量來計算費用,就像使用水電一樣——按用量計費。

 

算力池化是一種做法,池化顧名思義,就是把這些智算中心、資產(chǎn)中心里面的這些 AI 芯片、 AI 加速器,池化完了之后,然后,通過網(wǎng)絡(luò)為需要計算資源的上層應(yīng)用提供服務(wù)。這意味著應(yīng)用可以根據(jù)需要提取資源,使用時即時獲取,用完后歸還到資源池中。

 

而另一方面,智算中心的高效運營本身就離不開技術(shù)層面其余 IT 能力的提升。

 

行業(yè)人士告訴AI科技評論,對于一個專業(yè)的智算中心而言,冗余和備用方案是至關(guān)重要的,以便在某個組件或資源出現(xiàn)故障時,其他資源可以自動接管,從而實現(xiàn)無縫切換,減少服務(wù)中斷的時間。另一方面,數(shù)據(jù)中心的運營還非常依賴于人員的技術(shù)能力。數(shù)據(jù)中心不僅需要提供計算資源,還需要提供技術(shù)支持和專業(yè)服務(wù)。

 

而縱觀整個行業(yè),在大模型技術(shù)的席卷之下,當(dāng)前對算力資源的精細(xì)化管理仍顯得相對滯后。盡管緊跟行業(yè)趨勢、積極布局大模型戰(zhàn)略對于企業(yè)來說無可非議,但就如同在一架全速飛行的飛機(jī)上,必須時刻警醒并密切關(guān)注那些可能潛藏風(fēng)險的關(guān)鍵部件一樣,對于算力基礎(chǔ)設(shè)施的關(guān)注與優(yōu)化同樣至關(guān)重要。前瞻性地規(guī)劃三步之遙,深度思考一步之內(nèi),方能在創(chuàng)新競賽中領(lǐng)先半步。

 

實際上,現(xiàn)在行業(yè)已經(jīng)意識到AI應(yīng)用的開發(fā)與突破是下一步人工智能從理論層面步入實踐領(lǐng)域,并形成其價值轉(zhuǎn)化的關(guān)鍵節(jié)點。此前,百度李彥宏就曾點出,在基礎(chǔ)模型之上,要有千千萬萬甚至數(shù)以百萬計的 AI 原生應(yīng)用,這個大模型的價值才能被體現(xiàn)出來。

 

而從根本上講,要解決智算中心資源利用率不高的實質(zhì)性問題,關(guān)鍵也在于如何積極引導(dǎo)并推動大模型應(yīng)用的廣泛普及與深度整合,確保計算設(shè)施能夠精準(zhǔn)匹配真實世界的需求,實現(xiàn)高效、有序的運行狀態(tài)。通過大模型應(yīng)用的全面開花,不僅可以有效利用現(xiàn)有智算中心的強(qiáng)大算力,還能進(jìn)一步推動人工智能技術(shù)與實體經(jīng)濟(jì)的深度融合,釋放更大的創(chuàng)新活力與價值潛力。

 

從這一層面而言,如今面對智算中心潛在的空轉(zhuǎn)問題所帶來的冷思考,并非僅是對既有認(rèn)知的簡單顛覆,更可能是關(guān)乎重大風(fēng)險預(yù)警的“灰犀牛”現(xiàn)象。

 

雷峰網(wǎng)(公眾號:雷峰網(wǎng)) 雷峰網(wǎng) 雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

大模型算力的「熱」與10億萬卡成本的「冷」思考

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說