丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給胡敏
發(fā)送

0

智算中心的困境:有卡不代表有算力

本文作者: 胡敏 2024-09-11 17:20
導(dǎo)語:總是“買買買”?是時候有人站出來,想想如何提升用卡效率了。

“如果讓你重回2018年,你會做什么?”

“先囤一大批英偉達(dá)的卡?!?/p>

這段對話雖然是網(wǎng)絡(luò)段子,但也同樣反映了廠商在全球囤卡找卡的瘋狂。眾所周知,這兩年GPU一直處于供應(yīng)緊張的狀態(tài),但我們卻遇到了這樣一個真實(shí)案例:一家傳統(tǒng)IDC廠商手上囤了很多GPU卡,卻處于閑置狀態(tài)。

這反映當(dāng)下的一種現(xiàn)狀:智算雖火熱,但市場上還存在很多用卡效率不高的情況,換而言之,有卡也不一定有算力。

智算火熱,用卡效率不高被關(guān)注

進(jìn)一步追問,為何會用卡效率不高?

因?yàn)橹撬悴粌H僅是卡的問題,而是一個軟硬件協(xié)調(diào)的系統(tǒng),涉及算、存、網(wǎng)等多個核心能力,當(dāng)軟件能力不夠的時候,卡自身的發(fā)揮也會受限,騰訊云副總裁,云計(jì)算資深技術(shù)專家沙開波對雷峰網(wǎng)(公眾號:雷峰網(wǎng))表示。

這就像買了一輛頂級跑車,但自己不太懂賽車技術(shù),也沒有專業(yè)的賽車團(tuán)隊(duì)來調(diào)試車輛和規(guī)劃最佳行駛路線,那就只能在普通道路上行駛。

這是所有IDC廠商不愿意看到的,因?yàn)檫@不僅是一個資源閑置問題,更是一個轉(zhuǎn)型機(jī)遇問題,用好這些卡,IDC廠商也可順勢轉(zhuǎn)型到AIDC(智算中心)廠商,開拓新業(yè)務(wù)。

當(dāng)然,并非僅IDC廠商面臨用卡效率不高,對于很多大模型公司而言,眼下他們也亟待算力效率的提升,尤其是在今年,模型訓(xùn)練參數(shù)量是越來越大,去年可能大家都還在用十億、百億的參數(shù)規(guī)模,今年這一規(guī)模數(shù)字已經(jīng)“卷”到了千億,如騰訊混元大模型就擴(kuò)展為萬億參數(shù)規(guī)模。

如此龐大的參數(shù)量,也讓底層的算力集群規(guī)模越來越大,有業(yè)內(nèi)從業(yè)者稱,今年起,所有智算集群萬卡是最低標(biāo)配,萬卡以上的智算集群才有價值。

集群規(guī)模的不斷擴(kuò)大,無疑對底層AI基礎(chǔ)設(shè)施的處理效率提出更高的挑戰(zhàn),比如如何讓超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率、訓(xùn)練高穩(wěn)定性與可用性、故障快速定位與可診斷工具等等。這恰似你分別想提升一千個人的協(xié)作效率,和一萬個人協(xié)作的協(xié)作效率,二者難度不可同日而語。

大模型計(jì)算效率不高帶來更直接的問題就是,模型訓(xùn)練成本進(jìn)一步增加,而訓(xùn)練成本,又是眼下國內(nèi)大模型公司的敏感點(diǎn)。

一方面,大模型訓(xùn)練燒錢是眾所皆知,另一方面,今年資本市場對國內(nèi)大模型公司投資也在趨于理性,去年拿到投資的大模型公司有兩百多家,而今年上半年,只有像月之暗面、智譜等一些頭部大模型公司拿了融資。

燒錢不能永無止境,提升用卡效率迫在眉睫。作為頭部云廠商之一,騰訊云已悄然落子。

9月5日,騰訊云在騰訊全球數(shù)字生態(tài)大會上發(fā)布 AI Infra品牌—— 騰訊云智算 ,將旗下高性能計(jì)算HCC、高性能網(wǎng)絡(luò)IHN星脈、高性能云存儲、加速框架、容器、向量數(shù)據(jù)庫、智算套件等單項(xiàng)產(chǎn)品能力整合,幫助產(chǎn)業(yè)突破技術(shù)瓶頸,加速釋放AI生產(chǎn)力。

智算啟幕,破客戶難題堅(jiān)冰

事實(shí)上,在此次發(fā)布騰訊云智算品牌之前,騰訊云早已經(jīng)在迭代和對外輸出智算技術(shù)與產(chǎn)品,來提升智算性能,降低使用成本。

去年4月,騰訊云正式發(fā)布面向大模型訓(xùn)練的新一代HCC高性能計(jì)算集群;去年6月,騰訊云首次對外完整披露自研星脈高性能計(jì)算網(wǎng)絡(luò),后來,騰訊云又發(fā)布了AIGC云存儲解決方案;推出了源于公有云的成熟實(shí)踐的專有云智算套件,支撐企業(yè)基于自有硬件搭建高性能的專有智算云。

而眼下這一節(jié)點(diǎn),之所以要成立騰訊云智算品牌,沙開波對雷峰網(wǎng)表示,其一是AI大模型的興起,需求端對整個云基礎(chǔ)設(shè)施提出更高級的要求;其二是騰訊云在AI 大模型的驅(qū)動下,也對云基礎(chǔ)設(shè)施很多能力做了進(jìn)化。成立騰訊云智算品牌,就是為讓更多客戶了解騰訊云智算的能力,同時將這些能力輸出,更好地支持客戶的業(yè)務(wù)發(fā)展。

客戶在大模型訓(xùn)練過程中往往會遇到這幾個問題:

第一是如何提升訓(xùn)練效率,減少故障率?

訓(xùn)練效率不高,可能源于幾個環(huán)節(jié),第一是在訓(xùn)練啟動時間長。由于軟硬件等多種因素等原因,目前業(yè)內(nèi)許多訓(xùn)練啟動時間長達(dá)一個月之久。

第二是在訓(xùn)練過程中,經(jīng)常發(fā)生故障。大模型訓(xùn)練的故障率是個不容小覷的問題,據(jù)統(tǒng)計(jì),GPU故障率是CPU的120倍以上。前不久,Meta發(fā)布了其最新的Llama 3 405B大語言模型,并公布了一項(xiàng)研究成果,405B模型通過由16384張英偉達(dá)H100 80G GPU組成的服務(wù)器集群,訓(xùn)練運(yùn)行持續(xù)了54天。在這54天中,集群遭遇了419次意外組件故障,平均每3小時就發(fā)生一次故障。

而騰訊云通過整合軟硬件技術(shù)能力,騰訊云智算集群從機(jī)器上架到開始訓(xùn)練可以做到只需1天,而在故障數(shù)上,騰訊云的集群千卡單日故障數(shù)已經(jīng)刷新到0.16,是行業(yè)水平的1/3。

之所以能有此成果,這與其網(wǎng)絡(luò)、存儲產(chǎn)品,加速框架、向量數(shù)據(jù)庫以及智算套件等有關(guān)。據(jù)沙開波介紹,騰訊云自研的星脈網(wǎng)絡(luò)通過流量和拓?fù)渥詣痈兄M(jìn)行調(diào)度,提升網(wǎng)絡(luò)吞吐,故障時定位問題鏈路并處理,減少訓(xùn)練中斷。在萬卡集群下,網(wǎng)絡(luò)故障可實(shí)現(xiàn) 1 分鐘發(fā)現(xiàn),3 分鐘定位,5 分鐘解決。而在千卡集群的通信時間縮短到6%,是業(yè)界一半。而騰訊云高性能并行文件存儲CFS Turbo支持千卡并發(fā)讀寫。

此外,在加速框架上,騰訊云的TACO也為云端計(jì)算效率提速,據(jù)騰訊云相關(guān)人士介紹,在同樣的硬件環(huán)境下,原本每秒只能處理100個tokens的系統(tǒng),在使用TACO后可以提升至每秒處理200甚至300個tokens,并且處理的tokens增多,并沒有帶來太多延遲。

第二是訓(xùn)練如何更加兼容、部署更為靈活?

以前模型訓(xùn)練任務(wù)往往是單一廠商芯片服務(wù)于單一任務(wù),當(dāng)前芯片供給緊俏的背景下,各大芯片廠商持續(xù)加大在 GPU 方面的投入與布局,在越來越多的智算中心里,不同型號、不同廠商的卡進(jìn)行異構(gòu)組網(wǎng)的情況愈發(fā)普遍。與此同時,當(dāng)下眾多行業(yè)對數(shù)據(jù)安全合規(guī)有著極高的要求,不少訓(xùn)練和推理只能在本地?cái)?shù)據(jù)中心進(jìn)行。

為了解決多類型卡的訓(xùn)練問題,騰訊云目前采用的“一云多芯”架構(gòu),可以適配、管理、調(diào)度多種CPU和GPU芯片,能夠有效降低供應(yīng)鏈風(fēng)險,同時滿足不同業(yè)務(wù)對于不同算力的需求。

而針對部署問題,騰訊云推出專有云智算套件,支撐企業(yè)基于自有硬件搭建高性能專有智算云,滿足企業(yè)在私有算力環(huán)境下訓(xùn)練大模型的訴求。這一套件跟公有云有一樣的配置,星脈網(wǎng)絡(luò)、AIGC云存儲、Taco都在這套打包的方案內(nèi)。

如今,據(jù)沙開波透露,騰訊云智算已經(jīng)服務(wù)了90%以上的大模型企業(yè),而且這些公司也都實(shí)現(xiàn)了大模型訓(xùn)練成本下降,某大模型客戶在采用騰訊云的整套算力解決后,一年的成本下降了2000萬。

除了大模型客戶外,一些做AI應(yīng)用的客戶也在使用這套方案。去年下半年,某社區(qū)電商企業(yè)在做AI應(yīng)用時,把將海外芯片更換為騰訊云在公有云上提供的國產(chǎn)芯片。在保持主要業(yè)務(wù)指標(biāo)不變的前提下,該公司實(shí)現(xiàn)了21天內(nèi)完成芯片替換,兩周左右完成模型適配,一周左右完成物理框架改造。此外,開頭提到的IDC公司,也在與騰訊云的合作下,在半年內(nèi)將GPU資源幾乎全部售出。

智算開拓,尋云市場增量方向

從客戶角度來看,其希望云廠商能夠提供更多的高性能AI基礎(chǔ)設(shè)施,為其業(yè)務(wù)提質(zhì)增效。而站在云廠商的角度來看,加速提升智算能力,也是為了抓住新的云增長點(diǎn)。

此前云廠商鎖定的幾個增量方向——出海、下沉市場、以及傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型。出海目前面臨著極大的不確定性,去發(fā)達(dá)國家市場,如歐美等地,面臨著信任問題,長期用量規(guī)模上不去,機(jī)房運(yùn)營成本高昂,海外基本都還在流血。

而去到下沉市場,最主要的問題是沒錢。這些市場客戶對云的需求量并不強(qiáng),1000元/年的客戶比比皆是。傳統(tǒng)行業(yè)數(shù)字化轉(zhuǎn)型,最大的困難是如何洞察行業(yè)需求,以及了解每一個行業(yè)的know-how。畢竟,傳統(tǒng)企業(yè)做數(shù)字化轉(zhuǎn)型的核心目的,是看到業(yè)務(wù)的提質(zhì)、增效。

這些增量方向的拓展就像是在密林中開辟新路,每一步都充滿挑戰(zhàn)與不確定性。

與此同時,所有的云從業(yè)者長久以來深陷存量競爭的泥沼,業(yè)績增長乏力帶來的迷茫,拼命爭奪友商客戶的無奈,都促使云廠商急切地尋找更多的增量市場。大模型的出現(xiàn)為云廠商帶來新的增量曙光。

在今年不少云廠商的財(cái)報中,AI對云業(yè)務(wù)的收入貢獻(xiàn)都十分亮眼。今年二季度,AI推動阿里云重回增長,季度營收增長6%至265.49億元,其中AI相關(guān)產(chǎn)品收入實(shí)現(xiàn)三位數(shù)增長,公共云業(yè)務(wù)實(shí)現(xiàn)兩位數(shù)增長;騰訊方面也表示,受益于包括云服務(wù)業(yè)務(wù)收入增長在內(nèi)的因素,企業(yè)服務(wù)業(yè)務(wù)收入實(shí)現(xiàn)雙位數(shù)增長率。

不少人預(yù)測,AI大模型將成為未來云市場增長的最大動力,也是公有云服務(wù)重回高增長時代的唯一機(jī)會。而在這種預(yù)判下,所以騰訊云成立智算品牌,其他云廠商也在緊鑼密鼓布局。

大模型能否真正驅(qū)動云用量,仍存在爭議。國內(nèi) AI 公有云服務(wù)市場規(guī)模雖有增長,但在各家云廠商的激烈競爭下,分到的份額似乎難以滿足云廠商的巨大胃口。

就拿IDC剛發(fā)布的《AI Cloud 2023》報告數(shù)據(jù)來看,國內(nèi)AI公有云服務(wù)市場2023年規(guī)模為126億,相比前一年增長58.2%。增速是喜人的,但仔細(xì)一算,126億的規(guī)模被各家云廠商瓜分下來,到手也不過幾億到幾十億不等,這個數(shù)字對云廠商營收拉動力確實(shí)是有,但似乎不那么大。

大模型究竟能為云帶來多大的增長,時間自會給出答案。但眼下,從各家云廠商緊鑼密鼓的布局來看,一場激烈的智算實(shí)力比拼賽已然無聲地拉開帷幕,未來的云市場究竟走向何方,我們拭目以待。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

主筆

關(guān)注云計(jì)算、企服,歡迎找我爆料。微信:mindy1857,加好友請備注公司、姓名及來意
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說