0
本文作者: 包永剛 | 2023-04-21 14:56 |
當(dāng)AI寫(xiě)論文,做旅行攻略,作畫(huà),寫(xiě)詩(shī)能夠媲美甚至超越普通人水平時(shí),有人興奮不已,也有人憂心忡忡。
普通人對(duì)于生成式AI可能帶來(lái)的變化態(tài)度各有不同,但推動(dòng)這一技術(shù)發(fā)展的研究人員和企業(yè)都有一個(gè)共同關(guān)注的問(wèn)題——大模型所需的大算力需求帶來(lái)的能耗問(wèn)題如何解決?
以火爆全球的OpenAI公司的ChatGPT為例,兩年前,微軟為了滿足OpenAI的GPT-3模型訓(xùn)練的算力需求,專門推出的超級(jí)計(jì)算機(jī)擁有28.5萬(wàn)個(gè)CPU核心、1萬(wàn)個(gè) GPU。
巨量的CPU和GPU帶來(lái)的是高昂的芯片采購(gòu)和運(yùn)營(yíng)成本。
國(guó)盛證券報(bào)告估算,GPT-3訓(xùn)練一次的成本約為140 萬(wàn)美元。要用ChatGPT服務(wù)用戶,以2023年1月的獨(dú)立訪客平均數(shù)1300萬(wàn)計(jì)算,每日電費(fèi)在5萬(wàn)美元左右。
數(shù)據(jù)中心的能耗問(wèn)題成了再一次擺在了云計(jì)算提供商面前的挑戰(zhàn)。為了解決這一問(wèn)題,無(wú)論是微軟Azure、阿里云都早已讓數(shù)據(jù)中心的服務(wù)器用“泡澡”的方式來(lái)散熱,提升IDC的能源效率。
“我認(rèn)為ChatGPT會(huì)加速液冷的發(fā)展,目前液冷幾乎已經(jīng)成為一個(gè)潮流。”英特爾市場(chǎng)營(yíng)銷集團(tuán)副總裁、中國(guó)區(qū)數(shù)據(jù)中心銷售總經(jīng)理兼中國(guó)區(qū)運(yùn)營(yíng)商銷售總經(jīng)理莊秉翰在本周舉行的2023英特爾可持續(xù)發(fā)展高峰論壇期間表示。
ChatGPT助推,服務(wù)器「泡澡」要成主流
服務(wù)器“泡澡”是一種比喻,實(shí)際上代表的是服務(wù)器散熱液冷技術(shù)中的浸沒(méi)方式,液冷技術(shù)包含了冷板、噴淋、浸沒(méi)式,并非一個(gè)特別新的技術(shù),但業(yè)界的使用率并不高。
“主要原因是國(guó)內(nèi)許多冷板液冷設(shè)計(jì)缺乏一個(gè)規(guī)范的驗(yàn)證標(biāo)準(zhǔn),使得每個(gè)廠家設(shè)計(jì)都有差異,這使系統(tǒng)設(shè)計(jì)成本、驗(yàn)證成本比較高,因此對(duì)于最終用戶而言這個(gè)方案就比較貴?!庇⑻貭枖?shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理陳葆立認(rèn)為。
技術(shù)和標(biāo)準(zhǔn)之外,應(yīng)用也是液冷技術(shù)沒(méi)有大規(guī)模部署的原因。
“高性能應(yīng)用環(huán)節(jié)可能才需要液冷,但是大量的應(yīng)用并不是那么高功耗的應(yīng)用,而且在國(guó)家也提出‘雙碳’戰(zhàn)略之前,緊迫性和必要性沒(méi)有那么高。”寧暢總裁秦曉寧說(shuō),“現(xiàn)在的情況不一樣,CPU的功耗可能高達(dá)270W、300W,未來(lái)可能350W,GPU現(xiàn)在都400W、500W了,可能就必須應(yīng)用液冷技術(shù)。”
更進(jìn)一步,算力規(guī)模也是影響液冷技術(shù)大規(guī)模應(yīng)用的關(guān)鍵。
“包括ChatGPT在內(nèi)的應(yīng)用帶來(lái)的算力快速發(fā)展,是促使大多數(shù)客戶快速?gòu)娘L(fēng)冷技術(shù)轉(zhuǎn)向更節(jié)能的液冷技術(shù)的重要原因?!毙氯A三集團(tuán)計(jì)算存儲(chǔ)產(chǎn)品線副總裁劉宏程認(rèn)為,“這不僅是可以節(jié)能多少的問(wèn)題,還有空間浪費(fèi)的問(wèn)題。存量的數(shù)據(jù)中心當(dāng)中無(wú)法容納新的能耗過(guò)高的設(shè)備。比如GPU服務(wù)器會(huì)導(dǎo)致空間的占用,以及提高數(shù)據(jù)中心的管理和運(yùn)營(yíng)費(fèi)用。這促使更多中國(guó)客戶在快速考量更新數(shù)據(jù)中心整體設(shè)計(jì)時(shí),轉(zhuǎn)向更節(jié)能、更先進(jìn)的液冷數(shù)據(jù)中心的方式來(lái)解決能耗和平衡的問(wèn)題?!?/p>
“當(dāng)用戶需求激增→標(biāo)準(zhǔn)建立→規(guī)模效應(yīng)體現(xiàn)→整體成本自然下降的循環(huán)形成之后,可以加速推動(dòng)產(chǎn)業(yè)從傳統(tǒng)數(shù)據(jù)中心轉(zhuǎn)向新型節(jié)能的數(shù)據(jù)中心。”劉宏程進(jìn)一步表示。
數(shù)據(jù)中心的能耗從來(lái)都是挑戰(zhàn)。信通院2022年發(fā)布的數(shù)據(jù)顯示,2021年底到2022年,全國(guó)已有近520萬(wàn)個(gè)數(shù)據(jù)中心的基架進(jìn)入部署,且過(guò)去五年的年均復(fù)合增長(zhǎng)率達(dá)到30%。同時(shí),全國(guó)數(shù)據(jù)中心的用電量已經(jīng)達(dá)到了全國(guó)用電的2.6%,而且這個(gè)比例預(yù)估還會(huì)繼續(xù)增長(zhǎng)。
面對(duì)能源的挑戰(zhàn),政府指導(dǎo)單位也推出了一系列宏觀政策指導(dǎo)行業(yè)的發(fā)展,包括三個(gè)重點(diǎn)方向:規(guī)劃、能效、利用率。2022年6月工信部等六部門發(fā)布《工業(yè)能效提升行動(dòng)計(jì)劃》中明確規(guī)定,到2025年,新建大型、超大型數(shù)據(jù)中心PUE優(yōu)于1.3。
PUE(Power Usage Effectiveness)是用于衡量IDC能源效率的指標(biāo),是用IDC總能耗除以IT設(shè)備能耗得來(lái)。
數(shù)據(jù)中心不同的散熱技術(shù)直接影響PUE,采用風(fēng)冷散熱的數(shù)據(jù)中心PUE能到1.4-1.5,如果使用液冷散熱,PUE可以做到近1.1。
破解液冷技術(shù)大規(guī)模應(yīng)用的成本和標(biāo)準(zhǔn)挑戰(zhàn)
“整體而言,我們主要從三個(gè)部分探索數(shù)據(jù)中心的綠色低碳:第一部分,處理器產(chǎn)品;第二部分,服務(wù)器整體設(shè)計(jì);第三部分,軟件與工具?!标愝崃⒅赋?。
要從處理器層級(jí)解決液冷的挑戰(zhàn),主要是技術(shù)挑戰(zhàn),對(duì)于強(qiáng)調(diào)創(chuàng)新的英特爾難度可控。今年1月發(fā)布的第四代英特爾至強(qiáng)可擴(kuò)展處理器,在深層環(huán)節(jié)已經(jīng)使用了90%的可再生電力。
服務(wù)器層面的挑戰(zhàn)就有技術(shù)和成本的挑戰(zhàn)。
“假設(shè)管道或液體突然泄漏,整個(gè)電子器件如果說(shuō)有損耗怎么辦?這需要大量的驗(yàn)證,這是為什么我們和很多業(yè)內(nèi)領(lǐng)先伙伴,如寧暢、新華三,一起做了非常多的試驗(yàn)。其實(shí)很多廠家也都提供了各種不同的方案,但是我們需要大規(guī)模驗(yàn)證去證明這些應(yīng)用在液冷中的液體可以真正的安全的使用,并且不影響整個(gè)作業(yè)和服務(wù)。”陳葆立表示。
技術(shù)的問(wèn)題相對(duì)容易解決。劉宏程就提到,在最新的服務(wù)器里面,英特爾創(chuàng)新地推出英特爾電源匯流排技術(shù)(Power Corridor),通過(guò)限流板的方式,針對(duì)CPU底座進(jìn)行設(shè)計(jì),可以降低整個(gè)部件級(jí)的能耗。
相比之下,成本的挑戰(zhàn)更加巨大。使用液冷可能會(huì)帶來(lái)10-20%的成本增加。
“許多冷板產(chǎn)品各個(gè)廠商都可以支持,但標(biāo)準(zhǔn)不統(tǒng)一,甚至快插的接口大小、尺寸都不一樣。無(wú)論是從成本還是通用性角度,沒(méi)有統(tǒng)一規(guī)范,對(duì)于客戶是一件非常困擾的事情。因?yàn)槊考曳?wù)器廠商的產(chǎn)品不同,有可能到了客戶的機(jī)房甚至都無(wú)法使用?!鼻貢詫幈硎?。
而推動(dòng)成本降低的關(guān)鍵是標(biāo)準(zhǔn)。英特爾攜手20余位生態(tài)伙伴經(jīng)過(guò)過(guò)去半年的努力,共同編纂的冷板液冷團(tuán)體標(biāo)準(zhǔn)已于今年3月15日正式發(fā)布,英特爾希望通過(guò)標(biāo)準(zhǔn)化降低產(chǎn)業(yè)與技術(shù)門檻,推動(dòng)冷板液冷技術(shù)的普及化,讓所有的用戶能夠更普惠的使用到這項(xiàng)最新技術(shù)。
雷峰網(wǎng)了解到,目前冷板的成本逐步下降,因?yàn)樵S多成本與量相關(guān),冷板標(biāo)準(zhǔn)統(tǒng)一后,產(chǎn)量提升會(huì)帶來(lái)成本的下降。
“浸沒(méi)式液冷是一項(xiàng)難度系數(shù)更高的技術(shù),我們也在研發(fā)上做出了一系列投入,目前英特爾正與國(guó)內(nèi)領(lǐng)先伙伴就此進(jìn)行聯(lián)合研發(fā),我們希望能在今年下半年把相關(guān)經(jīng)驗(yàn)與設(shè)計(jì)規(guī)格通過(guò)白皮書(shū)分享給業(yè)界伙伴,加速浸沒(méi)式液冷解決方案落地。”陳葆立透露。
莊秉翰指出,“通過(guò)這些標(biāo)準(zhǔn)可以增大整個(gè)市場(chǎng)產(chǎn)業(yè)化進(jìn)程,加速產(chǎn)業(yè)化可以降低成本,降低成本之后才能讓基于液冷的數(shù)據(jù)中心更加普及?!?/p>
“如果沒(méi)有形成規(guī)模,定制化的成本相對(duì)較高。”劉宏程認(rèn)為,“由英特爾帶動(dòng)把液冷所有標(biāo)準(zhǔn)建立之后,產(chǎn)業(yè)鏈所有的供應(yīng)商將用統(tǒng)一標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)互連、互操作,這能夠極大降低采購(gòu)成本以及在未來(lái)數(shù)據(jù)中心的運(yùn)維成本,讓整體液冷技術(shù)在數(shù)據(jù)中心更容易落地?!?/p>
目前,國(guó)內(nèi)幾個(gè)服務(wù)器使用的頭部行業(yè),如互聯(lián)網(wǎng)、運(yùn)營(yíng)商、金融行業(yè)等,對(duì)液冷都已經(jīng)跳過(guò)了POC階段,進(jìn)入到了規(guī)模化采用的狀態(tài)。
仍需強(qiáng)調(diào)的一點(diǎn)是,液冷會(huì)在數(shù)據(jù)中心大規(guī)模應(yīng)用,但并非所有數(shù)據(jù)中心都一定要用液冷。
“未來(lái)新的至強(qiáng)處理器可能會(huì)升級(jí)到擁有100個(gè)能效核,CPU的電源功率可能還是300W或350W。所以理論上來(lái)看,它在風(fēng)冷上也可以應(yīng)用?!标愝崃⒅赋觥?/p>
對(duì)于存量的數(shù)據(jù)中心市場(chǎng),同樣也有提升能源效率的方式。
“近期我們把綠色數(shù)據(jù)中心技術(shù)框架升級(jí)到2.0版本,擁有高能效與高功率密度、先進(jìn)散熱技術(shù)、基礎(chǔ)設(shè)施智能化和材料&可循環(huán)設(shè)計(jì)四個(gè)垂直領(lǐng)域,以及XPU、服務(wù)器、機(jī)架、數(shù)據(jù)中心四個(gè)水平方向的共13種關(guān)于節(jié)能減碳的方案?!标愝崃⒈硎?,“英特爾智慧節(jié)能解決方案基于模塊化的軟件設(shè)計(jì)理念,可通過(guò)軟件和AI模型進(jìn)行預(yù)測(cè)和干預(yù),進(jìn)而提升整體運(yùn)行能效?!?/p>
據(jù)悉,英特爾和一家運(yùn)營(yíng)商在20個(gè)省的總共420多個(gè)機(jī)房里,通過(guò)智能節(jié)能方案把存量數(shù)據(jù)中心的PUE從1.49降到1.38,獲得了可觀的成本節(jié)省。
正如英特爾公司首席執(zhí)行官帕特·基辛格在2023英特爾可持續(xù)發(fā)展高峰論壇上所說(shuō),“科技是實(shí)現(xiàn)綠色經(jīng)濟(jì)的唯一途徑,但我們?cè)诎l(fā)展數(shù)字技術(shù)的過(guò)程中也消耗著更多的能源。因此,我們的責(zé)任與機(jī)會(huì)并存,共同創(chuàng)造一個(gè)可持續(xù)計(jì)算的未來(lái),責(zé)無(wú)旁貸?!?span style="color: #FFFFFF;">雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。