0
本文作者: 包永剛 | 2023-04-21 14:56 |
當AI寫論文,做旅行攻略,作畫,寫詩能夠媲美甚至超越普通人水平時,有人興奮不已,也有人憂心忡忡。
普通人對于生成式AI可能帶來的變化態(tài)度各有不同,但推動這一技術(shù)發(fā)展的研究人員和企業(yè)都有一個共同關(guān)注的問題——大模型所需的大算力需求帶來的能耗問題如何解決?
以火爆全球的OpenAI公司的ChatGPT為例,兩年前,微軟為了滿足OpenAI的GPT-3模型訓練的算力需求,專門推出的超級計算機擁有28.5萬個CPU核心、1萬個 GPU。
巨量的CPU和GPU帶來的是高昂的芯片采購和運營成本。
國盛證券報告估算,GPT-3訓練一次的成本約為140 萬美元。要用ChatGPT服務(wù)用戶,以2023年1月的獨立訪客平均數(shù)1300萬計算,每日電費在5萬美元左右。
數(shù)據(jù)中心的能耗問題成了再一次擺在了云計算提供商面前的挑戰(zhàn)。為了解決這一問題,無論是微軟Azure、阿里云都早已讓數(shù)據(jù)中心的服務(wù)器用“泡澡”的方式來散熱,提升IDC的能源效率。
“我認為ChatGPT會加速液冷的發(fā)展,目前液冷幾乎已經(jīng)成為一個潮流。”英特爾市場營銷集團副總裁、中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理兼中國區(qū)運營商銷售總經(jīng)理莊秉翰在本周舉行的2023英特爾可持續(xù)發(fā)展高峰論壇期間表示。
ChatGPT助推,服務(wù)器「泡澡」要成主流
服務(wù)器“泡澡”是一種比喻,實際上代表的是服務(wù)器散熱液冷技術(shù)中的浸沒方式,液冷技術(shù)包含了冷板、噴淋、浸沒式,并非一個特別新的技術(shù),但業(yè)界的使用率并不高。
“主要原因是國內(nèi)許多冷板液冷設(shè)計缺乏一個規(guī)范的驗證標準,使得每個廠家設(shè)計都有差異,這使系統(tǒng)設(shè)計成本、驗證成本比較高,因此對于最終用戶而言這個方案就比較貴。”英特爾數(shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立認為。
技術(shù)和標準之外,應(yīng)用也是液冷技術(shù)沒有大規(guī)模部署的原因。
“高性能應(yīng)用環(huán)節(jié)可能才需要液冷,但是大量的應(yīng)用并不是那么高功耗的應(yīng)用,而且在國家也提出‘雙碳’戰(zhàn)略之前,緊迫性和必要性沒有那么高。”寧暢總裁秦曉寧說,“現(xiàn)在的情況不一樣,CPU的功耗可能高達270W、300W,未來可能350W,GPU現(xiàn)在都400W、500W了,可能就必須應(yīng)用液冷技術(shù)?!?/p>
更進一步,算力規(guī)模也是影響液冷技術(shù)大規(guī)模應(yīng)用的關(guān)鍵。
“包括ChatGPT在內(nèi)的應(yīng)用帶來的算力快速發(fā)展,是促使大多數(shù)客戶快速從風冷技術(shù)轉(zhuǎn)向更節(jié)能的液冷技術(shù)的重要原因?!毙氯A三集團計算存儲產(chǎn)品線副總裁劉宏程認為,“這不僅是可以節(jié)能多少的問題,還有空間浪費的問題。存量的數(shù)據(jù)中心當中無法容納新的能耗過高的設(shè)備。比如GPU服務(wù)器會導致空間的占用,以及提高數(shù)據(jù)中心的管理和運營費用。這促使更多中國客戶在快速考量更新數(shù)據(jù)中心整體設(shè)計時,轉(zhuǎn)向更節(jié)能、更先進的液冷數(shù)據(jù)中心的方式來解決能耗和平衡的問題?!?/p>
“當用戶需求激增→標準建立→規(guī)模效應(yīng)體現(xiàn)→整體成本自然下降的循環(huán)形成之后,可以加速推動產(chǎn)業(yè)從傳統(tǒng)數(shù)據(jù)中心轉(zhuǎn)向新型節(jié)能的數(shù)據(jù)中心。”劉宏程進一步表示。
數(shù)據(jù)中心的能耗從來都是挑戰(zhàn)。信通院2022年發(fā)布的數(shù)據(jù)顯示,2021年底到2022年,全國已有近520萬個數(shù)據(jù)中心的基架進入部署,且過去五年的年均復合增長率達到30%。同時,全國數(shù)據(jù)中心的用電量已經(jīng)達到了全國用電的2.6%,而且這個比例預估還會繼續(xù)增長。
面對能源的挑戰(zhàn),政府指導單位也推出了一系列宏觀政策指導行業(yè)的發(fā)展,包括三個重點方向:規(guī)劃、能效、利用率。2022年6月工信部等六部門發(fā)布《工業(yè)能效提升行動計劃》中明確規(guī)定,到2025年,新建大型、超大型數(shù)據(jù)中心PUE優(yōu)于1.3。
PUE(Power Usage Effectiveness)是用于衡量IDC能源效率的指標,是用IDC總能耗除以IT設(shè)備能耗得來。
數(shù)據(jù)中心不同的散熱技術(shù)直接影響PUE,采用風冷散熱的數(shù)據(jù)中心PUE能到1.4-1.5,如果使用液冷散熱,PUE可以做到近1.1。
破解液冷技術(shù)大規(guī)模應(yīng)用的成本和標準挑戰(zhàn)
“整體而言,我們主要從三個部分探索數(shù)據(jù)中心的綠色低碳:第一部分,處理器產(chǎn)品;第二部分,服務(wù)器整體設(shè)計;第三部分,軟件與工具?!标愝崃⒅赋觥?/p>
要從處理器層級解決液冷的挑戰(zhàn),主要是技術(shù)挑戰(zhàn),對于強調(diào)創(chuàng)新的英特爾難度可控。今年1月發(fā)布的第四代英特爾至強可擴展處理器,在深層環(huán)節(jié)已經(jīng)使用了90%的可再生電力。
服務(wù)器層面的挑戰(zhàn)就有技術(shù)和成本的挑戰(zhàn)。
“假設(shè)管道或液體突然泄漏,整個電子器件如果說有損耗怎么辦?這需要大量的驗證,這是為什么我們和很多業(yè)內(nèi)領(lǐng)先伙伴,如寧暢、新華三,一起做了非常多的試驗。其實很多廠家也都提供了各種不同的方案,但是我們需要大規(guī)模驗證去證明這些應(yīng)用在液冷中的液體可以真正的安全的使用,并且不影響整個作業(yè)和服務(wù)?!标愝崃⒈硎?。
技術(shù)的問題相對容易解決。劉宏程就提到,在最新的服務(wù)器里面,英特爾創(chuàng)新地推出英特爾電源匯流排技術(shù)(Power Corridor),通過限流板的方式,針對CPU底座進行設(shè)計,可以降低整個部件級的能耗。
相比之下,成本的挑戰(zhàn)更加巨大。使用液冷可能會帶來10-20%的成本增加。
“許多冷板產(chǎn)品各個廠商都可以支持,但標準不統(tǒng)一,甚至快插的接口大小、尺寸都不一樣。無論是從成本還是通用性角度,沒有統(tǒng)一規(guī)范,對于客戶是一件非常困擾的事情。因為每家服務(wù)器廠商的產(chǎn)品不同,有可能到了客戶的機房甚至都無法使用?!鼻貢詫幈硎?。
而推動成本降低的關(guān)鍵是標準。英特爾攜手20余位生態(tài)伙伴經(jīng)過過去半年的努力,共同編纂的冷板液冷團體標準已于今年3月15日正式發(fā)布,英特爾希望通過標準化降低產(chǎn)業(yè)與技術(shù)門檻,推動冷板液冷技術(shù)的普及化,讓所有的用戶能夠更普惠的使用到這項最新技術(shù)。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解到,目前冷板的成本逐步下降,因為許多成本與量相關(guān),冷板標準統(tǒng)一后,產(chǎn)量提升會帶來成本的下降。
“浸沒式液冷是一項難度系數(shù)更高的技術(shù),我們也在研發(fā)上做出了一系列投入,目前英特爾正與國內(nèi)領(lǐng)先伙伴就此進行聯(lián)合研發(fā),我們希望能在今年下半年把相關(guān)經(jīng)驗與設(shè)計規(guī)格通過白皮書分享給業(yè)界伙伴,加速浸沒式液冷解決方案落地。”陳葆立透露。
莊秉翰指出,“通過這些標準可以增大整個市場產(chǎn)業(yè)化進程,加速產(chǎn)業(yè)化可以降低成本,降低成本之后才能讓基于液冷的數(shù)據(jù)中心更加普及。”
“如果沒有形成規(guī)模,定制化的成本相對較高。”劉宏程認為,“由英特爾帶動把液冷所有標準建立之后,產(chǎn)業(yè)鏈所有的供應(yīng)商將用統(tǒng)一標準來實現(xiàn)互連、互操作,這能夠極大降低采購成本以及在未來數(shù)據(jù)中心的運維成本,讓整體液冷技術(shù)在數(shù)據(jù)中心更容易落地?!?/p>
目前,國內(nèi)幾個服務(wù)器使用的頭部行業(yè),如互聯(lián)網(wǎng)、運營商、金融行業(yè)等,對液冷都已經(jīng)跳過了POC階段,進入到了規(guī)?;捎玫臓顟B(tài)。
仍需強調(diào)的一點是,液冷會在數(shù)據(jù)中心大規(guī)模應(yīng)用,但并非所有數(shù)據(jù)中心都一定要用液冷。
“未來新的至強處理器可能會升級到擁有100個能效核,CPU的電源功率可能還是300W或350W。所以理論上來看,它在風冷上也可以應(yīng)用?!标愝崃⒅赋?。
對于存量的數(shù)據(jù)中心市場,同樣也有提升能源效率的方式。
“近期我們把綠色數(shù)據(jù)中心技術(shù)框架升級到2.0版本,擁有高能效與高功率密度、先進散熱技術(shù)、基礎(chǔ)設(shè)施智能化和材料&可循環(huán)設(shè)計四個垂直領(lǐng)域,以及XPU、服務(wù)器、機架、數(shù)據(jù)中心四個水平方向的共13種關(guān)于節(jié)能減碳的方案?!标愝崃⒈硎?,“英特爾智慧節(jié)能解決方案基于模塊化的軟件設(shè)計理念,可通過軟件和AI模型進行預測和干預,進而提升整體運行能效?!?/p>
據(jù)悉,英特爾和一家運營商在20個省的總共420多個機房里,通過智能節(jié)能方案把存量數(shù)據(jù)中心的PUE從1.49降到1.38,獲得了可觀的成本節(jié)省。
正如英特爾公司首席執(zhí)行官帕特·基辛格在2023英特爾可持續(xù)發(fā)展高峰論壇上所說,“科技是實現(xiàn)綠色經(jīng)濟的唯一途徑,但我們在發(fā)展數(shù)字技術(shù)的過程中也消耗著更多的能源。因此,我們的責任與機會并存,共同創(chuàng)造一個可持續(xù)計算的未來,責無旁貸?!?span style="color: #FFFFFF;">雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。