0
本文作者: 朱可軒 | 2024-09-27 10:50 |
9 月 24 日至 26 日,第20屆CCF全國高性能計(jì)算學(xué)術(shù)年會(huì)(CCF HPC China 2024)在武漢市中國光谷科技會(huì)展中心正式開幕。
本次大會(huì)上,聯(lián)想以“異構(gòu)智算 穩(wěn)定高效”為主題,攜“一橫五縱”算力基礎(chǔ)設(shè)施戰(zhàn)略、聯(lián)想萬全異構(gòu)智算平臺(tái)、聯(lián)想AI解決方案、聯(lián)想科學(xué)計(jì)算整體解決方案參展。
面對(duì)人工智能的浪潮,作為全球領(lǐng)先的科學(xué)計(jì)算解決方案提供商,聯(lián)想以“一橫五縱”戰(zhàn)略框架,構(gòu)建布局完整、穩(wěn)定高效的AI基礎(chǔ)設(shè)施,為企業(yè)智能化轉(zhuǎn)型打造堅(jiān)實(shí)可靠的智算底座。
在 24 日下午的大會(huì)論壇上,聯(lián)想中國基礎(chǔ)設(shè)施業(yè)務(wù)群戰(zhàn)略管理總監(jiān)黃山發(fā)表了主題為“筑基新質(zhì)算力 縱橫數(shù)字未來”的精彩演講。
聯(lián)想中國基礎(chǔ)設(shè)施業(yè)務(wù)群戰(zhàn)略管理總監(jiān) 黃山
演講過程中,黃山主要圍繞當(dāng)前國產(chǎn)算力的瓶頸和破局之道展開分享。在他看來,“超智融合”已然成為 HPC 新的發(fā)展趨勢,而聯(lián)想在萬全異構(gòu)智算平臺(tái)上的布局正是基于團(tuán)隊(duì)內(nèi)部對(duì)于這一趨勢的深刻洞察。
洞察算力新趨勢,聯(lián)想布局異構(gòu)智算
當(dāng)前,國內(nèi)的算力集群已經(jīng)有了不少千卡、萬卡級(jí)別的實(shí)踐,但要實(shí)現(xiàn)十萬卡,甚至超萬卡的突破仍舊有一定難度。
國產(chǎn)算力究竟有著怎樣待解的難題?在黃山看來,主要有四個(gè)關(guān)鍵“卡脖子”的問題:
首先,多元異構(gòu)處理器以及服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施的硬件兼容性、互操作性設(shè)計(jì)是一項(xiàng)復(fù)雜的大工程;其次,AI訓(xùn)練集群故障頻發(fā)是常態(tài)。一個(gè)千卡集群一個(gè)月至少有15次因故障停訓(xùn),故障診斷與恢復(fù)是AI訓(xùn)練算力達(dá)成SLA的關(guān)鍵難題。
再次,可用算力的效率還不夠高,算力的投入產(chǎn)出不足以持續(xù)支持算力經(jīng)濟(jì)長期健康發(fā)展。最后,由于技術(shù)限制難以突破的散熱瓶頸。智算算力發(fā)展需要液冷技術(shù)與方案設(shè)計(jì)的持續(xù)升級(jí)。
在今年的 CCF HPC 中,“超智融合”這一關(guān)鍵詞被一眾大咖反復(fù)提及,已然成為解決國內(nèi)計(jì)算瓶頸的重要路徑之一。這一趨勢的出現(xiàn),也標(biāo)志著 HPC 由傳統(tǒng)通用計(jì)算主導(dǎo)的科學(xué)計(jì)算,逐步過渡到了異構(gòu)加速的 AI 計(jì)算新時(shí)代。
今年 4 月,聯(lián)想正式發(fā)布的萬全異構(gòu)智算平臺(tái)便是基于前述洞察做出的應(yīng)對(duì)方案,是實(shí)現(xiàn)“算力好用”的破局關(guān)鍵。同時(shí),也是聯(lián)想“一橫五縱”戰(zhàn)略中的重要“一橫”,此外,“五縱”則主要指服務(wù)器、存儲(chǔ)、軟件及超融合、數(shù)據(jù)網(wǎng)絡(luò)以及邊緣基礎(chǔ)設(shè)施產(chǎn)品和方案。
據(jù)聯(lián)想方面介紹,萬全異構(gòu)智算平臺(tái)集成了算力匹配魔方、GPU內(nèi)核態(tài)虛擬化、聯(lián)想集合通信算法庫、AI高效斷點(diǎn)續(xù)訓(xùn)技術(shù)、AI與HPC異構(gòu)集群超級(jí)調(diào)度器五大創(chuàng)新技術(shù),能高度自動(dòng)化地完成AI全流程開發(fā),提供高可用算力,并持續(xù)突破計(jì)算效率瓶頸。
會(huì)后,在接受 AI 科技評(píng)論專訪時(shí),黃山進(jìn)一步介紹道,“我們的平臺(tái)是一個(gè)異構(gòu)智算調(diào)度軟件,不同于普通或者說標(biāo)準(zhǔn)化的操作系統(tǒng)軟件,或者虛擬化軟件。這樣的新賽道是由智算的發(fā)展催生的,目前賽道內(nèi)還沒有成熟標(biāo)準(zhǔn),聯(lián)想也沒有一個(gè)有章可循的開發(fā)計(jì)劃,主要是以客戶的需求作為根本,最開始的開發(fā)就是有大項(xiàng)目在提出需求?!?/p>
在整個(gè)開發(fā)過程中,他體會(huì)最深的一點(diǎn)則在于,“在這個(gè)過程中,需求的變化非常之快,模型客戶的應(yīng)用變化也很快,軟件棧的復(fù)雜度也非常高,又沒有標(biāo)準(zhǔn)群,有可能上個(gè)月很好的開發(fā)和設(shè)計(jì)方式,下個(gè)月根據(jù)實(shí)際的場景又需要再進(jìn)行優(yōu)化?!?/p>
國產(chǎn) GPU 算力將迎階躍式提升
聯(lián)想在破解算力難題,打造異構(gòu)智算平臺(tái)的過程中也遇到過許多難題,在此之中,生態(tài)的力量則成為了破局過程中不可或缺的存在,聯(lián)想借此也將迎來新的進(jìn)展。
今年 4 月,聯(lián)想在信通院的領(lǐng)導(dǎo)下成立了萬全異構(gòu)智算平臺(tái)生態(tài)產(chǎn)業(yè)聯(lián)盟,據(jù)悉,異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟首批共計(jì)16家成員單位。其中包括了與聯(lián)想有實(shí)際方案合作的 7 家國產(chǎn) GPU 廠商。除此之外,還有包括Colossal-AI、智譜 AI 等在內(nèi)的合作伙伴。
談及與后者的合作,黃山進(jìn)一步解釋稱,“我們向上看到 AI 的工具鏈并行算法,包括 AI 的開發(fā)社區(qū)都需要完善,整個(gè)的算法利用率是需要從芯片到模型層來解決的。”
聯(lián)想在整個(gè)生態(tài)中主要扮演著怎樣的角色呢?據(jù)黃山此前介紹,“聯(lián)想主要貢獻(xiàn)硬件能力和異構(gòu)智算平臺(tái)的集群管理調(diào)度能力。然后是對(duì)算力生態(tài)的包容,即硬件會(huì)兼容xPU生態(tài)硬件,異構(gòu)智算平臺(tái)會(huì)集成xPU底層軟件。再就是以extended UI的方式對(duì)接集成AI工具鏈生態(tài)?!?/p>
值得一提的是,在黃山的預(yù)判中,國內(nèi) GPU 算力即將迎來一波階躍式升級(jí)。
在和生態(tài)伙伴合作的過程中,他觀察發(fā)現(xiàn),“國內(nèi)卡的生態(tài)已經(jīng)非常豐富,在禁運(yùn)后的一年多里,我們的合作伙伴中有至少 5 家到 7 家國產(chǎn)卡已經(jīng)或是即將在半年內(nèi)推出,這些卡組成萬卡集群也是能支撐國內(nèi)大模型持續(xù)發(fā)展的?!?/p>
他進(jìn)一步向 AI 科技評(píng)論介紹道,“目前,7家芯片廠商在市場上各自有應(yīng)用的對(duì)象,而且他們是互補(bǔ)的,很多都不沖突,要用好國產(chǎn)算力,其實(shí) 7 家都需要,甚至還有可能將來會(huì)涌現(xiàn)出更多,那么就需要先去把這些芯片做好管理和兼容,這一點(diǎn)是聯(lián)想已經(jīng)做到的?!?span style="color: #FFFFFF;">雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。