丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

萬卡集群,進入AI核心圈的入場券

本文作者: 包永剛 2024-07-08 18:13
導(dǎo)語:今年開始,萬卡以上的智算中心才有價值。

OpenAI的單點集群大概5萬張卡,谷歌2.6萬張卡,Meta2.45萬張卡。

萬卡集群,進入AI核心圈的入場券

頂級的AI公司已經(jīng)為這場“暴力美學(xué)”的競賽,設(shè)定了單點集群萬卡的門檻。

華為昇騰AI集群規(guī)模在去年7月已經(jīng)擴展至16000卡。去年10月科大訊飛啟動萬卡集群算力平臺“飛星一號”。

今年3月,天翼云上海臨港國產(chǎn)萬卡算力池啟用。4月,中國移動宣布今年將商用3個自主可控萬卡集群。

摩爾線程創(chuàng)始人兼CEO張建中在2024世界人工智能大會(WAIC)前夕的摩爾線程AI DAY 暨萬卡智算集群解決方案發(fā)布會上表示,“AI主戰(zhàn)場,萬卡是最低標(biāo)配?!?/strong>

可實現(xiàn)萬卡集群至少面臨6個層面的挑戰(zhàn),國內(nèi)公司如何實現(xiàn)國產(chǎn)算力的萬卡智算集群? 

AI主戰(zhàn)場,萬卡是標(biāo)配

最近兩年火爆的生成式AI,被許多人稱為“暴力美學(xué)”。

也就是在數(shù)據(jù)量足夠大、模型參數(shù)數(shù)量大到一定程度,模型的精度、準(zhǔn)確度會出現(xiàn)智能涌現(xiàn)會,突破傳統(tǒng)大模型的準(zhǔn)確度。

比如,在自然語言理解場景,當(dāng)算力參數(shù)量和數(shù)據(jù)量綜合算力達(dá)到10的23次方時,準(zhǔn)確度有極大的飛躍。

萬卡集群,進入AI核心圈的入場券

這個規(guī)律被稱作Scaling Law。與Scaling Law相伴的是對算力的指數(shù)級增長。

比如訓(xùn)練GPT4,大概需要1千張H100的算力,而如果使用A100則需要3萬張。

“GPT5需要的算力是10萬卡。”張建中認(rèn)為。

這是基于假設(shè)Scaling Law按照線性比例成長,估算參數(shù)、數(shù)據(jù)量和算力之間的關(guān)系。

從GTP3到GPT4,模型的參數(shù)從百億到萬億,100倍的參數(shù)增長,數(shù)據(jù)量也從幾TB到幾十TB,是10倍的提升,兩者一乘,整個算力的需求就是1000倍的提升。

滿足Scaling Law的唯一辦法就是建立一個單點超大規(guī)模算力集群。

“只有這樣,才可以把這個大模型在一個地方,一個網(wǎng)絡(luò),單節(jié)點之內(nèi)把它訓(xùn)練完成?!睆埥ㄖ兄赋?。

假設(shè)訓(xùn)練一個5000億參數(shù)的模型,15TB的數(shù)據(jù),如果使用1000P的集群,三年都訓(xùn)練不完。如果要在一個月內(nèi),甚至1-2周內(nèi)訓(xùn)練完5000億參數(shù)的模型,至少要1萬P的算力集群。

萬卡集群,進入AI核心圈的入場券

“從今年開始,所有智算中心萬卡是最低標(biāo)配,萬卡以上的智算中心才有價值?!睆埥ㄖ姓J(rèn)為。

Scaling Law持續(xù)奏效的同時,還不能忽視算法和架構(gòu)的演進。

目前,Transformer架構(gòu)雖然是主流,但新興架構(gòu)如Mamba、RWKV和RetNet等不斷刷新計算效率,加快創(chuàng)新速度。

“有公司專門為Transformer架構(gòu)做加速計算,這個創(chuàng)意很好,但如果很容易實現(xiàn)一定會被融合到GPU當(dāng)中,成為GPU當(dāng)中的Transformer引擎。我們相信未來還會出現(xiàn)各種架構(gòu)的變種,要支持不停出現(xiàn)的新框架,只有一個辦法,就是通用且能持續(xù)發(fā)展的計算平臺。”張建中表示。

那就應(yīng)該建設(shè)一個萬卡規(guī)模加上通用可擴展的智算中心,這面臨眾多挑戰(zhàn)。 

萬卡智算中心的6大難題

有統(tǒng)計數(shù)據(jù),2024年國內(nèi)有上百個在建的智算中心。這是一項超高額的投入,建設(shè)幾萬P的智算中心成本高達(dá)幾十億,更大算力規(guī)模則需投資上百億。

“連市場客戶都沒有就盲目建設(shè)智算中心肯定不對,不是所有人都應(yīng)該去建算力中心,應(yīng)該由專業(yè)的人干專業(yè)的事。”張建中進一步表示,“智算中心是否好用,能否通用,能不能穩(wěn)定運行,有沒有能力運營都是建設(shè)智算中心需要考慮的事情?!?/p>

很多客戶喜歡喜歡DIY,但張建中建議不要太多DIY,而是采用整體解決方案,這樣集群買回去之后馬上就可以用起來,能夠避免風(fēng)險。

特別是從千卡到萬卡集群,不是簡單的堆疊,復(fù)雜度指數(shù)級增加,國產(chǎn)千卡/萬卡超級系統(tǒng)工程面臨著6大難題:包括超大規(guī)模組網(wǎng)互聯(lián)、集群有效計算效率、訓(xùn)練高穩(wěn)定性與可用性、故障快速定位與可診斷工具、生態(tài)Day0級快速遷移、未來場景通用計算。

萬卡集群,進入AI核心圈的入場券

“可以把萬卡想象成一個萬人團隊,需要有非常強的溝通機制,才能協(xié)同的把一件事情完成?!蹦柧€程CTO張鈺勃說,“對于萬卡集群,僅靠單卡算力還不夠,提供匹配單卡算力的通訊也至關(guān)重要。”

卡間互聯(lián)和交換機是關(guān)鍵。雷峰網(wǎng)了解到,摩爾線程千/萬卡集群的卡間互聯(lián)是自研的MTLink,和NVLink作用相同,目前已經(jīng)演進到MTLink2.0版本。

“我們還沒有交換機芯片,是用行業(yè)里的交換機芯片去搭建我們的集群。”張建中透露,“后期我們會自主研發(fā),或者是和行業(yè)合作伙伴一起研發(fā)下一代大規(guī)模的交換機?!?/p>

互聯(lián)之外的另一個難題是穩(wěn)定性。

“集群規(guī)模越大越不穩(wěn)定。”張建中對雷峰網(wǎng)(公眾號:雷峰網(wǎng))表示,“千卡集群故障率可能做到0.1%就可以,萬卡集群要提升到0.01%甚至是0.001%,這對硬件設(shè)計和生產(chǎn)制造都是很大的挑戰(zhàn)。摩爾線程投入了很多,確保架構(gòu)本身的穩(wěn)定性,以及讓芯片的平均無故障時間更長。”

散熱也是提升萬卡集群穩(wěn)定性的關(guān)鍵,千卡集群還可以考風(fēng)冷解決,萬卡就需要液冷保證集群的穩(wěn)定運行。

“還需要不同的容錯機制,在出問題的時候硬件自動恢復(fù),而不是靠軟件?!睆埥ㄖ斜硎?。

為此,摩爾線程推出了智算中心全棧解決方案夸娥(KUAE),以全功能GPU為底座,構(gòu)建了夸娥計算集群為核心的基礎(chǔ)設(shè)施、夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務(wù)平臺(KUAE ModelStudio)的一體化交付的解決方案。

萬卡集群,進入AI核心圈的入場券

夸娥智算集群也可以實現(xiàn)從千卡至萬卡集群的無縫擴展。

夸娥國產(chǎn)萬卡萬P智算集群的差異化優(yōu)勢

全新一代夸娥智算集群實現(xiàn)單集群規(guī)模超萬卡,浮點運算能力達(dá)到10Exa-Flops,大幅提升單集群計算性能,能夠為萬億參數(shù)級別大模型訓(xùn)練提供堅實算力基礎(chǔ)。

萬卡集群,進入AI核心圈的入場券

同時,夸娥萬卡集群達(dá)到PB級的超大顯存總?cè)萘?、每秒PB級的超高速卡間互聯(lián)總帶寬和每秒PB級超高速節(jié)點互聯(lián)總帶寬,實現(xiàn)算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化。

算力利用率(MFU)方面,千卡夸娥集群MFU有50%多,萬卡夸娥集群的MFU目標(biāo)是60%。

穩(wěn)定性層面,摩爾線程夸娥萬卡集群平均無故障運行時間超過15天,最長可實現(xiàn)大模型穩(wěn)定訓(xùn)練30天以上,周均訓(xùn)練有效率在99%以上。

月級長穩(wěn)訓(xùn)練遠(yuǎn)超行業(yè)平均水平,得益于摩爾線程自主研發(fā)的一系列可預(yù)測、可診斷的多級可靠機制,包括軟硬件故障的自動定位與診斷預(yù)測實現(xiàn)分鐘級的故障定位,Checkpoint多級存儲機制實現(xiàn)內(nèi)存秒級存儲和訓(xùn)練任務(wù)分鐘級恢復(fù)以及高容錯高效能的萬卡集群管理平臺實現(xiàn)秒級納管分配與作業(yè)調(diào)度。

夸娥智算集群還有一個對所有用戶來說非常友好的特性——CUDA兼容。

“我們的產(chǎn)品跟國內(nèi)外主流生態(tài)在兼容性方面做的很好,開發(fā)者移植到夸娥集群幾乎不需要修改代碼,遷移成本接近0,可以在數(shù)小時之內(nèi)就完成遷移工作。”張鈺勃表示,“當(dāng)然用戶可能需要花數(shù)天的時間去調(diào)優(yōu)性能,但整體的遷移成本很低,并不需要幾周這么長的時間?!?/p>

在諸多的智算中心中,張建中認(rèn)為摩爾線程夸娥的差異化優(yōu)勢在于,是國內(nèi)唯一一家用全功能GPU實現(xiàn)通用加速計算的公司。

萬卡集群,進入AI核心圈的入場券

“摩爾線程有1000多人,我們花了4年時間,把GPU的圖形能力、編解碼能力、科學(xué)計算能力、人工智能訓(xùn)練推理能力都做了提升,我們希望能夠搭建首個中國本土通用型的萬卡集群。”張建中指出。

摩爾線程的GPU也幾乎適配了所有國產(chǎn)CPU,這也是夸娥智算集群的差異化所在。

“我們與國內(nèi)所有的CPU、操作系統(tǒng)一起打造了一個生態(tài)系統(tǒng),叫PES聯(lián)盟,形成一個本土化完整生態(tài)?!睆埥ㄖ姓f。

萬卡集群,進入AI核心圈的入場券

不少人都知道摩爾線程的GPU能做圖形渲染,卻忽視了基于摩爾線程全功能的GPU能夠?qū)崿F(xiàn)的AI功能。摩爾線程的夸娥千卡集群,已經(jīng)有包括無問芯穹、清程極智、360、京東云、智平方等合作伙伴。

在摩爾線程夸娥千卡集群上,360分別部署70億、700億參數(shù)大語言模型,全程軟硬件即插即用,工作有效訓(xùn)練時間占比100%;全程穩(wěn)定無軟硬件故障,集群有效訓(xùn)練時間占比100%。

京東基于摩爾線程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理測試,Chatglm2-6B推理測試,S4000的單卡推理性能是RTX 4090D性能的1.26倍,其他兩個模型,S4000性能均能達(dá)到RTX 4090D性能的90%左右。

夸娥萬卡集群,摩爾線程與中國移動通信集團青海有限公司、中國聯(lián)通青海公司、北京德道信科集團、中國能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司,分別就青海零碳產(chǎn)業(yè)園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目進行了戰(zhàn)略簽約。

接下來,夸娥萬卡智算集群就將考驗?zāi)柧€程能夠作為一家系統(tǒng)級公司,解決國內(nèi)AI算力緊缺的難題。

張建中要帶領(lǐng)摩爾線程做難而正確的事。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄