0
提到AI的落地你最先會(huì)想到什么?
有人想到了AI芯片的利用率以及底層硬件的調(diào)度;有人想到AI芯片的算力效益;還有人想到算力服務(wù)。
AI的落地,能夠?yàn)橹腔鄢鞘械慕ㄔO(shè),更精準(zhǔn)的天氣的預(yù)測(cè),構(gòu)建更安全的網(wǎng)絡(luò)環(huán)境等提供底層支撐。
但是,AI的落地依舊面對(duì)諸多的挑戰(zhàn)。比如,如何才能將AI用起來(lái)?如何才能漸進(jìn)式的實(shí)現(xiàn)AI的價(jià)值?如何基于AI發(fā)展算力經(jīng)濟(jì)?
這逐層漸進(jìn)的問(wèn)題,考驗(yàn)著所有提供AI技術(shù)以及想要使用AI技術(shù)的人。對(duì)于最底層的AI芯片的提供者,目前非常棘手的問(wèn)題之一就是軟件。
燧原科技創(chuàng)始人兼COO張亞林在2022世界人工智能大會(huì)上就表示:“根據(jù)過(guò)往落地實(shí)踐,我們發(fā)現(xiàn),AI數(shù)據(jù)中心因其軟件運(yùn)維復(fù)雜,普遍具有方案選型難、各廠商產(chǎn)品兼容未知等痛點(diǎn),而且數(shù)據(jù)中心部署交付周期長(zhǎng)、溝通成本高、項(xiàng)目管理周期長(zhǎng)。”
軟件問(wèn)題,特別是基于云端高性能AI推理和訓(xùn)練芯片的上層軟件和生態(tài),限制著眾多AI芯片創(chuàng)新者的發(fā)展。
燧原科技創(chuàng)始人、CEO趙立東認(rèn)為,“生態(tài)的壟斷是目前我們面臨的最大挑戰(zhàn),而生態(tài)壟斷的原因是緊耦合的軟件和硬件。因此,我們一定要?jiǎng)?chuàng)新。”
為了解決當(dāng)下云端AI芯片落地的挑戰(zhàn),不同的公司會(huì)從不同的維度突破軟件和生態(tài)的挑戰(zhàn)。
2022年9月3日,燧原科技在“算盡其用·定義AI算力中心新實(shí)踐”云端算力產(chǎn)業(yè)應(yīng)用論壇上給出了解決這一挑戰(zhàn)的答案——云燧智算機(jī)(CloudBlazer POD)。
云燧智算機(jī)是針對(duì)大規(guī)模、集約化人工智能算力應(yīng)用場(chǎng)景的高性能AI加速集群,有一站式預(yù)集成人工智能加速硬件、一體化開(kāi)發(fā)與管理平臺(tái)及配套人工智能應(yīng)用軟件與服務(wù),適用于數(shù)字政府、科研院所、科創(chuàng)平臺(tái)等。
簡(jiǎn)單來(lái)說(shuō),燧原科技在解決高性能云端AI芯片落地給出的一個(gè)解題思路就是“開(kāi)箱即用”。
何為開(kāi)箱即用?在交付方式上,云燧智算機(jī)提供包括采購(gòu)、安裝、運(yùn)維一體的交鑰匙方案。
能夠以這樣的方式交付,還是因?yàn)樵旗葜撬銠C(jī)采用一體化設(shè)計(jì)。
硬件的算力層面,基于燧原科技已經(jīng)發(fā)布的自研AI高性能芯片。在典型配置下,云燧智算機(jī)每單元可達(dá)到8PFLOPS的TF32浮點(diǎn)算力,并且支持按需橫向擴(kuò)容,可支持?jǐn)?shù)千卡規(guī)模集群,能夠?qū)崿F(xiàn)頂級(jí)超算的E級(jí)算力。
同時(shí),云燧智算機(jī)也集成了合作伙伴的CPU,提供充足的算力。但計(jì)算集群除了算力這個(gè)核心要素之外,網(wǎng)絡(luò)和存儲(chǔ)和非常關(guān)鍵。
張亞林介紹,“云燧智算機(jī)代表了燧原科技經(jīng)過(guò)多個(gè)大規(guī)模工程實(shí)踐所形成的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的整體設(shè)計(jì):以全局優(yōu)化為目標(biāo),基于計(jì)算、存儲(chǔ)、管理網(wǎng)絡(luò)分離,全互聯(lián)無(wú)阻塞的網(wǎng)絡(luò)架構(gòu),結(jié)合高效的多級(jí)存儲(chǔ)方式,在‘邃思’AI芯片與CPU的異構(gòu)算力支撐下,云燧智算機(jī)能夠提供卓越的AI性能?!?/p>
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))了解到,燧原科技的第一代和第二代“邃思”芯片已實(shí)際應(yīng)用于大規(guī)模AI集群工程中,落地規(guī)模達(dá)千卡級(jí)別,場(chǎng)景包括融媒體生成、城市智能感知等。
當(dāng)然,提到計(jì)算集群就不得不關(guān)注數(shù)據(jù)中心整體能效(PUE),特別是在雙碳目標(biāo)以及綠色環(huán)保的總體趨勢(shì),以及東數(shù)西算有政策性要求。據(jù)悉,云燧智算機(jī)采用一體化冷板式液冷技術(shù),實(shí)現(xiàn)單節(jié)點(diǎn)8顆高性能人工智能芯片液冷散熱,PUE可降至1.1及以下。
前面提到,AI落地一個(gè)巨大的挑戰(zhàn)就是軟件。不過(guò)軟件是一個(gè)很寬泛的概念,既需要能夠提升AI芯片利用率的編譯器、庫(kù)等,也需要算力平臺(tái)的管理軟件。
隨最新推出的云燧智算機(jī)一起推出的是燧原科技提供燧池智算平臺(tái)(CloudBlazer Station),包含基礎(chǔ)設(shè)施層的異構(gòu)算力調(diào)度平臺(tái),智能運(yùn)維平臺(tái),馭算軟件棧SDK,算法服務(wù)層的智能算法管理平臺(tái)以及訓(xùn)推一體化平臺(tái)。
同時(shí),面對(duì)超大參數(shù)量的巨量模型趨勢(shì),云燧智算機(jī)可支持超千億參數(shù)巨量模型的高效、并行訓(xùn)練,這主要是得益于云燧智算機(jī)計(jì)算節(jié)點(diǎn)內(nèi)基于GCU-LARE2.0多芯互聯(lián)技術(shù)提供近1TB/s的互聯(lián)帶寬,跨節(jié)點(diǎn)互聯(lián)能力高達(dá)600Gb/s,可實(shí)現(xiàn)千卡級(jí)大規(guī)模集群高速互聯(lián)。
開(kāi)箱即用的計(jì)算集群確實(shí)能夠在一定程度降低使用者的門(mén)檻,但計(jì)算集群畢竟是一個(gè)復(fù)雜的系統(tǒng),最終能在多大程度上促進(jìn)高性能AI計(jì)算的落地,還需要用更多的落地項(xiàng)目證明。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。