0
本文作者: 包永剛 | 2024-04-01 17:11 |
OpenAI訓(xùn)練GPT4算力的利用率大概是35%。
這是業(yè)內(nèi)普遍的水平,對(duì)于許多企業(yè)而言,提升算力利用率就像中彩票一樣難得。
AI訓(xùn)練面臨的是算效彩票,AI推理落地面臨著精度盲盒問題。
AI想要在垂直場(chǎng)景落地,模型的精度要達(dá)到95%以上,但因?yàn)楦鞣N因素的影響,實(shí)際落地時(shí)的精度就像是開盲盒一樣。
“大模型發(fā)展落地過程中,面臨的萬卡時(shí)代的算效彩票,深入行業(yè)的精度盲盒,以及高效調(diào)用的服務(wù)瓶頸,愈發(fā)需要系統(tǒng)性AI計(jì)算方案提供全方位、全周期支持。”寧暢總裁秦曉寧在2024年度戰(zhàn)略發(fā)布會(huì)上宣布了全局智算的戰(zhàn)略及新品。
寧暢總裁秦曉寧
秦曉寧介紹,寧暢的全局智算具備六大全特性,涵蓋軟硬件全體系及全液冷產(chǎn)品,提供從咨詢到運(yùn)維的全流程服務(wù),滿足全行業(yè)用戶大模型開發(fā)、適配、部署的全場(chǎng)景需求,并按用戶發(fā)展階段,定制專業(yè)且性價(jià)比高的AI計(jì)算方案。
如今的全局智算戰(zhàn)略,離不開寧暢成立之初義無反顧地研發(fā)當(dāng)時(shí)不火的AI服務(wù)器。
從買更多服務(wù)器的百模大戰(zhàn),到需要軟硬一體方案的商業(yè)化落地
去年最瘋狂的時(shí)候,國(guó)內(nèi)每隔一天就會(huì)有一個(gè)AI大模型出現(xiàn)。
在這個(gè)百模大戰(zhàn)的時(shí)期,大模型公司的第一要?jiǎng)?wù)是購(gòu)買更多更快更強(qiáng)的算力,也就是買更多GPU服務(wù)器。
當(dāng)服務(wù)器集群數(shù)量達(dá)到萬卡甚至十萬卡,算力的凈增長(zhǎng)和服務(wù)器數(shù)量的增加不再是線性關(guān)系,需要從軟件、算法以及整體的優(yōu)化解決低算力利用率的問題。
“2024年,大模型從參數(shù)的競(jìng)賽走向了商業(yè)化、產(chǎn)業(yè)化的落地階段。”秦曉寧說,“這個(gè)階段不僅要提供算力硬件,大需要在算力、算法、數(shù)據(jù)三個(gè)維度來提供更需要更強(qiáng)的支撐?!?/p>
大模型的落地需要考慮的因素更加復(fù)雜,包括安全性、部署速度,穩(wěn)定性等。
安全性關(guān)乎所有AI落地的場(chǎng)景,因?yàn)閿?shù)據(jù)涉及到內(nèi)部信息、客戶數(shù)據(jù)等,這些數(shù)據(jù)高度敏感,需要考慮數(shù)據(jù)的安全合規(guī)性,只有做好高質(zhì)量數(shù)據(jù)的治理、清洗、標(biāo)注等一些列工作,才能讓大模型在具體場(chǎng)景中落地時(shí)不是開盲盒。
保證安全的前提下,部署時(shí)間也非常關(guān)鍵。調(diào)查數(shù)據(jù)顯示,超過64%的企業(yè)部署AI應(yīng)用的時(shí)間周期是90天甚至更長(zhǎng)。想要加速AI的落地,需要解決訓(xùn)練和推理之間團(tuán)硬件數(shù)據(jù)無縫實(shí)時(shí)對(duì)接的問題,還需解決部署階段的冗余等問題。
實(shí)際應(yīng)用的階段,穩(wěn)定性非常關(guān)鍵,這要求有一個(gè)穩(wěn)定的運(yùn)行環(huán)境,同時(shí)對(duì)健康能耗狀態(tài)全面的監(jiān)管。
顯然,應(yīng)對(duì)大模型對(duì)算力的需求既不是簡(jiǎn)單的硬件堆疊,也不是單純的硬件能力就能解決,需要的是軟硬件的全棧能力。
所以寧暢推出全局智算戰(zhàn)略。
“原來我們更多的精力是放在基礎(chǔ)硬件架構(gòu)上,是在某一個(gè)點(diǎn)上加深專業(yè)度,現(xiàn)在我們下定決心,要把所有東西整合在一起,這對(duì)寧暢的要求更高?!鼻貢詫幷f,“但是我們可能給客戶、最終行業(yè)帶來的改變更大。”
全局智計(jì)算如何提升AI的算效和精度?
寧暢最新推出的全局智算戰(zhàn)略,包含了六個(gè)層面。
最底層的硬件資源層,有通用的服務(wù)器、GPU、整機(jī)柜、存儲(chǔ)、網(wǎng)絡(luò)多種形態(tài)的產(chǎn)品。
“硬件層上面的集群設(shè)計(jì)層,不是將海量硬件簡(jiǎn)單連接堆疊就能服務(wù)客戶的場(chǎng)景。寧暢會(huì)分析整個(gè)業(yè)務(wù)運(yùn)行的特征和系統(tǒng)的量化需求,提供從微架構(gòu)、網(wǎng)絡(luò)、存儲(chǔ)、AI模型特征等一系列的方案化的設(shè)計(jì)?!鼻貢詫幗榻B。
再上一層是算子優(yōu)化層,寧暢提供了AI算子自由化能力,目的是為了減少模型執(zhí)行時(shí)間,降低資源消耗。
算子優(yōu)化層之上是AI中臺(tái)層,全面支持NVIDIA AI Enterprise(NVAIE),也有寧暢自己的中臺(tái)NAIOM,可以提供基于AI算力系統(tǒng)深度整合的工作棧。
在AI中臺(tái)層之上就是業(yè)務(wù)層和場(chǎng)景層。
寧暢CTO趙雷介紹,“我們的全局智算,包含的是硬實(shí)力(硬件)、軟動(dòng)力(軟件)、服務(wù)力(服務(wù))三部分,剩下的三部分是通過這三個(gè)能力實(shí)現(xiàn)?!?/strong>
硬件一直以來都是寧暢擅長(zhǎng)并且專業(yè)的部分,也是全局智算的硬實(shí)力,具體體現(xiàn)在可實(shí)現(xiàn)多種交付形態(tài)靈活組合。
其中,寧暢B8000液冷整機(jī)柜服務(wù)器作為AI算力棧最具亮點(diǎn)的交付形態(tài),采用電、液、網(wǎng)三路全盲插設(shè)計(jì),部署周期相較傳統(tǒng)方式提升30倍。
在全局智算的軟件層面,基于系統(tǒng)工程及算法模型,以AI算子全棧優(yōu)化能力,為AI業(yè)務(wù)提供并行加速、性能分析、模型開發(fā)優(yōu)化等服務(wù)支持,構(gòu)建出從算力資源定制,到模型適配優(yōu)化,再到高效部署落地的大模型算力服務(wù)閉環(huán),幫助用戶極速推進(jìn)AI應(yīng)用開發(fā)及管理。
“與以往不同,我們?yōu)槭裁匆鲕浖??”趙雷分享,“我們需要計(jì)算能力分析,找到算力的缺口;也需要找到網(wǎng)絡(luò)擁堵的地方升級(jí)網(wǎng)絡(luò);還需要根據(jù)AI應(yīng)用,讓機(jī)器的負(fù)載時(shí)最好的選擇。這些都需要軟件才能進(jìn)一步提升AI的運(yùn)算能力和產(chǎn)品使用率?!?/p>
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))了解到,寧暢的AI軟件棧,是業(yè)內(nèi)相對(duì)標(biāo)準(zhǔn)化的軟件棧,結(jié)合了實(shí)際的案例和思考。
國(guó)內(nèi)首個(gè)AI算力棧加速AI落地
發(fā)布全局智算戰(zhàn)略的同時(shí),寧暢也推出了戰(zhàn)略性新品AI算力?!狽EX AI Lab(Nettrix AI Open Lab),作為國(guó)內(nèi)首個(gè)AI算力棧,已在桐鄉(xiāng)市成功落地,目的是解決大模型產(chǎn)業(yè)落地的全周期問題。
NEX AI Lab是一個(gè)128臺(tái)GPU服務(wù)器組成的算力集群,同時(shí)使用了三種設(shè)備,集成加速計(jì)算節(jié)點(diǎn)、全閃存存儲(chǔ)節(jié)點(diǎn),可為GPT、LLaMA、Stable Diffusion等AI模型,提供多元場(chǎng)景應(yīng)用優(yōu)化支持。
NEX AI Lab已經(jīng)運(yùn)行了三周,證明了寧暢具備從硬件到軟件的全棧平臺(tái)服務(wù)能力。同時(shí),NEX AI Lab可以提供免費(fèi)的算力。
如果說從2020年4月份開始研發(fā)AI服務(wù)器時(shí)的忐忑,到2023年吃到AI服務(wù)器紅利,寧暢是押對(duì)了方向。
那么寧暢在2024年生成式AI落地的重要時(shí)刻推出全局智算戰(zhàn)略,就是抓住了乘風(fēng)而上的時(shí)代機(jī)遇。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。