0
本文作者: 張帥 | 2020-04-20 10:25 |
人工智能由一種技術發(fā)展成產(chǎn)業(yè),這是過去數(shù)年方興未艾的行業(yè)軌跡,AI產(chǎn)業(yè)化如語音識別,想象空間很大卻有天花板,而將千行百業(yè)AI化,則是公認的廣闊天地大有可為。
“行業(yè)信息化市場已經(jīng)步入了產(chǎn)業(yè)AI化階段,這將會是一個萬億級的市場?!痹诮照匍_的IPF2020浪潮云數(shù)據(jù)中心合作伙伴大會上,浪潮集團執(zhí)行總裁、首席科學家王恩東如此表示。
從技術AI進化至產(chǎn)業(yè)AI的中途,不同企業(yè)都在探索,邊界模糊、定位重塑,這是全新的機會,可能誕生新產(chǎn)業(yè)形態(tài)的巨頭,也可能淘汰一些競爭壁壘不強的企業(yè),置身變革之中的浪潮,也在從底層算力向上尋找突破垛口。
結合浪潮自身的定位和產(chǎn)業(yè)AI化的前景,浪潮搭建了生產(chǎn)算力、聚合算力、調(diào)度算力和釋放算力來加速落地AI的流水線,體現(xiàn)出浪潮對于AI算力的理解。
作為服務器廠商,算力的生產(chǎn)是浪潮最基礎的能力,浪潮已經(jīng)形成完整的產(chǎn)品布局,能夠提供全線定制化的人工智能芯片和加速卡,覆蓋從訓練到推理,從語音到語義,從邊緣到云到AI加速到各類相關的AI應用的場景。
據(jù)浪潮官方表示,浪潮目前能夠提供業(yè)界最全和擁有最高性能組合的AI服務器產(chǎn)品線,拳頭型產(chǎn)品如針對訓練場景的AGX-2,是目前全球首款在2U空間能夠支持互聯(lián)八顆最高性能GPU的AI服務器,AGX-5是目前全球單機AI計算性能最強的AI超級服務器,單機張量計算性達每秒兩千萬億次,此外還有面向邊緣計算的NE5250M5等產(chǎn)品。
本次大會上,浪潮發(fā)布了全球首個AI開放加速計算系統(tǒng)MX1,在同一機組內(nèi)能夠支持不同廠家的AI芯片,意味著它可以支持多種符合OAM(OCP Accelerator Module)開放標準的接口。
生產(chǎn)算力不只是硬件工作,如何讓大規(guī)模計算在硬件平臺上實現(xiàn),必須要有與之相匹配的軟件優(yōu)化產(chǎn)品和技術。比如當下Common Crawl數(shù)據(jù)集最大接近250TB,如此之大的數(shù)據(jù)集,需要大規(guī)模深度神經(jīng)網(wǎng)絡來訓練,受限于GPU顯存有限,無法實現(xiàn)超大參數(shù)規(guī)模和高分辨率圖片模型訓練。對此,浪潮研發(fā)出LMS系統(tǒng),它可以實現(xiàn)大模型內(nèi)部細粒度模型的分層,從而釋放GPU顯存壓力,同時針對圖像計算整體優(yōu)化。
“在針對三維的核磁共振圖像的模型訓練,浪潮LMS系統(tǒng)支持到350百萬像素立方的超大尺寸圖像分辨率,而在現(xiàn)在通用的GPU技術只能做到200百萬像素立方左右的尺寸分辨率?!崩顺盇I&HPC總經(jīng)理劉軍表示。
浪潮自研的AI大模型計算框架LMS,在NLP智能語言模型訓練突破70億參數(shù)規(guī)模,相比通用參數(shù)模型規(guī)模提升20倍以上。
算力生產(chǎn)之后,數(shù)據(jù)中心扮演聚合算力的角色,當前云數(shù)據(jù)中心仍有許多固有挑戰(zhàn),比如虛擬交換、VXlan等技術大量消耗CPU的資源,最多時損耗高達50%,此外,網(wǎng)絡抖動、帶寬、IOPS的增加都可能拉低云數(shù)據(jù)中心性能,同時裸金屬服務器、軟件定義網(wǎng)絡等需求成為主流,也給數(shù)據(jù)中心帶來新的難題。
AI算力中心上線推理服務時,尤其高并發(fā)推理服務,最大挑戰(zhàn)來自海量文件IO處理的瓶頸,浪潮專門針對高并發(fā)推理集群進行架構優(yōu)化,構建高性能的基于NVMe的存儲池。具體操作是將AI計算的軟件棧進行深度的優(yōu)化,把所有推理節(jié)點進行高帶寬,低延遲的高速網(wǎng)絡優(yōu)化,性能提升3.5倍以上。
在數(shù)據(jù)中心網(wǎng)絡加速方面,推出N20X智能網(wǎng)絡加速方案,最高可釋放50%的CPU計算資源,IOPS延遲降低30%以上。
N20X智能網(wǎng)絡加速方案可將主機網(wǎng)絡、存儲和計算的負載的卸載到網(wǎng)卡,對主機計算、存儲和網(wǎng)絡實現(xiàn)有效的加速,它支持 OVS、 NVMe、Virtual IO的技術融合,甚至能夠?qū)崿F(xiàn)接近于物理機性能的裸金屬服務,容器和VM分鐘級資源交付。
如何能把生產(chǎn)、聚合之后的算力高效的調(diào)度用于更多的創(chuàng)新?
AI應用從開發(fā)環(huán)境、生產(chǎn)環(huán)境,模型上線、部署復雜度遠超以往,人工智能企業(yè)需要一個強大的高效的資源管理平臺,幫助完成一站式模型開發(fā)和部署,這就是浪潮AIStation資源平臺。
AIStation訓練平臺首先能夠解決研發(fā)模型開發(fā)訓練的挑戰(zhàn),實現(xiàn)高效共享AI算力,加速AI創(chuàng)新的研發(fā)。通過AIStation,企業(yè)不同工作小組,不同開發(fā)者,都可以高效共享AI服務器資源,保證算力資源的高效利用。
“我們可以實現(xiàn)計算資源非常細粒度的切割共享,一塊GPU資源可以共享到多個用戶來同時使用,面對訓練場,大規(guī)模數(shù)據(jù)集的IO挑戰(zhàn),我們實現(xiàn)了對訓練數(shù)據(jù)的緩存加速,越來模型開發(fā)和訓練越來越復雜,浪潮在AIStation上海提供了分布式訓練和編排,保證開發(fā)人員盡可能自動化調(diào)度更大規(guī)模的計算力,來提升AI訓練模型的精度?!眲④娊忉尩?。
在AI模型生產(chǎn)上線階段,AIStation推理平臺可以幫助客戶部署和推理,從而提速整個AI生產(chǎn)交互過程,這其中浪潮解決了很多問題。比如兼容多種深度學習框架和推理服務,AIStation推理版本能提供多模型計算結果,保證推理結果的準確性和可信度。
雷鋒網(wǎng)了解到,僅就單一AI應用,其實現(xiàn)平均至少需要消耗6個人月的專家人力,以智能化工具提升AI開發(fā)的效率,有效降低人力的成本,成為不少企業(yè)用戶的訴求。
浪潮升級了AutoML Suite自動機器學習平臺,AutoML Suite可實現(xiàn)企業(yè)級一站式模型自動構建,支持私有化部署,全面支持圖像分類/回歸/目標檢測CV場景應用,模型大小與計算量極致壓縮,用戶提供原始圖片數(shù)據(jù)和標注數(shù)據(jù),經(jīng)過AutoML Suite處理,自動生成所需的AI算法模型。
AutoML Suite之所以可實現(xiàn)上述功能,來源于其三大核心引擎: AutoNAS可根據(jù)數(shù)據(jù)特性,從無到有構建網(wǎng)絡模型,實現(xiàn)AI模型與用戶應用場景的最佳匹配; AutoTune可進行超參自動調(diào)整,使算法工程師從繁瑣耗時的手動調(diào)參中解放出來; AutoPrune基于元學習技術,可對任意網(wǎng)絡進行無損壓縮,使生成的模型滿足用戶應用生產(chǎn)部署要求。
目前,浪潮AutoML Suite已在智慧城市、鐵路、公路等場景中得到應用。在智慧城市路口通過監(jiān)測領域,基于40萬數(shù)據(jù)集,AutoML自動生成的模型在日間識別準確率達91.5%,夜間識別準確率為83.6%,高于專家手動設計模型精度;在鐵道開口銷設備故障檢測中,運用浪潮AutoML Suite自動生成的模型實現(xiàn)了81.8%的召回準確率;在高速公路團霧識別領域,對14000張圖片進行搜索訓練后,自動生成模型對團霧的檢出準確率率為99.25%,模型效果符合生產(chǎn)應用水平。
“未來五年、十年,人工智能會成為未來最核心的計算力,面臨大數(shù)據(jù)和深度學習的計算需求,人工智能會帶來一個指數(shù)型增長的對計算力的需求。浪潮一直致力于創(chuàng)新AI計算,也是為我們當前的新基建提供原動力,浪潮會提供最領先的算力機組來生產(chǎn)算力,我們會通過更敏捷的數(shù)據(jù)中心來聚合算力,通過高效的調(diào)度算力我們產(chǎn)業(yè)AI提供更多創(chuàng)新的可能,同時通過釋放算力來快速落地進化AI?!眲④娍偨Y表示。
正如王恩東所說,智慧社會離不開智慧的生態(tài)。在AI產(chǎn)業(yè)化過程中,浪潮是新興AI企業(yè)的主要合作伙伴和算力提供商,新興IT企業(yè)已經(jīng)積累了大量優(yōu)質(zhì)的算法框架、模型和數(shù)據(jù),這些優(yōu)質(zhì)的AI技術正是產(chǎn)業(yè)AI化過程中行業(yè)用戶所需要的,也是為這些用戶服務的傳統(tǒng)合作伙伴所欠缺的。
為了幫助行業(yè)用戶更好的進行智慧化轉(zhuǎn)型,連接傳統(tǒng)合作伙伴和新興AI企業(yè),浪潮此前就提出了元腦生態(tài)計劃,元腦由浪潮聯(lián)合具備AI開發(fā)核心能力的左手伙伴和具備行業(yè)整體方案交付能力的右手伙伴共同組成,在本次大會上浪潮進一步推出“E基金”計劃,“E基金”首期將由浪潮投入億元作為啟動資金,針對以下三個方向進行重點投入:
方案火種源:助力合作伙伴AI技術創(chuàng)新,浪潮自主投入市場經(jīng)費,搭建AI計算平臺開放環(huán)境,并免費向合作伙伴提供浪潮算法工具服務,賦能合作伙伴進行AI算法開發(fā),并與合作伙伴聯(lián)合產(chǎn)品創(chuàng)新,打造行業(yè)AI解決方案;
項目火種源:面向金融、通信、智慧城市、交通、能源等8大重點行業(yè),給予合作伙伴聯(lián)合市場推廣資金支持,推動高價值AI場景化解決方案的落地,加速重點行業(yè)的產(chǎn)業(yè)AI進程;
人才火種源:賦能行業(yè)AI人才培養(yǎng),聯(lián)合打造ASC、AICC等頂級AI資源交流平臺,開放資源賦能行業(yè),培養(yǎng)更多優(yōu)秀行業(yè)AI人才。
浪潮的目標是聚合AI最強算力平臺、最優(yōu)質(zhì)的算法模型開發(fā)能力和最優(yōu)質(zhì)的集成、部署和服務能力,從而支撐和加速各行業(yè)、各產(chǎn)業(yè)與人工智能的融合,讓各個行業(yè)、各個產(chǎn)業(yè)具備可感知、自學習、可進化的能力,最終幫助用戶完成業(yè)務智能轉(zhuǎn)型升級,以生態(tài)之力成就行業(yè)、產(chǎn)業(yè)AI大腦。(雷鋒網(wǎng)雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。