產(chǎn)業(yè)AI化的算力流水線(xiàn)，浪潮如何實(shí)踐？

本文作者：張帥

2020-04-20 10:25

導(dǎo)語(yǔ)：從技術(shù)AI進(jìn)化至產(chǎn)業(yè)AI的中途，不同企業(yè)都在探索，邊界模糊、定位重塑，這是全新的機(jī)會(huì)。

人工智能由一種技術(shù)發(fā)展成產(chǎn)業(yè)，這是過(guò)去數(shù)年方興未艾的行業(yè)軌跡，AI產(chǎn)業(yè)化如語(yǔ)音識(shí)別，想象空間很大卻有天花板，而將千行百業(yè)AI化，則是公認(rèn)的廣闊天地大有可為。

“行業(yè)信息化市場(chǎng)已經(jīng)步入了產(chǎn)業(yè)AI化階段，這將會(huì)是一個(gè)萬(wàn)億級(jí)的市場(chǎng)?！痹诮照匍_(kāi)的IPF2020浪潮云數(shù)據(jù)中心合作伙伴大會(huì)上，浪潮集團(tuán)執(zhí)行總裁、首席科學(xué)家王恩東如此表示。

從技術(shù)AI進(jìn)化至產(chǎn)業(yè)AI的中途，不同企業(yè)都在探索，邊界模糊、定位重塑，這是全新的機(jī)會(huì)，可能誕生新產(chǎn)業(yè)形態(tài)的巨頭，也可能淘汰一些競(jìng)爭(zhēng)壁壘不強(qiáng)的企業(yè)，置身變革之中的浪潮，也在從底層算力向上尋找突破垛口。

結(jié)合浪潮自身的定位和產(chǎn)業(yè)AI化的前景，浪潮搭建了生產(chǎn)算力、聚合算力、調(diào)度算力和釋放算力來(lái)加速落地AI的流水線(xiàn)，體現(xiàn)出浪潮對(duì)于AI算力的理解。

生產(chǎn)算力：覆蓋訓(xùn)練、推理和邊緣，最全算力產(chǎn)品線(xiàn)

作為服務(wù)器廠(chǎng)商，算力的生產(chǎn)是浪潮最基礎(chǔ)的能力，浪潮已經(jīng)形成完整的產(chǎn)品布局，能夠提供全線(xiàn)定制化的人工智能芯片和加速卡，覆蓋從訓(xùn)練到推理，從語(yǔ)音到語(yǔ)義，從邊緣到云到AI加速到各類(lèi)相關(guān)的AI應(yīng)用的場(chǎng)景。

產(chǎn)業(yè)AI化的算力流水線(xiàn)，浪潮如何實(shí)踐？

據(jù)浪潮官方表示，浪潮目前能夠提供業(yè)界最全和擁有最高性能組合的AI服務(wù)器產(chǎn)品線(xiàn)，拳頭型產(chǎn)品如針對(duì)訓(xùn)練場(chǎng)景的AGX-2，是目前全球首款在2U空間能夠支持互聯(lián)八顆最高性能GPU的AI服務(wù)器，AGX-5是目前全球單機(jī)AI計(jì)算性能最強(qiáng)的AI超級(jí)服務(wù)器，單機(jī)張量計(jì)算性達(dá)每秒兩千萬(wàn)億次，此外還有面向邊緣計(jì)算的NE5250M5等產(chǎn)品。

本次大會(huì)上，浪潮發(fā)布了全球首個(gè)AI開(kāi)放加速計(jì)算系統(tǒng)MX1，在同一機(jī)組內(nèi)能夠支持不同廠(chǎng)家的AI芯片，意味著它可以支持多種符合OAM(OCP Accelerator Module)開(kāi)放標(biāo)準(zhǔn)的接口。

產(chǎn)業(yè)AI化的算力流水線(xiàn)，浪潮如何實(shí)踐？

生產(chǎn)算力不只是硬件工作，如何讓大規(guī)模計(jì)算在硬件平臺(tái)上實(shí)現(xiàn)，必須要有與之相匹配的軟件優(yōu)化產(chǎn)品和技術(shù)。比如當(dāng)下Common Crawl數(shù)據(jù)集最大接近250TB，如此之大的數(shù)據(jù)集，需要大規(guī)模深度神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練，受限于GPU顯存有限，無(wú)法實(shí)現(xiàn)超大參數(shù)規(guī)模和高分辨率圖片模型訓(xùn)練。對(duì)此，浪潮研發(fā)出LMS系統(tǒng)，它可以實(shí)現(xiàn)大模型內(nèi)部細(xì)粒度模型的分層，從而釋放GPU顯存壓力，同時(shí)針對(duì)圖像計(jì)算整體優(yōu)化。

“在針對(duì)三維的核磁共振圖像的模型訓(xùn)練，浪潮LMS系統(tǒng)支持到350百萬(wàn)像素立方的超大尺寸圖像分辨率，而在現(xiàn)在通用的GPU技術(shù)只能做到200百萬(wàn)像素立方左右的尺寸分辨率?！崩顺盇I&HPC總經(jīng)理劉軍表示。

浪潮自研的AI大模型計(jì)算框架LMS，在NLP智能語(yǔ)言模型訓(xùn)練突破70億參數(shù)規(guī)模，相比通用參數(shù)模型規(guī)模提升20倍以上。

聚合算力：高性能NVMe存儲(chǔ)池，深度優(yōu)化軟件棧

算力生產(chǎn)之后，數(shù)據(jù)中心扮演聚合算力的角色，當(dāng)前云數(shù)據(jù)中心仍有許多固有挑戰(zhàn)，比如虛擬交換、VXlan等技術(shù)大量消耗CPU的資源，最多時(shí)損耗高達(dá)50%，此外，網(wǎng)絡(luò)抖動(dòng)、帶寬、IOPS的增加都可能拉低云數(shù)據(jù)中心性能，同時(shí)裸金屬服務(wù)器、軟件定義網(wǎng)絡(luò)等需求成為主流，也給數(shù)據(jù)中心帶來(lái)新的難題。

AI算力中心上線(xiàn)推理服務(wù)時(shí)，尤其高并發(fā)推理服務(wù)，最大挑戰(zhàn)來(lái)自海量文件IO處理的瓶頸，浪潮專(zhuān)門(mén)針對(duì)高并發(fā)推理集群進(jìn)行架構(gòu)優(yōu)化，構(gòu)建高性能的基于NVMe的存儲(chǔ)池。具體操作是將AI計(jì)算的軟件棧進(jìn)行深度的優(yōu)化，把所有推理節(jié)點(diǎn)進(jìn)行高帶寬，低延遲的高速網(wǎng)絡(luò)優(yōu)化，性能提升3.5倍以上。

在數(shù)據(jù)中心網(wǎng)絡(luò)加速方面，推出N20X智能網(wǎng)絡(luò)加速方案，最高可釋放50%的CPU計(jì)算資源，IOPS延遲降低30%以上。

N20X智能網(wǎng)絡(luò)加速方案可將主機(jī)網(wǎng)絡(luò)、存儲(chǔ)和計(jì)算的負(fù)載的卸載到網(wǎng)卡，對(duì)主機(jī)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)實(shí)現(xiàn)有效的加速，它支持 OVS、 NVMe、Virtual IO的技術(shù)融合，甚至能夠?qū)崿F(xiàn)接近于物理機(jī)性能的裸金屬服務(wù)，容器和VM分鐘級(jí)資源交付。

調(diào)度算力：AIStation資源平臺(tái)，模型開(kāi)發(fā)和部署一站式交付

如何能把生產(chǎn)、聚合之后的算力高效的調(diào)度用于更多的創(chuàng)新？

AI應(yīng)用從開(kāi)發(fā)環(huán)境、生產(chǎn)環(huán)境，模型上線(xiàn)、部署復(fù)雜度遠(yuǎn)超以往，人工智能企業(yè)需要一個(gè)強(qiáng)大的高效的資源管理平臺(tái)，幫助完成一站式模型開(kāi)發(fā)和部署，這就是浪潮AIStation資源平臺(tái)。

產(chǎn)業(yè)AI化的算力流水線(xiàn)，浪潮如何實(shí)踐？

AIStation訓(xùn)練平臺(tái)首先能夠解決研發(fā)模型開(kāi)發(fā)訓(xùn)練的挑戰(zhàn)，實(shí)現(xiàn)高效共享AI算力，加速AI創(chuàng)新的研發(fā)。通過(guò)AIStation，企業(yè)不同工作小組，不同開(kāi)發(fā)者，都可以高效共享AI服務(wù)器資源，保證算力資源的高效利用。

“我們可以實(shí)現(xiàn)計(jì)算資源非常細(xì)粒度的切割共享，一塊GPU資源可以共享到多個(gè)用戶(hù)來(lái)同時(shí)使用，面對(duì)訓(xùn)練場(chǎng)，大規(guī)模數(shù)據(jù)集的IO挑戰(zhàn)，我們實(shí)現(xiàn)了對(duì)訓(xùn)練數(shù)據(jù)的緩存加速，越來(lái)模型開(kāi)發(fā)和訓(xùn)練越來(lái)越復(fù)雜，浪潮在AIStation上海提供了分布式訓(xùn)練和編排，保證開(kāi)發(fā)人員盡可能自動(dòng)化調(diào)度更大規(guī)模的計(jì)算力，來(lái)提升AI訓(xùn)練模型的精度。”劉軍解釋道。

在AI模型生產(chǎn)上線(xiàn)階段，AIStation推理平臺(tái)可以幫助客戶(hù)部署和推理，從而提速整個(gè)AI生產(chǎn)交互過(guò)程，這其中浪潮解決了很多問(wèn)題。比如兼容多種深度學(xué)習(xí)框架和推理服務(wù)，AIStation推理版本能提供多模型計(jì)算結(jié)果，保證推理結(jié)果的準(zhǔn)確性和可信度。

釋放算力：升級(jí)AutoML Suite自動(dòng)機(jī)器學(xué)習(xí)平臺(tái)，AI全自動(dòng)建模

雷鋒網(wǎng)了解到，僅就單一AI應(yīng)用，其實(shí)現(xiàn)平均至少需要消耗6個(gè)人月的專(zhuān)家人力，以智能化工具提升AI開(kāi)發(fā)的效率，有效降低人力的成本，成為不少企業(yè)用戶(hù)的訴求。

浪潮升級(jí)了AutoML Suite自動(dòng)機(jī)器學(xué)習(xí)平臺(tái)，AutoML Suite可實(shí)現(xiàn)企業(yè)級(jí)一站式模型自動(dòng)構(gòu)建，支持私有化部署，全面支持圖像分類(lèi)/回歸/目標(biāo)檢測(cè)CV場(chǎng)景應(yīng)用，模型大小與計(jì)算量極致壓縮，用戶(hù)提供原始圖片數(shù)據(jù)和標(biāo)注數(shù)據(jù)，經(jīng)過(guò)AutoML Suite處理，自動(dòng)生成所需的AI算法模型。

產(chǎn)業(yè)AI化的算力流水線(xiàn)，浪潮如何實(shí)踐？

AutoML Suite之所以可實(shí)現(xiàn)上述功能，來(lái)源于其三大核心引擎： AutoNAS可根據(jù)數(shù)據(jù)特性，從無(wú)到有構(gòu)建網(wǎng)絡(luò)模型，實(shí)現(xiàn)AI模型與用戶(hù)應(yīng)用場(chǎng)景的最佳匹配； AutoTune可進(jìn)行超參自動(dòng)調(diào)整，使算法工程師從繁瑣耗時(shí)的手動(dòng)調(diào)參中解放出來(lái)； AutoPrune基于元學(xué)習(xí)技術(shù)，可對(duì)任意網(wǎng)絡(luò)進(jìn)行無(wú)損壓縮，使生成的模型滿(mǎn)足用戶(hù)應(yīng)用生產(chǎn)部署要求。

目前，浪潮AutoML Suite已在智慧城市、鐵路、公路等場(chǎng)景中得到應(yīng)用。在智慧城市路口通過(guò)監(jiān)測(cè)領(lǐng)域，基于40萬(wàn)數(shù)據(jù)集，AutoML自動(dòng)生成的模型在日間識(shí)別準(zhǔn)確率達(dá)91.5%，夜間識(shí)別準(zhǔn)確率為83.6%，高于專(zhuān)家手動(dòng)設(shè)計(jì)模型精度；在鐵道開(kāi)口銷(xiāo)設(shè)備故障檢測(cè)中，運(yùn)用浪潮AutoML Suite自動(dòng)生成的模型實(shí)現(xiàn)了81.8%的召回準(zhǔn)確率；在高速公路團(tuán)霧識(shí)別領(lǐng)域，對(duì)14000張圖片進(jìn)行搜索訓(xùn)練后，自動(dòng)生成模型對(duì)團(tuán)霧的檢出準(zhǔn)確率率為99.25%，模型效果符合生產(chǎn)應(yīng)用水平。

“未來(lái)五年、十年，人工智能會(huì)成為未來(lái)最核心的計(jì)算力，面臨大數(shù)據(jù)和深度學(xué)習(xí)的計(jì)算需求，人工智能會(huì)帶來(lái)一個(gè)指數(shù)型增長(zhǎng)的對(duì)計(jì)算力的需求。浪潮一直致力于創(chuàng)新AI計(jì)算，也是為我們當(dāng)前的新基建提供原動(dòng)力，浪潮會(huì)提供最領(lǐng)先的算力機(jī)組來(lái)生產(chǎn)算力，我們會(huì)通過(guò)更敏捷的數(shù)據(jù)中心來(lái)聚合算力，通過(guò)高效的調(diào)度算力我們產(chǎn)業(yè)AI提供更多創(chuàng)新的可能，同時(shí)通過(guò)釋放算力來(lái)快速落地進(jìn)化AI?！眲④娍偨Y(jié)表示。

總結(jié)：產(chǎn)業(yè)AI化，浪潮的新路

正如王恩東所說(shuō)，智慧社會(huì)離不開(kāi)智慧的生態(tài)。在AI產(chǎn)業(yè)化過(guò)程中，浪潮是新興AI企業(yè)的主要合作伙伴和算力提供商，新興IT企業(yè)已經(jīng)積累了大量?jī)?yōu)質(zhì)的算法框架、模型和數(shù)據(jù)，這些優(yōu)質(zhì)的AI技術(shù)正是產(chǎn)業(yè)AI化過(guò)程中行業(yè)用戶(hù)所需要的，也是為這些用戶(hù)服務(wù)的傳統(tǒng)合作伙伴所欠缺的。

為了幫助行業(yè)用戶(hù)更好的進(jìn)行智慧化轉(zhuǎn)型，連接傳統(tǒng)合作伙伴和新興AI企業(yè)，浪潮此前就提出了元腦生態(tài)計(jì)劃，元腦由浪潮聯(lián)合具備AI開(kāi)發(fā)核心能力的左手伙伴和具備行業(yè)整體方案交付能力的右手伙伴共同組成，在本次大會(huì)上浪潮進(jìn)一步推出“E基金”計(jì)劃，“E基金”首期將由浪潮投入億元作為啟動(dòng)資金，針對(duì)以下三個(gè)方向進(jìn)行重點(diǎn)投入：

方案火種源：助力合作伙伴AI技術(shù)創(chuàng)新，浪潮自主投入市場(chǎng)經(jīng)費(fèi)，搭建AI計(jì)算平臺(tái)開(kāi)放環(huán)境，并免費(fèi)向合作伙伴提供浪潮算法工具服務(wù)，賦能合作伙伴進(jìn)行AI算法開(kāi)發(fā)，并與合作伙伴聯(lián)合產(chǎn)品創(chuàng)新，打造行業(yè)AI解決方案；
項(xiàng)目火種源：面向金融、通信、智慧城市、交通、能源等8大重點(diǎn)行業(yè)，給予合作伙伴聯(lián)合市場(chǎng)推廣資金支持，推動(dòng)高價(jià)值A(chǔ)I場(chǎng)景化解決方案的落地，加速重點(diǎn)行業(yè)的產(chǎn)業(yè)AI進(jìn)程；
人才火種源：賦能行業(yè)AI人才培養(yǎng)，聯(lián)合打造ASC、AICC等頂級(jí)AI資源交流平臺(tái)，開(kāi)放資源賦能行業(yè)，培養(yǎng)更多優(yōu)秀行業(yè)AI人才。

浪潮的目標(biāo)是聚合AI最強(qiáng)算力平臺(tái)、最優(yōu)質(zhì)的算法模型開(kāi)發(fā)能力和最優(yōu)質(zhì)的集成、部署和服務(wù)能力，從而支撐和加速各行業(yè)、各產(chǎn)業(yè)與人工智能的融合，讓各個(gè)行業(yè)、各個(gè)產(chǎn)業(yè)具備可感知、自學(xué)習(xí)、可進(jìn)化的能力，最終幫助用戶(hù)完成業(yè)務(wù)智能轉(zhuǎn)型升級(jí)，以生態(tài)之力成就行業(yè)、產(chǎn)業(yè)AI大腦。（雷鋒網(wǎng)雷鋒網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章