0
隨著深度學(xué)習(xí)帶來 AI 的第三次浪潮,對 AI 的相關(guān)討論層出不窮,算法是大家關(guān)注的重點。
算法固然重要,但想做好 AI,還需要強大的底層支撐。谷歌在訓(xùn)練 AlphaGo Zero 時,用到 2000 塊 TPU,僅僅花費三天就完成訓(xùn)練。目前,企業(yè) AI 化的需求不斷加深,需要有非常強大的計算平臺來有力支撐線上推理和線下訓(xùn)練。
AI 計算平臺涉及到 GPU、CPU、TPU、FPGA 等硬件,每類硬件背后都有代表企業(yè)。英偉達 GPU 以卓越的性能,在 AI 計算中占據(jù)了相當(dāng)大的市場;英特爾在 CPU 上有得天獨厚的優(yōu)勢,并擅長布局生態(tài),譬如將 CPU 與 FPGA 相結(jié)合;谷歌瞄準(zhǔn)深度學(xué)習(xí)場景,發(fā)布專用 TPU 加速器。
在 4 月的浪潮云數(shù)據(jù)中心合作伙伴大會(IPF2018)上,浪潮首發(fā)面向 AI 云設(shè)計的彈性 GPU 服務(wù)器 NF5468M5,可靈活支持 AI 模型的線下訓(xùn)練和線上推理。(目前,浪潮在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評論旗下數(shù)據(jù)庫項目「AI 影響因子」中得分為 8 。)
圖:浪潮彈性 GPU 服務(wù)器 NF5468M5
這一服務(wù)器具備以下功能:
面向線下訓(xùn)練對性能的需求,可支持 8 顆最高性能的 Tesla Volta GPU 以 PCI-E 或 NVLink 的高速互聯(lián)。
面向在線推理對高能效比的需求,可支持 16 顆高能效比的 Tesla P4 GPU,適用于語音、圖片、視頻場景。
在智能視頻分析場景下,可同時處理 300 路以上 1080p 高清視頻結(jié)構(gòu)化。
在數(shù)據(jù)存儲和通信性能方面,支持 288TB 大容量存儲或 32TB 固態(tài)存儲,能實現(xiàn)高達 400Gbps 的通信帶寬和 1us 的超低延遲。
據(jù)浪潮介紹,AI 云對基礎(chǔ)架構(gòu)的設(shè)計帶來了新的挑戰(zhàn),要求 AI 服務(wù)器具備適合于不同 AI 訓(xùn)練場景的 GPU 靈活拓撲、AI 線上推理的高并發(fā)低延遲與高能效比、大規(guī)模 AI 數(shù)據(jù)的存儲與通信能力?;诖耍Y(jié)合英偉達 GPU 芯片的良好性能以及穩(wěn)健生態(tài),浪潮做出一系列創(chuàng)新,推出 NF5468M5。
除了最新發(fā)布的 GPU 服務(wù)器 NF5468M5,浪潮的服務(wù)器還涉及 CPU、FPGA。浪潮通過實測數(shù)據(jù),分析不同場景下人工智能計算對服務(wù)器的性能要求,合理搭配以 CPU、GPU 和 FPGA 為核心的 AI 計算服務(wù)器。以下是兩個典型案例。
適用于多個應(yīng)用場景的 FPGA 加速設(shè)備 F10A
F10A 是一款 FPGA 加速設(shè)備。基于 FPGA 具有可編程專用性,高性能及低功耗的特點,浪潮 F10A AI 線上推理加速方案針對 CNN 卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)算法進行優(yōu)化和固化,可加速 ResNet 等神經(jīng)網(wǎng)絡(luò),能夠應(yīng)用于圖片分類、對象檢測和人臉識別等應(yīng)用場景。
這一服務(wù)器的單芯片峰值運算能力為 1.5 TFlops,每瓦特性能達到 42 GFlops。同時,F(xiàn)10A 具有靈活的板卡內(nèi)存配置,最大支持 32G 雙通道內(nèi)存,能夠寄存更多的并行任務(wù)數(shù)據(jù)。
最大支持 64 塊 GPU 的 SR-AI
SR-AI 單機可實現(xiàn)支持 16 個 GPU 的超大擴展性節(jié)點,該方案最大支持 64 塊 GPU,峰值處理能力為 512 TFlop,可支持千億樣本、萬億參數(shù)級別的模型訓(xùn)練。該服務(wù)器打破了傳統(tǒng)服務(wù)器的 GPU/CPU 緊耦合架構(gòu),通過 PCI-e Switch 節(jié)點連接上行的 CPU 計算/調(diào)度節(jié)點和下行的 GPU Box,實現(xiàn) CPU/GPU 的獨立擴容,避免傳統(tǒng)架構(gòu)升級帶來的部件過度冗余,使得 GPU 擴展無需同步配置高成本的 IT 資源,可將成本優(yōu)化 5% 以上,隨著規(guī)模上升,成本優(yōu)勢更加明顯。
浪潮表示,在計算平臺的選擇上,企業(yè)可以在適合線下訓(xùn)練的計算加速節(jié)點采用浪潮領(lǐng)先業(yè)界設(shè)計的浮點運算能力強、高擴展的 GPU 服務(wù)器,或 KNM 計算加速器,而用于線上識別的計算加速節(jié)點采用浪潮低功耗、高能效比的 GPU 服務(wù)器,或者低功耗定制優(yōu)化推理程序的 FPGA 加速器。
圖:浪潮 GPU 服務(wù)器產(chǎn)品家族
2017 年,浪潮 AI 服務(wù)器在中國 AI 市場占有率超過 57%,阿里巴巴、騰訊和百度三家運營商 90% 以上的 AI 服務(wù)器都來自浪潮。
對于浪潮在 AI 服務(wù)器上的成功,浪潮 AI&HPC 總經(jīng)理劉軍將其歸功于三個方面,一是對 GPU 的布局早,二是對行業(yè)客戶的把握——把互聯(lián)網(wǎng)作為主航道,三是產(chǎn)品創(chuàng)新的能力和效果有保證。
日前,浪潮也公開了企業(yè) AI 策略。
2018 年 4 月 26 日,在浪潮云數(shù)據(jù)中心合作伙伴大會 IPF2018 上,浪潮發(fā)布全新 AI 品牌 TensorServer,明確傳遞浪潮對 AI 業(yè)務(wù)的決心與愿景。浪潮集團副總裁彭震對 TensorServer 品牌予以了詮釋:「Tensor 是算法的基礎(chǔ)元素,Server 是計算力的基礎(chǔ)架構(gòu)。AI 基礎(chǔ)架構(gòu)對于 AI 產(chǎn)業(yè)持續(xù)快速健康發(fā)展至關(guān)重要。TensorServer 意在成為 AI 的承載者與賦能者,整合創(chuàng)新 AI 基礎(chǔ)架構(gòu)系統(tǒng),以計算開啟可進化的智慧世界?!?/p>
這里的 AI 基礎(chǔ)架構(gòu)系統(tǒng)涵蓋平臺、管理、框架、應(yīng)用多個方面。
在 AI 管理上,浪潮部署 AIStation 人工智能深度學(xué)習(xí)集群管理軟件。AIStation 主要面向深度學(xué)習(xí)計算集群,提供數(shù)據(jù)處理、模型開發(fā)、模型訓(xùn)練、推理服務(wù)全流程服務(wù),支持多種深度學(xué)習(xí)框架,能夠快速部署深度學(xué)習(xí)訓(xùn)練環(huán)境,全面管理深度學(xué)習(xí)訓(xùn)練任務(wù),為深度學(xué)習(xí)用戶提供高效易用的平臺。此外,這一軟件可以對計算集群的 CPU 及 GPU 資源進行統(tǒng)一的管理、調(diào)度及監(jiān)控,有效的提高計算資源的利用率和生產(chǎn)率。
圖:AIStation 系統(tǒng)架構(gòu)圖
作為補充,浪潮還自研 Teye 應(yīng)用特征分析系統(tǒng)。Teye 主要用于分析 AI 應(yīng)用程序在 GPU 集群上運行時對硬件及系統(tǒng)資源占用的情況,反映出應(yīng)用程序的運行特征、熱點及瓶頸,從而幫助用戶最大限度的在現(xiàn)有平臺挖掘應(yīng)用的計算潛力,進而為應(yīng)用程序的優(yōu)化以及應(yīng)用算法的調(diào)整改進提供科學(xué)的指引方向。
而在框架上,浪潮早在 2015 年就發(fā)布 Caffe-MPI 深度學(xué)習(xí)計算框架,他們在 Caffe 架構(gòu)的基礎(chǔ)上,針對并行擴展性做出一系列創(chuàng)新。
據(jù)雷鋒網(wǎng)了解,最新版本 Caffe-MPI 在 4 節(jié)點 16 塊 GPU 卡集群系統(tǒng)上訓(xùn)練性能較單卡提升 13 倍,其每秒處理圖片數(shù)量是同配置集群運行的 TensorFlow 1.0 的近 2 倍。
Caffe-MPI 設(shè)計了兩層通信模式:節(jié)點內(nèi)的 GPU 卡間通信及節(jié)點間的 RDMA 全局通信,這極大降低了網(wǎng)絡(luò)通信的壓力,并克服了傳統(tǒng)通信模式中 PCIE 與網(wǎng)絡(luò)之間帶寬不均衡的影響,同時 Caffe-MPI 還設(shè)計實現(xiàn)了計算和通信的重疊。此外,新版本 Caffe-MPI 提供了更好的 cuDNN 兼容性,用戶可以無縫調(diào)用最新的 cuDNN 版本實現(xiàn)更大的性能提升。
除了自研深度學(xué)習(xí)框架,浪潮將深度學(xué)習(xí)框架及其依賴的庫統(tǒng)一進行資源封裝成一個鏡像,之后便可以在任何支持資源封裝的浪潮平臺上隨時加載鏡像,用戶可以立刻開始工作,其工作環(huán)境與原始環(huán)境完全一致,這可以有效提升生產(chǎn)力。目前,浪潮可封裝的框架資源基本涵蓋了主流的深度學(xué)習(xí)框架,包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet 以及 PaddlePaddle 等。
在應(yīng)用加速上,雷鋒網(wǎng)了解到浪潮的解決方案如下:
應(yīng)用場景咨詢與系統(tǒng)方案設(shè)計
浪潮 AI 解決方案專家與客戶商討深度學(xué)習(xí)應(yīng)用場景,共同分析計算熱點和瓶頸,幫助設(shè)計適合客戶應(yīng)用場景的系統(tǒng)方案。
應(yīng)用代碼移植優(yōu)化
浪潮異構(gòu)應(yīng)用專家可以幫助客戶分析 CPU 代碼特征,辨別是否適合遷移至異構(gòu)加速部件,并共同將代碼熱點進行移植優(yōu)化,提升應(yīng)用的計算效率,時間更短。
計算加速部件性能橫向評測
浪潮針對 GPU/FPGA/KNM 等主流異構(gòu)加速部件擁有成熟的橫向評測方法,可以幫助客戶選擇適合的部件。
目前,浪潮的解決方案為行業(yè) AI 轉(zhuǎn)型提供賦能支撐。
浪潮與百度合作推出 ABC 一體機,這一設(shè)備集合了百度自研的集群管理軟件、優(yōu)化引擎和浪潮 AI 計算硬件平臺,支持 PaddlePaddle、TensorFlow、Caffe 等主流深度學(xué)習(xí)框架,內(nèi)嵌成熟的算法模型和云管理技術(shù)。
據(jù)浪潮介紹,ABC 人臉識別一體機支持百度人臉檢測、1:1 人臉對比和 1:N 人臉查找三大人臉識別核心能力,可以根據(jù)人臉面部的 72 個特征點識別多種人臉屬性,如性別、年齡、表情等信息,并計算人臉相似度,可用于用戶身份。
圖:浪潮與百度攜手打造 ABC 一體機
此外,浪潮很早就開始與科大訊飛合作訓(xùn)練語音神經(jīng)網(wǎng)絡(luò)模型,從將模型訓(xùn)練從 CPU 單機上擴展到多機,而后又開展如何在 FPGA 上運行語音神經(jīng)網(wǎng)絡(luò)模型的研究,實現(xiàn)更高的性能。
目前,浪潮在計算平臺、管理套件、框架優(yōu)化和應(yīng)用加速上已經(jīng)形成有機的 AI 生態(tài)。劉軍表示,對于渴望 AI 轉(zhuǎn)型的企業(yè),從客觀看,極其需要這四層能力,而浪潮作為賦能者,能將這四層能力賦予這些企業(yè),讓其更快速地實現(xiàn) AI 落地。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。