0
隨著深度學習帶來 AI 的第三次浪潮,對 AI 的相關討論層出不窮,算法是大家關注的重點。
算法固然重要,但想做好 AI,還需要強大的底層支撐。谷歌在訓練 AlphaGo Zero 時,用到 2000 塊 TPU,僅僅花費三天就完成訓練。目前,企業(yè) AI 化的需求不斷加深,需要有非常強大的計算平臺來有力支撐線上推理和線下訓練。
AI 計算平臺涉及到 GPU、CPU、TPU、FPGA 等硬件,每類硬件背后都有代表企業(yè)。英偉達 GPU 以卓越的性能,在 AI 計算中占據了相當大的市場;英特爾在 CPU 上有得天獨厚的優(yōu)勢,并擅長布局生態(tài),譬如將 CPU 與 FPGA 相結合;谷歌瞄準深度學習場景,發(fā)布專用 TPU 加速器。
在 4 月的浪潮云數據中心合作伙伴大會(IPF2018)上,浪潮首發(fā)面向 AI 云設計的彈性 GPU 服務器 NF5468M5,可靈活支持 AI 模型的線下訓練和線上推理。(目前,浪潮在雷鋒網學術頻道 AI 科技評論旗下數據庫項目「AI 影響因子」中得分為 8 。)
圖:浪潮彈性 GPU 服務器 NF5468M5
這一服務器具備以下功能:
面向線下訓練對性能的需求,可支持 8 顆最高性能的 Tesla Volta GPU 以 PCI-E 或 NVLink 的高速互聯(lián)。
面向在線推理對高能效比的需求,可支持 16 顆高能效比的 Tesla P4 GPU,適用于語音、圖片、視頻場景。
在智能視頻分析場景下,可同時處理 300 路以上 1080p 高清視頻結構化。
在數據存儲和通信性能方面,支持 288TB 大容量存儲或 32TB 固態(tài)存儲,能實現(xiàn)高達 400Gbps 的通信帶寬和 1us 的超低延遲。
據浪潮介紹,AI 云對基礎架構的設計帶來了新的挑戰(zhàn),要求 AI 服務器具備適合于不同 AI 訓練場景的 GPU 靈活拓撲、AI 線上推理的高并發(fā)低延遲與高能效比、大規(guī)模 AI 數據的存儲與通信能力?;诖?,結合英偉達 GPU 芯片的良好性能以及穩(wěn)健生態(tài),浪潮做出一系列創(chuàng)新,推出 NF5468M5。
除了最新發(fā)布的 GPU 服務器 NF5468M5,浪潮的服務器還涉及 CPU、FPGA。浪潮通過實測數據,分析不同場景下人工智能計算對服務器的性能要求,合理搭配以 CPU、GPU 和 FPGA 為核心的 AI 計算服務器。以下是兩個典型案例。
適用于多個應用場景的 FPGA 加速設備 F10A
F10A 是一款 FPGA 加速設備?;?FPGA 具有可編程專用性,高性能及低功耗的特點,浪潮 F10A AI 線上推理加速方案針對 CNN 卷積神經網絡的相關算法進行優(yōu)化和固化,可加速 ResNet 等神經網絡,能夠應用于圖片分類、對象檢測和人臉識別等應用場景。
這一服務器的單芯片峰值運算能力為 1.5 TFlops,每瓦特性能達到 42 GFlops。同時,F(xiàn)10A 具有靈活的板卡內存配置,最大支持 32G 雙通道內存,能夠寄存更多的并行任務數據。
最大支持 64 塊 GPU 的 SR-AI
SR-AI 單機可實現(xiàn)支持 16 個 GPU 的超大擴展性節(jié)點,該方案最大支持 64 塊 GPU,峰值處理能力為 512 TFlop,可支持千億樣本、萬億參數級別的模型訓練。該服務器打破了傳統(tǒng)服務器的 GPU/CPU 緊耦合架構,通過 PCI-e Switch 節(jié)點連接上行的 CPU 計算/調度節(jié)點和下行的 GPU Box,實現(xiàn) CPU/GPU 的獨立擴容,避免傳統(tǒng)架構升級帶來的部件過度冗余,使得 GPU 擴展無需同步配置高成本的 IT 資源,可將成本優(yōu)化 5% 以上,隨著規(guī)模上升,成本優(yōu)勢更加明顯。
浪潮表示,在計算平臺的選擇上,企業(yè)可以在適合線下訓練的計算加速節(jié)點采用浪潮領先業(yè)界設計的浮點運算能力強、高擴展的 GPU 服務器,或 KNM 計算加速器,而用于線上識別的計算加速節(jié)點采用浪潮低功耗、高能效比的 GPU 服務器,或者低功耗定制優(yōu)化推理程序的 FPGA 加速器。
圖:浪潮 GPU 服務器產品家族
2017 年,浪潮 AI 服務器在中國 AI 市場占有率超過 57%,阿里巴巴、騰訊和百度三家運營商 90% 以上的 AI 服務器都來自浪潮。
對于浪潮在 AI 服務器上的成功,浪潮 AI&HPC 總經理劉軍將其歸功于三個方面,一是對 GPU 的布局早,二是對行業(yè)客戶的把握——把互聯(lián)網作為主航道,三是產品創(chuàng)新的能力和效果有保證。
日前,浪潮也公開了企業(yè) AI 策略。
2018 年 4 月 26 日,在浪潮云數據中心合作伙伴大會 IPF2018 上,浪潮發(fā)布全新 AI 品牌 TensorServer,明確傳遞浪潮對 AI 業(yè)務的決心與愿景。浪潮集團副總裁彭震對 TensorServer 品牌予以了詮釋:「Tensor 是算法的基礎元素,Server 是計算力的基礎架構。AI 基礎架構對于 AI 產業(yè)持續(xù)快速健康發(fā)展至關重要。TensorServer 意在成為 AI 的承載者與賦能者,整合創(chuàng)新 AI 基礎架構系統(tǒng),以計算開啟可進化的智慧世界?!?/p>
這里的 AI 基礎架構系統(tǒng)涵蓋平臺、管理、框架、應用多個方面。
在 AI 管理上,浪潮部署 AIStation 人工智能深度學習集群管理軟件。AIStation 主要面向深度學習計算集群,提供數據處理、模型開發(fā)、模型訓練、推理服務全流程服務,支持多種深度學習框架,能夠快速部署深度學習訓練環(huán)境,全面管理深度學習訓練任務,為深度學習用戶提供高效易用的平臺。此外,這一軟件可以對計算集群的 CPU 及 GPU 資源進行統(tǒng)一的管理、調度及監(jiān)控,有效的提高計算資源的利用率和生產率。
圖:AIStation 系統(tǒng)架構圖
作為補充,浪潮還自研 Teye 應用特征分析系統(tǒng)。Teye 主要用于分析 AI 應用程序在 GPU 集群上運行時對硬件及系統(tǒng)資源占用的情況,反映出應用程序的運行特征、熱點及瓶頸,從而幫助用戶最大限度的在現(xiàn)有平臺挖掘應用的計算潛力,進而為應用程序的優(yōu)化以及應用算法的調整改進提供科學的指引方向。
而在框架上,浪潮早在 2015 年就發(fā)布 Caffe-MPI 深度學習計算框架,他們在 Caffe 架構的基礎上,針對并行擴展性做出一系列創(chuàng)新。
據雷鋒網了解,最新版本 Caffe-MPI 在 4 節(jié)點 16 塊 GPU 卡集群系統(tǒng)上訓練性能較單卡提升 13 倍,其每秒處理圖片數量是同配置集群運行的 TensorFlow 1.0 的近 2 倍。
Caffe-MPI 設計了兩層通信模式:節(jié)點內的 GPU 卡間通信及節(jié)點間的 RDMA 全局通信,這極大降低了網絡通信的壓力,并克服了傳統(tǒng)通信模式中 PCIE 與網絡之間帶寬不均衡的影響,同時 Caffe-MPI 還設計實現(xiàn)了計算和通信的重疊。此外,新版本 Caffe-MPI 提供了更好的 cuDNN 兼容性,用戶可以無縫調用最新的 cuDNN 版本實現(xiàn)更大的性能提升。
除了自研深度學習框架,浪潮將深度學習框架及其依賴的庫統(tǒng)一進行資源封裝成一個鏡像,之后便可以在任何支持資源封裝的浪潮平臺上隨時加載鏡像,用戶可以立刻開始工作,其工作環(huán)境與原始環(huán)境完全一致,這可以有效提升生產力。目前,浪潮可封裝的框架資源基本涵蓋了主流的深度學習框架,包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet 以及 PaddlePaddle 等。
在應用加速上,雷鋒網了解到浪潮的解決方案如下:
應用場景咨詢與系統(tǒng)方案設計
浪潮 AI 解決方案專家與客戶商討深度學習應用場景,共同分析計算熱點和瓶頸,幫助設計適合客戶應用場景的系統(tǒng)方案。
應用代碼移植優(yōu)化
浪潮異構應用專家可以幫助客戶分析 CPU 代碼特征,辨別是否適合遷移至異構加速部件,并共同將代碼熱點進行移植優(yōu)化,提升應用的計算效率,時間更短。
計算加速部件性能橫向評測
浪潮針對 GPU/FPGA/KNM 等主流異構加速部件擁有成熟的橫向評測方法,可以幫助客戶選擇適合的部件。
目前,浪潮的解決方案為行業(yè) AI 轉型提供賦能支撐。
浪潮與百度合作推出 ABC 一體機,這一設備集合了百度自研的集群管理軟件、優(yōu)化引擎和浪潮 AI 計算硬件平臺,支持 PaddlePaddle、TensorFlow、Caffe 等主流深度學習框架,內嵌成熟的算法模型和云管理技術。
據浪潮介紹,ABC 人臉識別一體機支持百度人臉檢測、1:1 人臉對比和 1:N 人臉查找三大人臉識別核心能力,可以根據人臉面部的 72 個特征點識別多種人臉屬性,如性別、年齡、表情等信息,并計算人臉相似度,可用于用戶身份。
圖:浪潮與百度攜手打造 ABC 一體機
此外,浪潮很早就開始與科大訊飛合作訓練語音神經網絡模型,從將模型訓練從 CPU 單機上擴展到多機,而后又開展如何在 FPGA 上運行語音神經網絡模型的研究,實現(xiàn)更高的性能。
目前,浪潮在計算平臺、管理套件、框架優(yōu)化和應用加速上已經形成有機的 AI 生態(tài)。劉軍表示,對于渴望 AI 轉型的企業(yè),從客觀看,極其需要這四層能力,而浪潮作為賦能者,能將這四層能力賦予這些企業(yè),讓其更快速地實現(xiàn) AI 落地。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。