0
雷鋒網(wǎng) AI 科技評論按,2019 年 4 月 23 日,首屆 WAVE SUMMIT 2019 深度學習開發(fā)者峰會在北京舉辦,會上,來自工業(yè)界的多家展商展示了基于 PaddlePaddle 訓練的包括瓷器質(zhì)檢、遙感影像目標檢測與語義分割、軸承外觀缺陷檢測等多個系統(tǒng),百度高級副總裁、深度學習技術及應用國家工程實驗室主任王海峰,百度深度學習技術平臺部總監(jiān)馬艷軍均上臺發(fā)言,分別闡述了深度學習在智能時代的重要意義以及推進 PaddlePaddle 的價值、PaddlePaddle 的一系列新特性,在會上,更是重磅發(fā)布 PaddlePaddle 中文名「飛槳」以及 AI studio 億元免費算力支持計劃。而來自學術界和工業(yè)界的嘉賓也共聚一堂,對深度學習的發(fā)展情況以及未來展開激烈探討。
深度學習在諸多研究領域的重要性
開場伊始,百度高級副總裁王海峰博士表示,人類經(jīng)歷的三次工業(yè)革命,分別以機械技術、電氣技術和信息技術為核心驅(qū)動力,而現(xiàn)在,人工智能是第四次工業(yè)革命核心驅(qū)動力量,這一技術會將人類社會帶入智能時代。
隨后,他也從語音識別、語音合成、OCR 技術、自然語言處理以及機器翻譯諸多層面對深度學習帶來的重大價值進行了舉例。諸如機器翻譯,最早基于規(guī)則系統(tǒng),依據(jù)領域知識,但是由人工撰寫規(guī)則,存在規(guī)則沖突,耗時也耗力,隨后進展到統(tǒng)計機器翻譯,由人工設計特征,需要機器自動訓練,但也存在模型多、單個模型無法遷移到其他場景的問題,到現(xiàn)在的基于神經(jīng)網(wǎng)絡機器,依靠深度神經(jīng)網(wǎng)絡,利用端到端模型全自動學習,這樣大大節(jié)省了人力資源和成本。
在這一過程中,深度學習框架的發(fā)展極具現(xiàn)實意義。他強調(diào),深度學習推動人工智能進入工業(yè)大生產(chǎn)階段,深度學習框架是智能時代的操作系統(tǒng),從最底層芯片出發(fā),我們需要通過框架來訓練模型,隨后才能完成各種業(yè)務模型,觸及各個行業(yè)應用。
圖:PaddlePaddle 全景
針對深度學習工具的必要性,他也為廣大開發(fā)者重溫了 PaddlePaddle 的各種功能。PaddlePaddle 包括核心框架、工具組件和服務平臺三大部分。在核心框架層面,可以為開發(fā)者提供開發(fā)、訓練和預測三大能力,在此之上,百度提供包括視覺、自然語言處理等在內(nèi)的豐富模型,通過模塊化的方式提供給使用者。在工具組件上,PaddlePaddle 提供包括遷移學習、強化學習、自動化網(wǎng)絡結構設計、訓練可視化工具、彈性深度學習計算等在內(nèi)的多個工具組件,適應工業(yè)大生產(chǎn)的需要。而在服務平臺層面,PaddlePaddle 則提供零基礎定制化訓練和服務平臺 EasyDL 以及一站式開發(fā)平臺 AI Studio。他表示,這一整套的框架和服務,可以幫助廣大開發(fā)者和企業(yè)利用工具化、平臺化的方式,進一步降低深度學習應用門檻,加速推動產(chǎn)業(yè)智能化變革。
百度 PaddlePaddle 全新升級,中文名「飛槳」
隨后,馬艷軍上臺從開發(fā)、訓練、預測、工具、服務五個層面出發(fā),介紹了全新升級的 PaddlePaddle。
開發(fā)環(huán)節(jié),主要包括 PaddleNLP 和視頻識別工具集的升級。
馬艷軍表示,PaddlePaddle 目前已經(jīng)支持 60 多個經(jīng)過真實業(yè)務場景驗證的官方模型,涵蓋視覺、自然語言處理、推薦等 AI 核心技術領域。此次,PaddlePaddle 提供 NLP 和 CV 領域的更多模型,在 NLP 領域,提供語義表示模型 ERNIE、BERT、ELMo,語言模型 LSTM、GRU,語義匹配組網(wǎng)集 SimNet,在 CV 領域,提供諸如流行的 fast R-CNN、faster R-CNN、mask R-CNN、SSD、VGG、ResNet 等豐富的模型。
另外,此次發(fā)布的視頻識別工具集能共享骨架代碼,覆蓋當前 7 個經(jīng)典的視頻分類模型,包括百度的 stNet、Attention LSTM 和 Attention Cluster,還可實現(xiàn)一鍵式的高效配置來做訓練和預測。
訓練環(huán)節(jié),主要是大規(guī)模分布式訓練和工業(yè)級數(shù)據(jù)處理上的升級。
大規(guī)模分布式訓練主要從三方面實現(xiàn)升級。首先全面支持多機多卡,其次在 CPU 的應用場景方面,針對大規(guī)模稀疏特征設計并開放了大規(guī)模稀疏參數(shù)服務器,此外,提供 K8S 生態(tài)支持。
在數(shù)據(jù)處理方面,主要有如下四大優(yōu)勢:分布式樣本 Shuffle、分布式文件系統(tǒng) IO 支持、高性能多生產(chǎn)者-多消費者設計、多種語言 IO 組件的靈活嵌?。
而在預測環(huán)節(jié),PaddlePaddle 支持完整的端到端全流程部署方案,在服務端部署上,提供完備的在線服務能力,支持硬件設備的擴展,以及快速部署。此外,PaddleSlim 模型壓縮工具庫能夠在精度損失較小的情況下高效進?模型體積壓縮。
在工具組件上,PaddlePaddle 不僅重磅開源 AutoDL Design、升級 PARL,并首次提出并發(fā)布預訓練一站式管理工具 PaddleHub。AutoDL Design 自動化網(wǎng)絡結構設計是用深度學習設計深度學習,目前已經(jīng)全面超過人類專家設計的網(wǎng)絡效果。升級后的強化學習工具 PARL,在算法的覆蓋、高性能通訊以及并行的訓練方面做了大量支持和擴展。PaddleHub提供包括預訓練模型管理、命令行一鍵式使用和遷移學習三大功能,10 行代碼即可讓開發(fā)者完成模型遷移。
發(fā)布 AI studio 一億元免費算力支持計劃以及未來更新圖
而在服務方面,百度發(fā)布億元算力支持計劃,支持開發(fā)者免費試用工業(yè)旗艦 GPU,同時提供免費安裝的集成環(huán)境,開發(fā)者可以直接上手試用。在這里,提供兩種模式,一是一人一張 V100 訓練卡,提供 16GB 顯存以及最高 2TB 的存儲空間,這里可以使用邀請碼獲贈算力時長,邀請好友加入即可獲贈更多時長。二是遠程集群模式,百度提供單卡 12GB 顯存,開發(fā)者可以多卡并行訓練,以及不限時免費試用。這里登錄 AI studio 即可使用。
面向高校、開發(fā)者和企業(yè),PaddlePaddle 也有不同的方案,針對高校,提供深度學習師資培訓班,針對開發(fā)者,有免費在線課程以及算力支持,此外還舉辦不間斷的賽事,而針對企業(yè),則設置 AI 黃埔學院、AI 快車道以及百度 AI 技術生態(tài)扶持。
在會上,馬艷軍也公布了 PaddlePaddle 未來一系列新計劃:
在 2019 年 7 月,將實現(xiàn)如下四項功能:
動態(tài)圖基本功能完善,新增流水線并行能力
提供視覺檢測、生成工具集,使用文檔全面優(yōu)化
顯存占用優(yōu)化,靜態(tài)圖訓練速度全面提升
優(yōu)化高速推理引擎,支持在更多硬件的快速擴展,完善支持半精度
2019 年 11 月,將實現(xiàn)如下四項功能:
動態(tài)圖實現(xiàn)與靜態(tài)圖靈活轉(zhuǎn)換,支持高層 API
動態(tài)圖訓練速度全面優(yōu)化
PaddleHub 升級到 2.0,基于最完備的預訓練模型庫進行遷移學習
多項行業(yè)應用解決方案發(fā)布
而在會后,雷鋒網(wǎng) AI 科技評論也針對以下開發(fā)者所關注的問題對馬艷軍進行了提問,以下為問答環(huán)節(jié)。
雷鋒網(wǎng):2016 年 9 月,百度開源 PaddlePaddle,發(fā)展至今,PaddlePaddle 與 TensorFlow 以及 PyTorch 相比,主要差異點在哪里,對于開發(fā)者來說,使用它有哪些優(yōu)勢?
馬艷軍:PaddlePaddle 是在我們的產(chǎn)業(yè)實踐中持續(xù)研發(fā)和完善起來的,我們的 slogan 也是「源自產(chǎn)業(yè)實踐的開源深度學習平臺」。因此 PaddlePaddle 貼合實際應用場景,真正滿足工業(yè)場景的應用需求。PaddlePaddle 也開放了深度學習產(chǎn)業(yè)應用中的最佳實踐。如官方支持面向真實場景應用、達到工業(yè)級應用效果的模型,針對大規(guī)模數(shù)據(jù)場景的分布式訓練能力、支持多種異構硬件的高速推理引擎,訓練所支持的數(shù)據(jù)規(guī)模、訓練速度、推理支持的硬件全面性、推理速度更優(yōu)。
第二,PaddlePaddle 不僅僅包含深度學習框架,而是提供一整套緊密關聯(lián)、靈活組合的完整工具組件和服務平臺,更加有利于深度學習技術的應用落地。目前 PaddlePaddle 完整具備了端到端的平臺能力。去年我們就將 PaddlePaddle 定位為深度學習平臺,我們布局也是很早的。所以,我們出的各種相應的配套工作都做得非常完善,開發(fā)者能在實打?qū)嵉膽美矬w驗到,在這個方面 PaddlePaddle 和其他框架相比形成了自己的特色。
雷鋒網(wǎng):在 TensorFlow 以及 PyTorch 發(fā)展非常成熟的今天,推動 PaddlePaddle 在中國的進展非常有難度,你們是如何應對的?
馬艷軍:確實有一定的先發(fā)優(yōu)勢在那兒,不過開發(fā)者的眼睛和手都是很快的,只要什么地方出了什么好用的東西他們很快就能看得到并用起來。所以,我們一直還是覺得真正把這個東西做好用了,開發(fā)者自然而然就會用。這是其一。
其二,我們確實有自己的技術優(yōu)勢,真正能讓開發(fā)者用起來的,不管是產(chǎn)業(yè)實踐特色還是自己就有很多結合場景做出原創(chuàng)模型和系統(tǒng)的能力,以及百度 AI 生態(tài)的影響力,我們還是有很強的勢能,能夠真正把這個東西做起來。
雷鋒網(wǎng):前幾年大家一直關注 AI 框架,但是近年來框架同質(zhì)化嚴重,而且發(fā)展很成熟了。有種說法是,作為 AI 工程師,我們應該跳出框架的桎梏,往更廣泛的領域?qū)ふ覂r值。您如何看待這一觀點?
馬艷軍:首先,深度學習技術有比較好的通用性,能比較好地解決人工智能領域的很多問題。而深度學習框架是智能時代的操作系統(tǒng),能夠讓深度學習更容易使用起來,從而讓 AI 進入廣泛應用。因此深度學習框架在 AI 時代處在一個十分關鍵的位置。其次,我們自己的業(yè)務場景也需要對深度學習和深度學習框架做更加深入的技術研發(fā),而且我們自己在這些領域也處在非常領先的位置,會持續(xù)在這個領域引領技術的發(fā)展。
時至今日,PaddlePaddle 與 PyTorch、TensorFlow 等各種框架的發(fā)展,正如手機操作系統(tǒng)中的 IOS 與 Android 一樣。在如今框架發(fā)展日益成熟的今天,你在使用什么框架?歡迎留言討論。
Ps:一枚PaddlePaddle小餅干,送給大家。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。