0
本文作者: 貝爽 | 2020-12-21 18:01 |
12月20日,由深度學習技術(shù)及應(yīng)用國家工程實驗室與百度聯(lián)合主辦WAVE SUMMIT+ 2020在北京盛大舉行。
峰會上,百度首席技術(shù)官王海峰及研究團隊向開發(fā)者們展示了飛槳八大全新發(fā)布與升級,包括:
有支持前沿技術(shù)探索和應(yīng)用的生物計算平臺 PaddleHelix 螺旋槳,開發(fā)更加便捷的飛槳開源框架 2.0 RC 版,端云協(xié)同的 AI 集成開發(fā)環(huán)境 BML CodeLab,支持更強大分布式訓練的業(yè)界首個通用異構(gòu)參數(shù)服務(wù)器架構(gòu),開源算法庫增至 200+,飛槳企業(yè)版 EasyDL 智能數(shù)據(jù)服務(wù)升級,飛槳硬件生態(tài)路線圖以及攜手全球開發(fā)者開啟「大航?!褂媱潯?/p>
飛槳(PaddlePaddle)是百度深度學習開發(fā)平臺,也是國內(nèi)最早開源的深度學習框架。
2020年,在新基建浪潮下,AI市場加速下沉,各行各業(yè)都拉開了智能化升級的大幕。在以深度學習為代表的人工智能發(fā)展浪潮之下,深度學習技術(shù)在賦能行業(yè)智能化轉(zhuǎn)型中發(fā)揮了重要作用。
在本次峰會上,作為人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展的基礎(chǔ)設(shè)施,百度飛槳再次交出一份亮眼的成績單。
百度副總裁吳甜在會上表示,截止目前,百度飛槳凝聚開發(fā)者265萬, 創(chuàng)造模型超過34萬;攜手20家硬件廠商,適配芯片與IP型號29種;服務(wù)企業(yè)超10萬家,覆蓋金融、交通、物流等數(shù)十個行業(yè)。
據(jù)此前報道,在今年5月的WAVE SUMMIT+峰會上,百度飛槳發(fā)布35項全面升級以及飛槳全景圖,當時平臺開發(fā)者數(shù)量、模型數(shù)量、服務(wù)企業(yè)數(shù)量分別為190萬、23萬和8.4萬,對比目前來看,飛槳的技術(shù)與生態(tài)發(fā)展顯然正在提速。
接下來,我們來逐一揭秘飛槳的最新升級成果。
百度飛槳首次將行業(yè)觸角伸向了全新的生物計算領(lǐng)域。峰會上,百度集團副總裁吳甜重磅發(fā)布了基于飛槳的生物計算平臺——螺旋槳(PaddleHelix)。
螺旋槳是一款生物計算開源工具集,提供包括RNA二級結(jié)構(gòu)預測、大規(guī)模的分子預訓練、DTI藥物靶點親和力預測以及ADMET成藥性預測等在內(nèi)的新藥研發(fā)和疫苗設(shè)計環(huán)節(jié)的核心能力,為生物信息學、計算機交叉學科背景的學習者、研究者和合作伙伴,更便利地構(gòu)建AI算法模型。
此前,百度研究院面向全球疫苗研發(fā)機構(gòu)及研究中心等公益開放了LinearDesign算法,并開源了RNA二級結(jié)構(gòu)預測的Linear系列算法。最近,國際頂尖人工智能峰會The AI Summit舉辦,百度憑借LinearFold和Linear算法在新冠抗疫中的表現(xiàn),榮獲AIconics首屆“AI For Good”人工智能向善獎。
吳甜表示,螺旋槳生物計算平臺將秉承一貫以來的開源開放原則,與合作伙伴共建共享,未來形成一套完整的面向行業(yè)的生物計算生態(tài)和服務(wù)。目前百度推出的《基于機器學習的生物計算平臺技術(shù)要求》,已成為行業(yè)內(nèi)首個生物計算平臺的標準立項。
從今年5月飛槳發(fā)布全新全景圖,再到螺旋槳這一重磅工具組件的“加盟”,可見,飛槳平臺在不斷迭代拓新,持續(xù)提升核心能力同時,進一步夯實了人工智能開源開放與創(chuàng)新發(fā)展的底座。
峰會上,更讓開發(fā)者們驚艷的是飛槳開源框架V2.0RC版的重磅發(fā)布。
百度深度學習技術(shù)平臺部高級總監(jiān)馬艷軍表示,在新框架下,飛槳動態(tài)功能更加成熟、API功能更加強大,“編程一致”、“動靜統(tǒng)一”的特性將為開發(fā)者們帶來全新的體驗,同時也將為深度概率編程、量子機器學習等前沿學術(shù)研究提供更好的支持。
飛槳 2.0RC 版已將默認的開發(fā)模式正式升級為動態(tài)圖模式。
靜態(tài)圖和動態(tài)圖是深度學習框架的兩種主要編程范式。靜態(tài)圖模式能夠?qū)φw性做編譯優(yōu)化,有利于性能的提升,而動態(tài)圖的優(yōu)勢在于便于用戶調(diào)試。
馬艷軍介紹稱,全新升級版飛槳融合了兩種變成范式的優(yōu)勢,在保證性能的同時,可方便開發(fā)者隨時查看變量的輸入、輸出,或者使用 Python 原生的控制流靈活組網(wǎng)。
此外,為了克服動態(tài)圖在C++語言部署上的挑戰(zhàn),飛槳 2.0RC還提供了完備的動轉(zhuǎn)靜支持。在動態(tài)圖編程調(diào)試的過程中,開發(fā)者僅需添加一個小小的裝飾器,就可以無縫平滑地自動轉(zhuǎn)靜態(tài)圖訓練部署。同時,2.0RC 版本的飛槳還做到了模型存儲和加載的接口統(tǒng)一,保證動轉(zhuǎn)靜之后保存的模型文件能夠被純動態(tài)圖加載和使用。
飛槳V2.0RC版本中還有一項重大的變化:API體系的全面升級。會上,馬艷軍主要介紹升級版API的三大特性:
一是體系化:新增了200多個API,并對所有API進行了全量功能增強以及體系化分類;
二是簡潔性:實現(xiàn)了高層API與基礎(chǔ)API一體化設(shè)計,有助于開發(fā)者的交叉使用;高層API的發(fā)布可減少大量模型的訓練代碼,實現(xiàn)簡易開發(fā)。
三是兼容性:V2.0RC版完全向前兼容,它還提供了遷移工具,基于其他底層框架的開發(fā),同樣可遷移至飛槳V2.0實現(xiàn)預測和部署。
隨后,馬艷軍還正式推出了大規(guī)模分布式訓練的升級——業(yè)內(nèi)首個通用異構(gòu)參數(shù)服務(wù)器架構(gòu),它可以大幅提升訓練效率,節(jié)約成本,真正實現(xiàn)訓練效率最優(yōu)化;
在搜索推薦領(lǐng)域,通用模型常常有大規(guī)模稀疏特征的特點,在訓練IO密集型任務(wù)時,通常需要CPU來搭建參數(shù)服務(wù)器架構(gòu)。但為了更好的性訓練效果,開發(fā)者常常會在推薦模型中增加越來越復雜的網(wǎng)絡(luò)結(jié)構(gòu),這使訓練算力成為一個很大的問題。
傳統(tǒng)架構(gòu)要求硬件類型必須一致,無法加入算力比較強的硬件,但如果完全替換成GPU硬件,它有不擅長處理IO密集型任務(wù)。
馬艷軍稱,在這種背景下,我們提出了異構(gòu)參數(shù)服務(wù)器訓練架構(gòu),通過性能測試,在相同硬件條件下,異構(gòu)參數(shù)服務(wù)器比單純的非異構(gòu)的硬件能夠提升65%以上,同時它還可以保持非常高的性價比,比如2個CPU加上2個GPU就可以達到4個GPU相應(yīng)的速度。
除了大規(guī)模分布式訓練外,開源算法庫也進行了同步升級。目前,開源官方算法數(shù)量已從140+擴展到了200+,其中包括各個領(lǐng)域的多種算法,并且大多數(shù)算法已升級到了動態(tài)圖實現(xiàn)。
最后,馬艷軍正式對外發(fā)布了飛槳硬件生態(tài)路線圖。從今年5月份發(fā)布了硬件生態(tài)圈共建的計劃以來,百度已經(jīng)與20家芯片硬件企業(yè)達成了合作,目前正在適配和已經(jīng)完成適配的芯片和IP型號已達29種,這在國產(chǎn)芯片支持上面占據(jù)了絕對的領(lǐng)先優(yōu)勢。
飛槳企業(yè)版也帶來了最新升級。峰會上,百度AI平臺研發(fā)部總監(jiān)忻舟介紹了飛槳企業(yè)版發(fā)布和升級的兩大亮點功能:全新AI集成開發(fā)環(huán)境和智能數(shù)據(jù)服務(wù)平臺。
飛槳企業(yè)版包括零門檻AI開發(fā)平臺EasyDL和全新功能AI開發(fā)平臺BML,分別針對AI應(yīng)用開發(fā)者和AI算法開發(fā)者提供開發(fā)體驗。
忻舟首先介紹了BML的最新成果,即端云協(xié)同的AI集成開發(fā)環(huán)境BML CodeLab??紤]到開發(fā)者在使用BML時更關(guān)注算法的開發(fā)效率,比如它的應(yīng)用性、參數(shù)調(diào)優(yōu)、實驗管理等。忻舟表示,BML CodeLab為開發(fā)者提供了三大特性:開發(fā)體驗增強、開箱即用的便捷性以及端云協(xié)同能力。
優(yōu)化體驗,BML CodeLab優(yōu)化了50多個項目體驗,包括GPU環(huán)境簡化,任務(wù)管理,專有庫分發(fā)等,其中最具特色的是LSP((Language Server Protocol)的集成。
開箱即用:其客戶端內(nèi)置飛槳文心(ERNIE)NLP套件及單機高性能技術(shù)引擎。
端云協(xié)同:支持將本地任務(wù)無縫擴展到包括百度智能云在內(nèi)的多個云端算力平臺,加強客戶端的可擴展性和靈活性;
EasyDL是專門為零開發(fā)基礎(chǔ)的用戶設(shè)計的AI應(yīng)用平臺,內(nèi)置了視頻、圖像、文本、語音等6個技術(shù)方向高精度預訓練模型,用戶只需將業(yè)務(wù)數(shù)據(jù)置于其中,并進行標注,平臺可自動根據(jù)任務(wù)需求進行模型訓練。為了應(yīng)對復雜的數(shù)據(jù)處理過程,EasyDL為開發(fā)者提供了智能數(shù)據(jù)服務(wù)服務(wù)平臺Easy Data,它可提供從數(shù)據(jù)清洗、數(shù)據(jù)擴充、數(shù)據(jù)標注,到管理分析,再到模型上線后的數(shù)據(jù)回流的一站式便捷服務(wù)。
關(guān)于本次的技術(shù)升級,忻舟也主要講了三個方面:
核心算法和硬件升級:使智能標注時長平均減少74%,物體檢測和圖像分割上準確性分別提升了6.4和3.2個百分點。
多人標注能力升級:深度學習任務(wù)需要大量數(shù)據(jù)標注,擔任標準難以滿足數(shù)據(jù)量需求;滿足多人標注能力,同時解決了傳統(tǒng)數(shù)據(jù)分發(fā)、審核的難題;提供了標簽管理特色功能,讓數(shù)據(jù)處理更加靈活、高效。
數(shù)據(jù)清洗升級:基于飛漿的人臉識別和人體識別模型,過濾大量無效樣本,顯著提高了數(shù)據(jù)處理效率。
吳甜表示,百度飛槳正在各行業(yè)、多地域、眾領(lǐng)域發(fā)揮作用并產(chǎn)生更大的影響,峰會上,她從產(chǎn)業(yè)應(yīng)用、人才培養(yǎng)以及開源生態(tài)建設(shè)分享了飛漿生態(tài)的最新成果與未來計劃。
在產(chǎn)業(yè)應(yīng)用方面,飛槳平臺擁有超過34萬個模型,服務(wù)了超過10萬家企業(yè)。吳甜表示,從平臺數(shù)據(jù)統(tǒng)計來看,飛槳的行業(yè)應(yīng)用品類的分散程度明顯在增加,越來越多的行業(yè)及企業(yè)開始借助飛槳實現(xiàn)產(chǎn)業(yè)智能化升級。
峰會上,來自新能源領(lǐng)域的寧德時代科技公司、中國石油領(lǐng)域的昆侖數(shù)智科技公司現(xiàn)場分享了使用百度飛槳的項目經(jīng)驗與成果。同時,百度飛槳與深度學習技術(shù)及應(yīng)用國家工程實驗室聯(lián)合為12家企業(yè)頒發(fā)了“產(chǎn)業(yè)應(yīng)用創(chuàng)新獎” 。
在人才建設(shè)方面,百度飛槳凝聚了265萬開發(fā)者,累計提交超過16萬次,開源貢獻者超過了5000位,其中97位優(yōu)秀的開發(fā)者通過層層篩選成為了百度飛槳開發(fā)者技術(shù)專家(PPDE)。在高校人才方面,飛槳也在持續(xù)投入,截止目前,飛槳的全國師資培訓計劃已經(jīng)覆蓋500多所高校,支持200余所高校開設(shè)學分課程;AI大賽覆蓋全球五大洲22個國家580所高校;累計舉辦線上直播可176次,在AI Studio上累計學習的人次超過了290萬。
未來針對AI人才培養(yǎng),尤其是高校人才培養(yǎng),飛漿還將持續(xù)加大力度。峰會上,百度AI技術(shù)生態(tài)部總經(jīng)理劉倩重磅發(fā)布了飛槳“大航?!庇媱?。
該計劃包含:面向核心開發(fā)者的“領(lǐng)航”、面向人才培養(yǎng)的“啟航”和面向產(chǎn)業(yè)智能化升級的“護航”三個部分。
劉倩表示,圍繞高校人才培養(yǎng)的啟航計劃,未來三年,百度飛槳將投入總價值5億元的資金與資源,支持全國500所高校,重點培訓5000位高校AI教師,聯(lián)合培養(yǎng)50萬AI未來人才。
除了產(chǎn)業(yè)共進、人才共育之外,百度飛槳也在攜手合作伙伴共建開源項目,驅(qū)動技術(shù)創(chuàng)新。此次大會上,清華大學計算機系教授、深度學習技術(shù)及應(yīng)用國家工程實驗室副主任朱軍介紹了珠算深度概率編程與百度飛槳的合作,依托飛槳框架成熟的底層功能和動靜統(tǒng)一的開發(fā)體驗,更好地支持深度概率編程工具開發(fā)和前沿技術(shù)探索。
可以看出,百度飛槳的產(chǎn)業(yè)生態(tài)正在加速滲透到社會各界。
265萬開發(fā)者、十多種行業(yè)超10萬家企業(yè),作為國產(chǎn)最大的深度學習平臺,百度飛槳歷經(jīng)四年,憑借不斷的技術(shù)升級、迭代逐漸獲得了業(yè)界的認可和青睞,同時也逐漸在以Tensflow、PyTorch為首的壟斷市場占據(jù)了一席之地。
與此同時,透過飛槳的技術(shù)創(chuàng)新與產(chǎn)業(yè)發(fā)展路徑,我們也可以看到,開源開放作為其核心驅(qū)動力的巨大潛力。
如王海峰所說,開源開放讓我們可以更快追蹤到最新的技術(shù)進展,并將改進意見以及創(chuàng)新思想迅速進行反饋,形成一個正循環(huán),進一步推動科技的創(chuàng)新迭代。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。