百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

本文作者：張夢(mèng)華

2020-08-13 08:52

專題：CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

導(dǎo)語(yǔ)：飛槳是百度 AI 的基礎(chǔ)底座，在此之上完成的定制化開(kāi)發(fā)，可最終形成具備 AI 能力的完整方案。

雷鋒網(wǎng)按：8 月 7 日 - 9 日，由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦的第五屆 CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)如期落地。

8 日，大會(huì)與 AI 研習(xí)社、OpenI 啟智社區(qū)聯(lián)合舉辦“AI 源創(chuàng)專場(chǎng)”，重點(diǎn)討論了新基建背景下，國(guó)內(nèi)開(kāi)源創(chuàng)新建設(shè)將催生的新勢(shì)能，以及其將引發(fā)和促進(jìn)的新產(chǎn)業(yè)機(jī)會(huì)。

會(huì)上，百度深度學(xué)習(xí)技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍做了主題為《開(kāi)源深度學(xué)習(xí)平臺(tái)助力產(chǎn)業(yè)智能化：百度飛槳的實(shí)踐》的分享，他從開(kāi)源如何為產(chǎn)業(yè)賦能的角度切入，結(jié)合飛槳四年來(lái)的成長(zhǎng)與實(shí)踐案例，就開(kāi)源深度學(xué)習(xí)框架如何進(jìn)行生態(tài)構(gòu)建、深度學(xué)習(xí)如何賦能產(chǎn)業(yè)、飛槳的智能化落地案例等給出了清晰的解讀。雷鋒網(wǎng)將馬艷軍的演講進(jìn)行了不改變?cè)獾木庉嫞韵聻槿模?/span>

我跟大家分享的主題是“開(kāi)源深度學(xué)習(xí)平臺(tái)助力產(chǎn)業(yè)智能化”，我會(huì)從開(kāi)源如何給產(chǎn)業(yè)賦能這個(gè)角度分享。

飛槳在 2016 年已經(jīng)開(kāi)源了，時(shí)間是比較早的，在這個(gè)過(guò)程中，我們一直認(rèn)為，技術(shù)的迭代有兩個(gè)方面：

首先，在百度內(nèi)部會(huì)有大量的應(yīng)用，并且非常注重配合大量的落地場(chǎng)景，這會(huì)驅(qū)動(dòng)我們做一些事情，比如速度做得更快，部署做得更好。

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

然后，在這個(gè)循環(huán)過(guò)程中持續(xù)打磨開(kāi)源項(xiàng)目。開(kāi)源以后，我們社區(qū)里的開(kāi)發(fā)者非常多，他們的要求非?？量?。社區(qū)里開(kāi)源的工程師把代碼亮出來(lái)以后，大家都能知道你是如何設(shè)計(jì)的，以及你的代碼、文檔有沒(méi)有問(wèn)題。這就對(duì)整個(gè)編程的易用性、API 的完備性提出了新的要求，這些要求以前在公司內(nèi)不做開(kāi)源時(shí)就不會(huì)考慮太多。

這兩個(gè)循環(huán)同時(shí)進(jìn)行，就形成了一個(gè)產(chǎn)品。百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

現(xiàn)在的飛槳框架部分已經(jīng)滿 70 萬(wàn)行代碼，是工程量非常大的工作。如果再加上圍繞核心框架的周邊一系列的模型、工具，現(xiàn)在飛槳有 200 萬(wàn)行代碼。這樣規(guī)模的工程量，要想真正讓它打磨得比較順暢，需要慢慢做，確實(shí)沒(méi)辦法一下子放出一個(gè)跑起來(lái)不出問(wèn)題的大型的工程系統(tǒng)。

飛槳經(jīng)過(guò)這么長(zhǎng)時(shí)間，已經(jīng)形成完整的體系，現(xiàn)在有一些能力可以直接在平臺(tái)上使用。

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

開(kāi)源深度學(xué)習(xí)框架的建設(shè)和很多開(kāi)源項(xiàng)目有一定的差異性。很多開(kāi)源項(xiàng)目是把這個(gè)開(kāi)源項(xiàng)目做好，其他人拿去用就可以了。但深度學(xué)習(xí)框架上下游的生態(tài)比較復(fù)雜，我們經(jīng)常說(shuō)，它是一個(gè)生態(tài)系統(tǒng)的問(wèn)題。生態(tài)系統(tǒng)里要和很多芯片做對(duì)接，因?yàn)橐谒鏊惴ㄑ邪l(fā)，再被集成解決方案，形成比較深的產(chǎn)業(yè)鏈條，由此就形成了生態(tài)。

所以，開(kāi)源深度學(xué)習(xí)框架和一般開(kāi)源項(xiàng)目的差異性就在于，它的生態(tài)體系構(gòu)建非常關(guān)鍵，比如說(shuō) 飛槳放在這兒沒(méi)人用那它就掛了，因?yàn)闆](méi)有生態(tài)體系和它一起聯(lián)動(dòng)。沒(méi)有生態(tài)的構(gòu)建很成問(wèn)題，現(xiàn)在國(guó)內(nèi)的深度學(xué)習(xí)框架一直朝著生態(tài)構(gòu)建的方向發(fā)展，開(kāi)源就是幫助構(gòu)建生態(tài)的很好的方式。

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

飛槳發(fā)展了這么長(zhǎng)時(shí)間，在很多行業(yè)中已經(jīng)被應(yīng)用，使用的場(chǎng)景也很多。AI 在應(yīng)用時(shí)和行業(yè)綁定非常緊密，需要結(jié)合很多行業(yè)專家的知識(shí)，并和 AI 技術(shù)平臺(tái)一起設(shè)計(jì)可在企業(yè)中應(yīng)用的更完整方案。

另一方面，深度學(xué)習(xí)框架需要和芯片做深度的對(duì)接適配才能達(dá)到高性能?，F(xiàn)在芯片的種類還是蠻多的，把芯片設(shè)計(jì)好需要非常大的工作量，芯片企業(yè)要做更多的貢獻(xiàn)才能把能力提升上來(lái)。

現(xiàn)在真實(shí)應(yīng)用中使用的芯片類型也是不一樣的，環(huán)境差別很大。真正要讓深度學(xué)習(xí)框架在芯片上跑起來(lái)，是非常大的工程，可能得投入不小的工程團(tuán)隊(duì)開(kāi)發(fā)一年左右，才能把整個(gè)硬件的功能進(jìn)行很好的適配。

咱們國(guó)家做開(kāi)源很重要，需要時(shí)間投入，耐心把這事兒做了，沒(méi)有巧妙的辦法把工程開(kāi)發(fā)的時(shí)間繞過(guò)去。一定要投入時(shí)間，把這些工程開(kāi)發(fā)做了才有更好的發(fā)展基礎(chǔ)。

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

飛槳一直和國(guó)內(nèi)外的芯片企業(yè)都有非常緊密的合作，做軟硬件的適配，社區(qū)也有快速的成長(zhǎng)。到現(xiàn)在，整個(gè)飛槳在 Github 共有 45000 的 Star。

做項(xiàng)目的過(guò)程中，第三方的生態(tài)貢獻(xiàn)增長(zhǎng)非常重要。第三方生態(tài)貢獻(xiàn)增長(zhǎng)是指什么？比如飛槳這個(gè)項(xiàng)目，很多的開(kāi)發(fā)不是百度工程師做的，還有一些其他人在基于這個(gè)做出新的項(xiàng)目和更多的貢獻(xiàn)，這就是第三方的貢獻(xiàn)。我們很高興地看到，今年上半年，由于疫情原因，大家的時(shí)間變多了，貢獻(xiàn)也非常踴躍，Star 數(shù)增長(zhǎng)速度非?？?，整個(gè)生態(tài)也在快速成長(zhǎng)。這說(shuō)明國(guó)內(nèi)的開(kāi)發(fā)者也在積極主動(dòng)做這樣的事情。

飛槳也有一個(gè)開(kāi)發(fā)者專家計(jì)劃（PPDE），希望不同層次的開(kāi)發(fā)者都能夠加入到這里面做貢獻(xiàn)，可以給框架做貢獻(xiàn)，也可以貢獻(xiàn)算法庫(kù)，貢獻(xiàn)各種各樣的應(yīng)用工具，由此形成整套開(kāi)發(fā)體系。非常歡迎開(kāi)發(fā)者加入這個(gè)項(xiàng)目。

飛槳核心技術(shù)

我們常常說(shuō)飛槳有幾個(gè)特點(diǎn)：

一是框架層，我們是動(dòng)態(tài)圖和靜態(tài)圖統(tǒng)一設(shè)計(jì)的框架，希望可以從動(dòng)態(tài)圖編程轉(zhuǎn)成靜態(tài)圖部署，并做到極致。百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

另外是訓(xùn)練。百度做大規(guī)模的數(shù)據(jù)處理，天然需要有大規(guī)模訓(xùn)練能力。這個(gè)大規(guī)模訓(xùn)練也有很大的挑戰(zhàn)，包括真正做了大規(guī)模、分布式，飛槳的大規(guī)模分布式訓(xùn)練已經(jīng)經(jīng)過(guò)了實(shí)踐驗(yàn)證，比如速度提上來(lái)了，收斂性怎么樣，精度是否有保證，這些都需要在實(shí)踐檢驗(yàn)中持續(xù)打磨。

再就是部署，對(duì)多種硬件的支持。飛槳目前已經(jīng)支持非常多的硬件，尤其對(duì)國(guó)產(chǎn)芯片也進(jìn)行了深入的適配融合。

最后是模型算法。飛槳開(kāi)放了很多的算法，這上面的算法有 146 個(gè)，工業(yè)界使用比較廣泛的基本都涵蓋了。

動(dòng)態(tài)圖的編程是飛槳主推的，代碼的行數(shù)、編程靈活性都提升很多，語(yǔ)義理解的算法現(xiàn)在都是動(dòng)態(tài)圖實(shí)現(xiàn)。

大規(guī)模分布式訓(xùn)練在 CPU 和 GPU 上都有做，并且支持異構(gòu)硬件的訓(xùn)練，我們也做了大規(guī)模的稀疏參數(shù)訓(xùn)練，這些在公司內(nèi)用得很多，多種大規(guī)模的分布式訓(xùn)練模式都能支持。百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

大家可以看到，部署是多種平臺(tái)、多種操作系統(tǒng)都支持。這就是部署麻煩的地方，要適配的環(huán)境很多、很復(fù)雜，需要很多的工程化工作才能把部署做上去。

現(xiàn)在飛槳的模型庫(kù)算法很多，涵蓋的任務(wù)也很多，這些算法我們都做了比較多的調(diào)優(yōu)工作，把算法的速度、訓(xùn)練的速度、參數(shù)本身設(shè)計(jì)到最優(yōu)。

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

飛槳助力產(chǎn)業(yè)智能化：案例剖析

互聯(lián)網(wǎng)行業(yè)對(duì)深度學(xué)習(xí)的擁抱是非常明顯的，但要進(jìn)一步擴(kuò)展到更多的行業(yè)，還有非常大的空間。今天的案例不是互聯(lián)網(wǎng)行業(yè)，而是實(shí)體經(jīng)濟(jì)——無(wú)人巡檢的場(chǎng)景。

我們是制造業(yè)大國(guó)，制造在我們國(guó)家占的 GDP 比重非常大。在真實(shí)的生活中，很多事情需要檢測(cè)，比如設(shè)備是否可以正常運(yùn)轉(zhuǎn)；工廠里也常常有很多檢查，比如聽(tīng)到設(shè)備發(fā)生異響，這些都是真實(shí)場(chǎng)景里遇到的。

深度學(xué)習(xí)在真實(shí)場(chǎng)景中的應(yīng)用面臨的挑戰(zhàn)非常多，比如它有可能算力非常低，不像很多互聯(lián)網(wǎng)公司有大型的服務(wù)器。在很多真實(shí)的行業(yè)場(chǎng)景，不僅很多算力很低，也沒(méi)那么多的內(nèi)存，這種情況下，要把深度學(xué)習(xí)技術(shù)真正應(yīng)用到行業(yè)中就需要克服很多不一樣的挑戰(zhàn)。百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

舉一個(gè)例子，要監(jiān)測(cè)哪兒有沒(méi)有著火，需要在某個(gè)位置架設(shè)一個(gè)攝像頭，把深度學(xué)習(xí)影像拍到。這是挺復(fù)雜的系統(tǒng)，深度學(xué)習(xí)的模型訓(xùn)練只是其中一環(huán)，行業(yè)里的業(yè)務(wù)系統(tǒng)是比較復(fù)雜的，即使設(shè)計(jì)了一個(gè)系統(tǒng)，跟業(yè)務(wù)系統(tǒng)再對(duì)接也是非常復(fù)雜的工作。這個(gè)過(guò)程就需要后臺(tái)的訓(xùn)練，從數(shù)據(jù)標(biāo)注到模型訓(xùn)練，通過(guò)攝像頭、相機(jī)、光源一系列的因素，包括無(wú)人機(jī)的配合，在邊緣端進(jìn)行計(jì)算，和后臺(tái)形成聯(lián)動(dòng)，最后形成預(yù)警系統(tǒng)。

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

整個(gè)系統(tǒng)搭建需要很復(fù)雜的設(shè)計(jì)，這個(gè)理念會(huì)涉及比較難的技術(shù)點(diǎn)，比如檢測(cè)有沒(méi)有著火，需要目標(biāo)檢測(cè)技術(shù)。飛槳開(kāi)源的目標(biāo)檢測(cè)工具 PaddleDetection 里面有一些非常經(jīng)典和實(shí)用的算法，結(jié)合真實(shí)的場(chǎng)景、少量的數(shù)據(jù)，效果基本上足夠你用。內(nèi)存要求有限，ARM 算力有限，可以通過(guò) PaddleSlim 把模型變小。

另外需要部署，要部署在 ARM 架構(gòu)的芯片上面，快速運(yùn)行，這其中的技術(shù)選型就非常關(guān)鍵。

我們通過(guò)技術(shù)使得很小的模型識(shí)別的精度也可以非常高。煙霧檢測(cè)一方面要有高準(zhǔn)確率，再就是推理速度，比如著火這種應(yīng)急場(chǎng)景下，對(duì)性能的要求非常高。

這是今年在淄博發(fā)生的一件真實(shí)的事情。高壓線底下著火，通過(guò)剛剛的技術(shù)方案，可以真正發(fā)現(xiàn)并解決問(wèn)題。百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

目標(biāo)檢測(cè)在真實(shí)場(chǎng)景中應(yīng)用非常多，是復(fù)雜的技術(shù)，里面涉及到的組件非常豐富，另外還需要把壓縮能力和部署能力打通，涉及到的工程化工作非常多。這些都是通過(guò) PaddleDetection 開(kāi)源的。我們提供了一系列的算法，開(kāi)發(fā)者可以非常靈活地組合自己想要的算法。當(dāng)然我們也提供了在什么場(chǎng)景下用什么最好的組合方案，直接給出了幾款應(yīng)用最多、效果最好的算法。

算法豐富性、精度、速度以及一系列的驗(yàn)證，這個(gè)套件已經(jīng)在很多場(chǎng)景下做了很多工作，基本上可以放心用到工業(yè)、企業(yè)里。

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

訓(xùn)練完這些模型以后，我們需要做一些壓縮工作。算力畢竟有限，部署的場(chǎng)景非常復(fù)雜，有可能是服務(wù)器，有可能是邊緣端、網(wǎng)頁(yè)端的程序，也有可能集成到軟件上或是做服務(wù)，部署的環(huán)節(jié)是非常復(fù)雜的流程，需要做非常多的工作。

我們把主流的壓縮方案都做了，跟檢測(cè)、分割算法庫(kù)結(jié)合可以直接實(shí)現(xiàn)模型的壓縮和使用。通過(guò) Paddle Lite，可以實(shí)現(xiàn)的算法適用比較多，現(xiàn)在在飛騰、寒武紀(jì)、百度昆侖、RK、華為NPU、MTK APU 等多種芯片都可以實(shí)現(xiàn)端到端的使用。

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

飛槳在百度 AI 中是基礎(chǔ)底座，對(duì)于整個(gè) AI 平臺(tái)而言是底層技術(shù)，這個(gè)基礎(chǔ)上會(huì)有一系列的定制化開(kāi)發(fā)以及 AI 能力，比如語(yǔ)音、語(yǔ)言、視覺(jué)，再結(jié)合一些場(chǎng)景化的方案，最終會(huì)形成一整套具備 AI 能力的完整方案。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

專題

CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

本專題其他文章

張夢(mèng)華

編輯

發(fā)私信

當(dāng)月熱門文章

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020

CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

百度技術(shù)平臺(tái)部高級(jí)總監(jiān)馬艷軍：開(kāi)源深度學(xué)習(xí)框架，生態(tài)構(gòu)建是核心，產(chǎn)業(yè)賦能是試金石 | CCF-GAIR 2020