曠視研究院田忠博：曠視深度學習框架天元的開源演進 | CCF-GAIR 2020

本文作者：張夢華

2020-08-18 17:37

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導語：天元深度學習框架的技術(shù)特點、迭代歷程與開源生態(tài)。

雷鋒網(wǎng)按：8 月 7 日 - 9 日，由中國計算機學會（CCF）主辦，雷鋒網(wǎng)、香港中文大學（深圳）承辦，鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦的第五屆 CCF-GAIR 2020 全球人工智能與機器人峰會如期落地。

8 日，大會與 AI 研習社、OpenI 啟智社區(qū)聯(lián)合舉辦“AI 源創(chuàng)專場”，重點討論了新基建背景下，國內(nèi)開源創(chuàng)新建設將催生的新勢能，以及其將引發(fā)和促進的新產(chǎn)業(yè)機會。

會上，曠視研究院高級技術(shù)總監(jiān)田忠博做了主題為《天元深度學習框架的開源演進》的分享。

曠視在數(shù)據(jù)、算力、算法方面有三大驅(qū)動：數(shù)據(jù)管理平臺 MegData 、深度學習云計算平臺 MegCompute、深度學習框架 MegEngine，三者共同構(gòu)成了曠視的 AI 生產(chǎn)力平臺 Brain++。

田忠博首先追溯了 Brain++ 的發(fā)展，從曠視在 AI 生產(chǎn)力基礎設施構(gòu)建上所積累的強大能力以及天元深度學習框架開源初衷展開，解析了天元深度學習框架的技術(shù)特點、迭代歷程，及其正在努力構(gòu)建的開源生態(tài)。雷鋒網(wǎng)將田忠博的演講進行了不改變原意的編輯，以下為全文：

大家好，我是曠視研究院的田忠博，我今天跟大家分享曠視在天元深度學習框架上的進展，也希望能夠借助這個機會和在座的各位專家、各位同仁以及觀看現(xiàn)場直播的朋友們介紹曠視是如何通過開源開放推動 AI 行業(yè)發(fā)展的。

曠視 AI 生產(chǎn)力平臺 Brain++

我們認為，AI 有三個最主要的核心因素：數(shù)據(jù)、算力和算法。曠視自研的 AI 生產(chǎn)力平臺 Brain++ 包括數(shù)據(jù)管理平臺 MegData ，深度學習云計算平臺 MegCompute，今天我要著重介紹的是其中最核心的組件——深度學習框架天元 MegEngine。現(xiàn)在曠視所有的算法研究和生產(chǎn)都是使用 MegEngine 進行的。

簡單回顧一下曠視 Brain++ 的發(fā)展歷程。2014年，MegEngine 立項，我們開始對它進行研發(fā)。2015 年，曠視的研發(fā)和生產(chǎn)都遷移到了 Brain++ 體系上來，我們多次用這樣的技術(shù)獲得了國際頂級 AI 競賽的冠軍，同時也依托這套技術(shù)在曠視研究院持續(xù)發(fā)布我們最領先的技術(shù)成果。2019 年，AI 生產(chǎn)力平臺 Brain++ 在烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上獲得了“世界互聯(lián)網(wǎng)先進成果獎”，這是對曠視技術(shù)理念和實踐的認可。

2020 年 3 月，曠視決定將 Brain++ 的核心組件——深度學習框架天元 MegEngine 開源出來，我們也希望開源出來的框架能夠幫助更多企業(yè)、研究機構(gòu)以及學生更好地使用最新的 AI 技術(shù)。

我們第一個開源版本是天元 0.3.1，到 2020 年 6 月底，我們發(fā)布了 Beta 版，差不多經(jīng)歷了 90 天的時間。這期間有 339 個 committers 為天元貢獻代碼，代碼量從 35 萬行增長到 48 萬行。

我們也剛剛發(fā)布了 0.6 版本。我們有非常積極活躍的開發(fā)體系，希望把最新的工作和研究成果體現(xiàn)在天元的代碼倉庫中。

天元深度學習框架的技術(shù)特點

大家可能會想，現(xiàn)在已經(jīng)有很多的深度學習框架，天元的開源意義是什么？天元能給大家?guī)硎裁?？我給大家介紹一下天元的總體架構(gòu)。

曠視研究院田忠博：曠視深度學習框架天元的開源演進 | CCF-GAIR 2020

天元框架從上到下分成五個層次，最上面是服務開發(fā)者的 API 層，大家通過 API 層直接和深度學習框架打交道。我們提供了 Python 和 C++ 的接口，通過 C++ 接口可以進行工業(yè)生產(chǎn)和研發(fā)。

下面有統(tǒng)一的圖的表示層?，F(xiàn)在深度學習框架有動態(tài)計算和靜態(tài)計算兩種流派，我們有動態(tài)圖和靜態(tài)圖的表示方式，但在不同的表示方式下有統(tǒng)一的核心計算圖，這是天元比較重要的區(qū)別。

曠視研究院田忠博：曠視深度學習框架天元的開源演進 | CCF-GAIR 2020

天元在核心的計算圖層提供了優(yōu)化和編譯功能，可以實現(xiàn)自動求導，完成復雜的圖優(yōu)化，使大家通過 API 層，將用戶表達的人類可理解的計算范式，轉(zhuǎn)化為機器易執(zhí)行的范式。

圖編譯層可以做復雜的代碼生成和代碼的算子融合，進一步提升效率。

下面的一個層次是運算和運行管理。在運行期間，我們需要管理內(nèi)存、不同設備的同步，這里包括計算的調(diào)度和內(nèi)存管理的調(diào)度。在計算調(diào)度方面，我們把所有的設備抽象成流，通過流調(diào)度器，跨異構(gòu)設備的圖形可以被非常好地管理起來。

同時，我們在內(nèi)存方面也下了非常大的功夫。我們有一個非常先進的靜態(tài)內(nèi)存管理器和管理機制，通過對整個計算流程的分析和分解，能夠排布、安排內(nèi)存最優(yōu)的方案。在我們的測算下，靜態(tài)可以給予相比主流框架 10% 到 20% 的提升。同時我們支持動態(tài)內(nèi)存管理，可以把尺寸可變的內(nèi)存有效管理起來。

深度優(yōu)化器可以有效解決在內(nèi)存比較小的設備上進行大規(guī)模模型訓練的問題。

最底層我們實現(xiàn)了一整套的計算內(nèi)核層，實現(xiàn)一套高性能的算子，可以實現(xiàn)跨設備異構(gòu)計算的統(tǒng)一接口，可以支持 X86、CUDA、ARM 和 ASIC 的設備，包括高性能異構(gòu)通信庫，支撐大規(guī)模分布式訓練的需求。

深度學習框架天元非常重要、核心的特性就是可以同時在同一個框架內(nèi)訓練、量化、推理。

曠視是全球領先的人工智能產(chǎn)品和解決方案公司，既做人工智能方面的技術(shù)研究，同時也有非常強烈的需求把最新的成果變成每個人都可以獲得的產(chǎn)品。所以我們在設計框架之初就有非常強烈的想法，把訓練和推理在同一個框架內(nèi)解決。

現(xiàn)在我們發(fā)現(xiàn)它有非常大的好處，比如說能夠?qū)崿F(xiàn)一次訓練多端部署，能實現(xiàn)從訓練到量化到推理的完整解決方案，可以支持各種主流量化范式，特別是量化感知訓練，可以在精度幾乎無損失的情況下進行低精度模型的生產(chǎn)，同時保持最好的性能。

曠視研究院田忠博：曠視深度學習框架天元的開源演進 | CCF-GAIR 2020

訓練、推理、量化放在一起，不需要復雜的模型轉(zhuǎn)化，不需要其它中間工具輔助，還可以借助這樣的機制，在整個流程中嵌入自動模型優(yōu)化手段，極大加速從原始算法到產(chǎn)品生成的流程。

曠視發(fā)現(xiàn)，靜態(tài)的計算范式和動態(tài)范式各有長處。動態(tài)便于科學實驗，靜態(tài)方案非常適合做生產(chǎn)部署，所以我們把靜態(tài)圖、動態(tài)圖在同樣的范式內(nèi)整合起來。我們可以把動態(tài)運行的部分變成靜態(tài)運行的部分，關(guān)掉也可以用動態(tài)的方式執(zhí)行，可以利用動態(tài)強大的表達能力和表達特性，很容易把全部的范式進行快速的產(chǎn)品部署。我們也可以進行混合編程，在部分結(jié)構(gòu)靈活地穿插起來。

對于現(xiàn)在的深度學習框架來說，計算速度和性能不僅在訓練側(cè)，部署側(cè)也越來越關(guān)鍵，我們可以看到，天元與主流框架訓練時的對比，包括單卡和 8 卡的對比，都擁有明顯的性能優(yōu)勢。推理框架的性能也非常出色，有 10%、20% 甚至更多的性能提升。

曠視研究院田忠博：曠視深度學習框架天元的開源演進 | CCF-GAIR 2020

得益于內(nèi)存方面的工作，我們不管在訓練還是推理方面，對很多 IoT 設備、手機應用功耗都更友好，適用面更多。

我們還有非常全面的平臺支持。Beta 版不僅包括英特爾 x86，還有 SSE、AVX、AVX512-VNNI。CUDA 支持 Maxwell、Pascal、Turing，ARM 支持 V7、V8、V8.2。天元可以實現(xiàn)更高的性能，更加靈活高效，而且可以在同一平臺上同時支持英特爾 8 和 float 32 的推理，這樣大家可以在同一個平臺上非常容易地調(diào)用自己的量化模型。

曠視研究院田忠博：曠視深度學習框架天元的開源演進 | CCF-GAIR 2020

天元還有一個特點是簡單易用。我們做開源框架，用戶是否容易上手使用非常關(guān)鍵。我們會不斷提升用戶使用體驗，完善優(yōu)化我們的文檔體系、工具體系，幫助大家快速上手。

現(xiàn)在的主流框架中，其實對于推理、量化的部分，相關(guān)介紹文章非常少，0.5.0 版本里我們完成了一整套推理部署教程，讓大家可以一步一步完成模型從訓練到完整部署的全部過程。中間有推理性能分析工具和優(yōu)化文檔，可以看到各個算子在當前設備上的性能，也可以幫我們發(fā)現(xiàn)當前需要完善和提升的部分。同時，我們可以提供很好的一致性，可以在 Linux、Windows、Mac、Android 甚至自己的應用中，在一些無操作性的環(huán)境中部署和運行。

我們提供了量化參考模型，大家可以拿到量化模型訓練代碼以及預訓練模型，得到具體的量化方式。同時我們有完整的對量化進行操作解讀的方案，大家利用這樣標準化的量化方式就能夠自行對模型量化和優(yōu)化，而且使用方法非常簡單。

曠視研究院田忠博：曠視深度學習框架天元的開源演進 | CCF-GAIR 2020

這里我提到的是亞線性內(nèi)存優(yōu)化技術(shù)，利用計算換取減少內(nèi)存的使用量。這是我們在原有論文的基礎上實現(xiàn)的一整套基于遺傳算法方案的搜索，可以通過邊界聯(lián)動、塊的移動，在有殘差的結(jié)構(gòu)搜尋到最節(jié)省的因素，用最小的方案使得在幾乎不影響速度的情況下大幅度減少設備使用內(nèi)存。

天元框架技術(shù)生態(tài)

我們期待以更開放的心態(tài)和大家一起把項目做得更好，我們也在這里做了很多工作，一方面希望把自己的研究成果拿出來，比如我們建立的天元的研究中心，包括最近的圖像分類、檢測、分撥、自然語言處理和標準的量化模型，都是在使用最頻繁、最精煉的骨干網(wǎng)絡。

我們還引入新型的算法。大家知道生成式對抗網(wǎng)絡，這是非常流行的方法，我們在天元的模型中心提供了基于 DCGAN 和 WGAN 的方式，也實現(xiàn)了 Simple Baseline 和 MSPN。

我們發(fā)表了一篇以開源為主要發(fā)布方式的論文，密集人群檢測的一些情況里，兩個人的重合非常高，以至于以前的檢測算法很難檢出，新的算法則可以把重疊嚴重的人體檢測出來，這樣的代碼也會通過天元發(fā)布出來。我們希望構(gòu)建學術(shù)方面的影響力，可以幫助大家更好地認識天元和天元生態(tài)，也希望大家和我們一起做這方面的學術(shù)研究。

為了方便大家使用，我們還提供了 MegStudio 開箱即用的 AI 環(huán)境，大家可以在上面注冊分配使用CPU 資源，試用我們的模型，也可以看一下天元現(xiàn)在的成熟程度和可用程度到底達到了什么樣的情況。

我們的網(wǎng)站上提供了豐富的文檔體系，包括如何做分布式訓練，如何進行亞線性性能的優(yōu)化，如何做模型部署，如何定制自己的算子，如何做量化，如何進行分析以及安卓推理，包括文檔、API 文檔全部提供了中文翻譯，希望方便更多的、各個層次的開發(fā)者獲得想要的知識。

我們還在官方網(wǎng)站上提供了我們和北大的深度學習實踐系列課程，由曠視研究院院長的孫劍老師和資深研究員給大家授課，非常適合深度學習的初學者與愛好者了解這個行業(yè)的整體概況和先進技術(shù)。我們還提供了 MegEngine使用入門課程，學習 MegEngine 的使用方式。

我們想做好天元的生態(tài)，和更多合作伙伴合作。（崔）寶秋老師促成了我們和小米 MACE 的合作，另外我們也和 Tengine 合作。我們希望通過這樣的方式，更多體系內(nèi)的研究員和學生都能享受到整個開源社區(qū)給大家?guī)淼暮脰|西。

我們在今年的 9 月份，把第一個里程碑的版本天元 1.0 版本推給大家。我們希望天元的生態(tài)更加開放、更加完善、更加具有吸引力，希望把更多有競爭力、有吸引力的功能提供給大家，助力中國開放生態(tài)的發(fā)展。希望大家加入我們的社區(qū)，和我們一起實踐天元的核心理念，共建開源社區(qū)，謝謝大家。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

專題

CCF-GAIR 2020 全球人工智能與機器人峰會

本專題其他文章

張夢華

編輯

發(fā)私信

當月熱門文章