1
本文作者: 楊曉凡 | 2017-08-10 09:15 |
雷鋒網(wǎng) AI 科技評(píng)論按:IBM 研究院上傳了一篇論文到 arXiv,介紹了自己幾乎能夠達(dá)到理想性能的分布式深度學(xué)習(xí)軟件,它不僅帶來(lái)了優(yōu)秀的溝通開(kāi)銷(xiāo),讓64臺(tái)IBM服務(wù)器上的256個(gè)英偉達(dá)GPU發(fā)揮出了95%的拓展效率,訓(xùn)練時(shí)間和模型準(zhǔn)確率也分別創(chuàng)下了新紀(jì)錄。完成這項(xiàng)研究的團(tuán)隊(duì)負(fù)責(zé)人 IBM Fellow Hillery Hunter 也為此撰寫(xiě)了一篇文章,介紹了這個(gè)軟件的更多信息。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。
深度學(xué)習(xí)是一種廣泛使用的人工智能方法,它可以讓計(jì)算機(jī)理解和提取畫(huà)面和聲音中的含義,人類(lèi)世界對(duì)世界的大多數(shù)體驗(yàn)也就是來(lái)自這兩種感官的。這樣的技術(shù)有潛力給生活中的方方面面帶來(lái)突破,小到手機(jī)上的app,大到醫(yī)學(xué)圖像診斷。但是如何提升深度學(xué)習(xí)的準(zhǔn)確率和如何構(gòu)建大規(guī)模的實(shí)用深度學(xué)習(xí)系統(tǒng)這兩個(gè)技術(shù)問(wèn)題一直橫亙?cè)谌藗兠媲?,比如大型的、?fù)雜的深度學(xué)習(xí)模型所需的訓(xùn)練時(shí)間就需要幾天甚至幾周。
IBM 研究院中的一支團(tuán)隊(duì)就一直專(zhuān)注于解決這樣的問(wèn)題,他們的目標(biāo)是降低用大規(guī)模數(shù)據(jù)集訓(xùn)練大型模型所需的時(shí)間,最好能把訓(xùn)練時(shí)間從幾天、幾小時(shí),縮短到幾分鐘、幾秒,同時(shí)還要提高模型的準(zhǔn)確率。這是非常宏大的挑戰(zhàn),他們依靠在數(shù)量眾多的服務(wù)器和英偉達(dá)GPU上運(yùn)行分布式深度學(xué)習(xí)來(lái)應(yīng)對(duì)挑戰(zhàn)。
大多數(shù)熱門(mén)的深度學(xué)習(xí)框架都可以方便地從單個(gè)GPU拓展到同一個(gè)服務(wù)器內(nèi)的多個(gè)GPU上,但是繼續(xù)拓展到多個(gè)服務(wù)器之間就不行了。IBM團(tuán)隊(duì)(Minsik Cho, Uli Finkler, David Kung等人)就在這里施展拳腳,他們重新編寫(xiě)了軟件和算法,讓大規(guī)模、復(fù)雜的計(jì)算任務(wù)可以在幾十個(gè)服務(wù)器中的上百個(gè)GPU之間自動(dòng)并行并優(yōu)化。
IBM 的軟件除了能夠讓不同服務(wù)器之間的訓(xùn)練過(guò)程完全同步之外,它們的溝通開(kāi)銷(xiāo)也非常小。從結(jié)果上看,當(dāng)深度學(xué)習(xí)算法拓展到了超過(guò)100個(gè)英偉達(dá)GPU上以后,它在具有750萬(wàn)圖像的 ImageNet-22K 數(shù)據(jù)集的圖像識(shí)別測(cè)試中創(chuàng)造了33.8%準(zhǔn)確率的新紀(jì)錄,這項(xiàng)測(cè)試此前的最好結(jié)果是來(lái)自微軟的29.8%。在這項(xiàng)測(cè)試中得到4%的準(zhǔn)確率提升是非常難得的,以往的各項(xiàng)研究所能帶來(lái)的提升往往都不到1%。IBM 開(kāi)發(fā)出的分布式深度學(xué)習(xí)(distributed deep learning,DDL)方法不僅讓他們?cè)跍?zhǔn)確率上得到了驚人的提升,在裝著上百個(gè)英偉達(dá)GPU的幾十臺(tái)服務(wù)器上訓(xùn)練一個(gè) ResNet-101 神經(jīng)網(wǎng)絡(luò)需要的時(shí)間也只需要不到7個(gè)小時(shí);微軟訓(xùn)練同一個(gè)模型花了10天。正是靠著 DDL 代碼和算法解決了本來(lái)強(qiáng)大的深度學(xué)習(xí)框架在拓展性方面的諸多問(wèn)題,IBM 才能夠達(dá)成這樣的成果。
模型訓(xùn)練之后的測(cè)試就是在極限狀況下考察模型的表現(xiàn),即便 33.8% 的準(zhǔn)確率乍一聽(tīng)不是很誘人,它也比以往的結(jié)果有著顯著提高。對(duì)于任意一張測(cè)試圖像,這個(gè)訓(xùn)練后的人工智能模型從在2萬(wàn)2千個(gè)物體種類(lèi)中選出它判斷的可能性最高的類(lèi)別,所選結(jié)果的準(zhǔn)確率就是這個(gè)33.8%。IBM 的這項(xiàng)技術(shù)可以讓其它用來(lái)執(zhí)行具體任務(wù)的人工智能模型,比如醫(yī)學(xué)圖像的癌細(xì)胞檢測(cè),擁有更精確的診斷,而且可以在短短幾個(gè)小時(shí)內(nèi)重新訓(xùn)練完畢。
Facebook 2017年6月的一篇論文中介紹了他們用較小的模型(ResNet 50)在較小的數(shù)據(jù)集(ImageNet-1k)上取得的優(yōu)異成績(jī)。文中他們也這樣描述了所遇到的問(wèn)題:“深度學(xué)習(xí)需要大規(guī)模的神經(jīng)網(wǎng)絡(luò)和大規(guī)模的數(shù)據(jù)集。然而它們帶來(lái)的結(jié)果是更長(zhǎng)的訓(xùn)練時(shí)間,這就對(duì)研究和開(kāi)發(fā)過(guò)程都造成了很大阻礙。”
但是滑稽的是,在多個(gè)服務(wù)器上對(duì)深度學(xué)習(xí)問(wèn)題做協(xié)作計(jì)算和優(yōu)化,隨著GPU越來(lái)越快變得越來(lái)越難。這種現(xiàn)象給深度學(xué)習(xí)系統(tǒng)帶來(lái)的功能損失就推動(dòng)著 IBM 團(tuán)隊(duì)開(kāi)發(fā)新的 DDL 軟件,來(lái)讓熱門(mén)開(kāi)源軟件 Tensorflow、Caffe、Torch、Chainer 上的大規(guī)模神經(jīng)網(wǎng)絡(luò)也可以高速、高準(zhǔn)確率地處理大規(guī)模數(shù)據(jù)集。
IBM 的研究員用盲人摸象的故事來(lái)形容他們要解決的問(wèn)題:“每個(gè)盲人都摸到了大象身上的一小部分,但只能摸到一個(gè)部分,比如肚子或者象牙。然后他們就根據(jù)自己那一小部分的經(jīng)驗(yàn)來(lái)描述整個(gè)大象,他們的意見(jiàn)也就完全統(tǒng)一不起來(lái)”?,F(xiàn)在,在最初的意見(jiàn)沖突之后,如果給他們足夠的時(shí)間,他們其實(shí)可以互相之間分享信息,足夠多的小塊信息拼起來(lái)就可以對(duì)整個(gè)大象有不錯(cuò)的整體感知。
并行訓(xùn)練就跟這個(gè)類(lèi)似,如果用一組 GPU 分別處理深度學(xué)習(xí)訓(xùn)練問(wèn)題中的一部分,目前來(lái)講整個(gè)并行訓(xùn)練過(guò)程還是要花幾天或者幾個(gè)星期,那么把這些訓(xùn)練結(jié)果同步起來(lái)并不算難。但是隨著 GPU 變得越來(lái)越快,它們學(xué)習(xí)的速度也快多了,每個(gè)GPU和其它GPU分享學(xué)習(xí)結(jié)果的所需的速度已經(jīng)不是傳統(tǒng)軟件可以提供的了。這就對(duì)系統(tǒng)網(wǎng)絡(luò)帶來(lái)了很大的壓力,同時(shí)也是一個(gè)麻煩的技術(shù)問(wèn)題。簡(jiǎn)單點(diǎn)說(shuō),更聰明、更快的學(xué)習(xí)者(GPU們)需要更好的溝通方式,不然它們之間無(wú)法同步,大多數(shù)的時(shí)間就會(huì)浪費(fèi)在等待別人的學(xué)習(xí)結(jié)果中——這樣一來(lái)更多、更快的GPU可能就不會(huì)帶來(lái)更高的性能,性能降低都是有可能的。
IBM 通過(guò) DDL 軟件近乎完美地解決了這種拓展帶來(lái)的性能損失問(wèn)題,最顯著的體現(xiàn)指標(biāo)就是拓展效率,換句話說(shuō)就是隨著GPU數(shù)目的增加,實(shí)際系統(tǒng)和理想系統(tǒng)之間的差距有多大。這個(gè)指標(biāo)也從側(cè)面反映了學(xué)習(xí)過(guò)程中這256個(gè)GPU之間互相溝通得到底好不好。
此前256個(gè)GPU協(xié)作的最好結(jié)果是 Facebook AI 研究院中的一支團(tuán)隊(duì)達(dá)成的,他們用了一個(gè)較小的深度學(xué)習(xí)模型 ResNet 50,用到的數(shù)據(jù)集也是較小的 ImageNet-1K,其中有大概一百三十萬(wàn)張圖像;更小的模型和更少的數(shù)據(jù)都可以降低計(jì)算復(fù)雜度。選擇了較大的8192的batch size之后,在一個(gè)具有256塊英偉達(dá)P100 GPU的服務(wù)器集群上通過(guò)Caffe2深度學(xué)習(xí)軟件達(dá)到了89%的拓展效率。IBM 用同樣的數(shù)據(jù)集也訓(xùn)練了一個(gè) ResNet 50 模型,通過(guò) DDL 軟件,他們用 Caffe 獲得了高達(dá)95%的拓展效率,如下圖。它運(yùn)行在一個(gè)有64臺(tái)“Minsky” Power S822LC服務(wù)器的集群上,每個(gè)服務(wù)器上有4塊P100 GPU。
在大模型、大數(shù)據(jù)集的 ImageNet-22K 中的750萬(wàn)張圖像訓(xùn)練 ResNet 101模型任務(wù)中,在選擇了 5120的batch size以后,IBM 也達(dá)到了88%的拓展效率。
IBM 的團(tuán)隊(duì)還創(chuàng)造了一項(xiàng)新紀(jì)錄,此前 Facebook 保持了用 ImageNet-1K 數(shù)據(jù)集訓(xùn)練 ResNet 50 模型只需要1個(gè)小時(shí)的記錄,IBM 借助 DDL 把基于 Torch 的模型拓展到了256塊GPU上,訓(xùn)練所需時(shí)間隨之刷新到了50分鐘。Facebook 的模型是基于 Caffe2的。
對(duì)開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家來(lái)說(shuō),IBM 研究團(tuán)隊(duì)的 DDL 軟件提供了整套的 API 可供各種深度學(xué)習(xí)框架調(diào)用,以便拓展到多臺(tái)服務(wù)器上。在 PowerAI 企業(yè)級(jí)深度學(xué)習(xí)軟件第4版中就會(huì)帶有一個(gè) DDL 的技術(shù)預(yù)覽版,從而給任何需要訓(xùn)練深度學(xué)習(xí)模型的企業(yè)提供這樣的集群拓展特性。在給人工智能大家庭提供了這樣的 DDL特性以后,IBM 的研究團(tuán)隊(duì)希望更多的人在掌握了計(jì)算機(jī)集群的力量以后也可以達(dá)成更高的模型準(zhǔn)確率。
論文地址:https://arxiv.org/abs/1708.02188
via IBM Research Blog,雷鋒網(wǎng) AI 科技評(píng)論編譯
相關(guān)文章:
IBM Watson 視覺(jué)識(shí)別新高度,采用 GPUs 分布式網(wǎng)絡(luò)看懂圖片內(nèi)涵
分布式機(jī)器學(xué)習(xí)時(shí)代即將來(lái)臨?谷歌推出“Federated Learning”
Keras 之父講解 Keras:幾行代碼就能在分布式環(huán)境訓(xùn)練模型 | Google I/O 2017
騰訊正式開(kāi)源高性能分布式計(jì)算平臺(tái)Angel1.0,追趕同行腳步
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。