丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

0

百度引入Ring Allreduce算法,大規(guī)模提升模型訓(xùn)練速度

本文作者: 亞萌 2017-02-22 19:25
導(dǎo)語:百度硅谷人工智能實(shí)驗(yàn)室(SVAIL)宣布將Ring Allreduce算法引進(jìn)深度學(xué)習(xí)領(lǐng)域,這讓基于GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度顯著提高。

雷鋒網(wǎng)消息,美國西部時(shí)間2月21日,百度硅谷人工智能實(shí)驗(yàn)室(SVAIL)宣布將Ring Allreduce算法引進(jìn)深度學(xué)習(xí)領(lǐng)域,這讓基于GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度顯著提高。

Ring Allreduce是高性能計(jì)算(HPC)領(lǐng)域內(nèi)一個(gè)眾所周知的算法,但在深度學(xué)習(xí)領(lǐng)域內(nèi)的應(yīng)用相對(duì)較少。而百度SVAIL實(shí)驗(yàn)室研究員Andrew Gibiansky也錄制了一個(gè)視頻介紹了關(guān)于Ring Allreduce的基本情況。

   

高效并行訓(xùn)練的需求

隨著神經(jīng)網(wǎng)絡(luò)參數(shù)越來越龐大,從幾億個(gè)參數(shù)與到數(shù)十億參數(shù),所需的GPU運(yùn)算節(jié)點(diǎn)也在增加。然而,節(jié)點(diǎn)數(shù)量越多,整個(gè)系統(tǒng)的效率就會(huì)降低。

深度學(xué)習(xí)在多個(gè)GPU上訓(xùn)練神經(jīng)網(wǎng)絡(luò)通常比較困難,因?yàn)榇蠹移毡椴捎玫姆椒ㄊ?,讓多個(gè)GPU把數(shù)據(jù)發(fā)送給一個(gè)reducer GPU上,這會(huì)造成一種通信瓶頸,整個(gè)訓(xùn)練速度會(huì)因此拖慢。而且要訓(xùn)練的數(shù)據(jù)越多,則帶寬瓶頸問題就顯得越嚴(yán)重。

百度引入Ring Allreduce算法,大規(guī)模提升模型訓(xùn)練速度

而ring allreduce算法移除了這種瓶頸,減少GPU發(fā)送數(shù)據(jù)花費(fèi)的時(shí)間,而把時(shí)間更多用在處理有用工作上。SVAIL發(fā)布的博文中這樣說道:

“ring allreduce 是這樣一種算法——其通信成本是恒定的,與系統(tǒng)中的 GPU 的數(shù)量無關(guān),并且僅由系統(tǒng)中的 GPU 之間的最慢連接來確定。事實(shí)上,如果在通信成本上你只考慮帶寬這一因素(并忽略延遲),那么 ring allreduce 就是一個(gè)最佳的通信算法 。


算法的進(jìn)行分兩步:第一步,scatter-reduce;第二步,allgather。在第一步中,GPU 將交換數(shù)據(jù),使得每個(gè) GPU 最終都有一個(gè)最終結(jié)果的數(shù)據(jù)塊。在第二步中,GPU 將交換那些塊,使得所有 GPU 最終得到完整的最后結(jié)果?!?/p>

Ring Allreduce 中的 GPU 被布置在一個(gè)邏輯環(huán)路(logical ring)之中。每個(gè) GPU 左右兩個(gè)各有一個(gè) GPU,并且只從左邊的 GPU 接收數(shù)據(jù),再把數(shù)據(jù)發(fā)送至右邊的 GPU。

百度引入Ring Allreduce算法,大規(guī)模提升模型訓(xùn)練速度

Ring Allreduce在接受采訪時(shí)說道:

“Ring allreduce可以讓我們?cè)诙嘣O(shè)備和多節(jié)點(diǎn)的情況下,更加有效地平均梯度。在訓(xùn)練中使用這個(gè)帶寬優(yōu)化的算法,你可以顯著減少通信開銷,并由此擴(kuò)展到更多的設(shè)備上,同時(shí)仍然保留同步隨機(jī)梯度下降的確定性和可預(yù)測(cè)的收斂性?!?/p>

百度已經(jīng)用這個(gè)算法來訓(xùn)練其語音識(shí)別模型,實(shí)驗(yàn)證明,與使用一個(gè)單獨(dú)的reducer GPU相比,ring allreduce 可以將一個(gè)神經(jīng)網(wǎng)絡(luò)在40個(gè)GPU上的訓(xùn)練速度提升31倍。

百度也將這算法分享出來,發(fā)布了一個(gè)演示該 allreduce 算法的 C 語言庫,也將該 allreduce 以補(bǔ)丁的形式整合到 TensorFlow 中。

另一個(gè)HPC與機(jī)器學(xué)習(xí)結(jié)合的例子

雷鋒網(wǎng)此前也報(bào)道過,最近日本東京技術(shù)研究院宣布,將在今年夏天啟動(dòng)日本“最快的AI超級(jí)計(jì)算機(jī)”項(xiàng)目,這個(gè)超級(jí)計(jì)算機(jī)名為Tsubame3.0,使用的是英偉達(dá)GPU加速芯片,使其性能較以往提升2倍。HPC市場與快速興起的AI市場有很大不一樣,超級(jí)計(jì)算機(jī)以往被用于例如天氣預(yù)測(cè)、氣候建模、太空和核模擬等領(lǐng)域,而針對(duì)AI優(yōu)化的芯片開始將這兩個(gè)領(lǐng)域結(jié)合起來。而百度這次,則將HPC領(lǐng)域的軟件技術(shù)應(yīng)用于深度學(xué)習(xí)領(lǐng)域,看起來,HPC和機(jī)器學(xué)習(xí)這兩個(gè)領(lǐng)域,正在以非??斓乃俣热诤?。

Via Tomshardware

更多雷鋒網(wǎng)相關(guān)文章:

三星計(jì)劃投入 10 億美元收購 AI 公司

AI加持,計(jì)算機(jī)要擁有嗅覺了

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

百度引入Ring Allreduce算法,大規(guī)模提升模型訓(xùn)練速度

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報(bào)道
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說