星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

本文作者：蔣寶尚

2020-06-13 16:39

導(dǎo)語(yǔ)：目前在AI領(lǐng)域面臨的一個(gè)很重大的問(wèn)題，其實(shí)是數(shù)據(jù)孤島問(wèn)題。

近期，星云Clustar首席科學(xué)家胡水海，以“GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索”為題，全面詳盡地講解了目前解決聯(lián)邦學(xué)習(xí)的性能與效率問(wèn)題，以及解決思路。

在報(bào)告中胡水海提到，聯(lián)邦學(xué)習(xí)的模型訓(xùn)練過(guò)程，很難繞開(kāi)同態(tài)計(jì)算和密文傳輸，二者對(duì)算力和網(wǎng)絡(luò)都有嚴(yán)苛的要求，星云Clustar也因此選擇從GPU加速同態(tài)運(yùn)算，以及高速網(wǎng)絡(luò)助力密文傳輸效力的角度切入，來(lái)改善聯(lián)邦學(xué)習(xí)的計(jì)算速度。

以下是胡水海的演講全文：

目前在AI領(lǐng)域面臨的一個(gè)很重大的問(wèn)題，其實(shí)是數(shù)據(jù)孤島問(wèn)題。在企業(yè)層面，大部分公司在開(kāi)發(fā)自己的AI模型的時(shí)候，其實(shí)并不缺少算法和應(yīng)用場(chǎng)景，也不缺少優(yōu)秀的人才，其所面臨的最大問(wèn)題是數(shù)據(jù)不足的問(wèn)題。

每個(gè)企業(yè)都有一些自己的數(shù)據(jù)，但是這些數(shù)據(jù)彼此之間是相互割裂的，也沒(méi)有一種方法將每個(gè)企業(yè)的數(shù)據(jù)高效地連通起來(lái)，所以一些小企業(yè)會(huì)面臨數(shù)據(jù)不足以及大企業(yè)數(shù)據(jù)壟斷問(wèn)題。

另一方面，無(wú)論國(guó)內(nèi)，還是國(guó)外，對(duì)數(shù)據(jù)隱私的保護(hù)都已經(jīng)被重視了起來(lái)。其實(shí)，從2012年開(kāi)始，國(guó)外歐盟已經(jīng)在逐步起草一些法律法規(guī)來(lái)保護(hù)數(shù)據(jù)安全以及用戶隱私，2018年5月份生效的GDPR更是將用戶數(shù)據(jù)安全提升到了另一個(gè)高度。

另外，在今年1月份，美國(guó)加州也出臺(tái)了相關(guān)法案，明確規(guī)定數(shù)據(jù)歸用戶所有。這些數(shù)據(jù)隱私保護(hù)的趨勢(shì)都在表明：企業(yè)已經(jīng)無(wú)法以明文的方式交換其擁有的數(shù)據(jù)。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

而對(duì)于國(guó)內(nèi)，從2009年開(kāi)始也在逐步出臺(tái)很多保護(hù)數(shù)據(jù)安全以及用戶隱私的法案?？偟膩?lái)看，國(guó)內(nèi)的數(shù)據(jù)法規(guī)政策有兩大趨勢(shì)，首先是對(duì)數(shù)據(jù)安全的保護(hù)事實(shí)上變得越來(lái)越嚴(yán)格，這直接體現(xiàn)為去年一些大數(shù)據(jù)公司在共享數(shù)據(jù)的時(shí)候，因?yàn)樾袨椴划?dāng)，受到了很?chē)?yán)厲的法律懲罰。

另外一方面是對(duì)數(shù)據(jù)安全的保護(hù)變得越來(lái)越全面，在各個(gè)領(lǐng)域各個(gè)維度都出臺(tái)了非常多的法律法規(guī)來(lái)保護(hù)數(shù)據(jù)隱私。所以，在上述背景下，解決數(shù)據(jù)孤島問(wèn)題其實(shí)就變得更加困難。但是聯(lián)邦學(xué)習(xí)的出現(xiàn)為安全合規(guī)地連接數(shù)據(jù)孤島，提供了一種非常有前景的方法。聯(lián)邦學(xué)習(xí)是一項(xiàng)數(shù)據(jù)不出本地，就可完成機(jī)器學(xué)習(xí)多方協(xié)作建立模型的技術(shù)。換句話說(shuō)這種數(shù)據(jù)不出本地的聯(lián)合建模技術(shù)，正是解決國(guó)內(nèi)企業(yè)數(shù)據(jù)孤島現(xiàn)狀的“良藥”。

聯(lián)邦學(xué)習(xí)與同態(tài)加密

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

聯(lián)邦學(xué)習(xí)有很多的優(yōu)點(diǎn)，首先能保證數(shù)據(jù)隔離，保證數(shù)據(jù)不會(huì)泄露到外部；其次聯(lián)邦學(xué)習(xí)有無(wú)損的性質(zhì)，保證聯(lián)合建模的效果等同于直接用所有的數(shù)據(jù)進(jìn)行建模的效果；再者，在聯(lián)邦學(xué)習(xí)里所有數(shù)據(jù)參與方的地位都是對(duì)等的；最后，聯(lián)邦學(xué)習(xí)能保證參與方共同獲益，有助于打破數(shù)據(jù)巨頭的壟斷地位。聯(lián)邦學(xué)習(xí)之所以能實(shí)現(xiàn)這些神奇的效果，其中有一項(xiàng)關(guān)鍵技術(shù)就是同態(tài)加密計(jì)算。

同態(tài)加密是一種特殊的非對(duì)稱加密系統(tǒng)，一般加密后的密文是一段無(wú)法操作的二進(jìn)制數(shù)，除非解密，不然不能對(duì)其進(jìn)行計(jì)算或其他操作。而同態(tài)加密好的密文仍然能進(jìn)行計(jì)算，得到仍然是加密的結(jié)果。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

最重要的是對(duì)密文進(jìn)行的計(jì)算，解密后跟對(duì)明文進(jìn)行計(jì)算后的結(jié)果相同。這個(gè)特性可以讓參與者進(jìn)行數(shù)據(jù)運(yùn)算，但無(wú)需知道參與計(jì)算的密文內(nèi)容。同態(tài)計(jì)算的應(yīng)用范圍非常廣，但是有一個(gè)顯著的缺陷，就是性能太低，具體有多低后面會(huì)分析，不過(guò)有一種折中的方式勉強(qiáng)能被接受，那就是部分同態(tài)加密。部分同態(tài)加密分為加法同態(tài)和乘法同態(tài)。

比如Paillier算法是加法同態(tài)，只支持密文跟密文相加。而著名的RSA算法則是乘法同態(tài)，支持密文跟密文相乘。具體的原理就不詳細(xì)展開(kāi)了，大家可以參考相關(guān)論文。值得一提的是，同態(tài)加密雖然能夠讓聯(lián)邦學(xué)習(xí)保護(hù)用戶隱私，但它其實(shí)也為聯(lián)邦學(xué)習(xí)帶來(lái)了很大的技術(shù)挑戰(zhàn)，這一點(diǎn)從與傳統(tǒng)機(jī)器學(xué)習(xí)方法的對(duì)比中能夠清晰看到。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

首先，傳統(tǒng)機(jī)器學(xué)習(xí)一般使用的是32-bit的基本運(yùn)算，這些基本運(yùn)算一般都有芯片指令的直接支持，而聯(lián)邦學(xué)習(xí)中的Paillier/RSA算法依賴的是1024或2048-bit 甚至更長(zhǎng)的大整數(shù)運(yùn)算，且這些運(yùn)算是模冪、模乘等復(fù)雜運(yùn)算；其次，在分布式計(jì)算時(shí)，傳統(tǒng)機(jī)器學(xué)習(xí)參數(shù)聚合使用內(nèi)網(wǎng)傳輸，而聯(lián)邦學(xué)習(xí)因?yàn)樯婕安煌膮⑴c方，這些參與方可能位于不同的城市，所以聯(lián)邦學(xué)習(xí)是使用廣域網(wǎng)進(jìn)行傳輸。

另一方面，從數(shù)據(jù)傳輸?shù)慕嵌葋?lái)看，聯(lián)邦學(xué)習(xí)對(duì)運(yùn)算位數(shù)多要求1024或2048-bit ，所以傳輸密文數(shù)據(jù)體積比傳統(tǒng)機(jī)器學(xué)習(xí)增加幾十倍；因?yàn)槁?lián)邦學(xué)習(xí)要求多次迭代，所以數(shù)據(jù)傳輸?shù)拇螖?shù)也是傳統(tǒng)機(jī)器學(xué)習(xí)的幾倍。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

總的算起來(lái)，如上圖所示，聯(lián)邦學(xué)習(xí)的部分同態(tài)計(jì)算的計(jì)算量是明文計(jì)算量上百倍，聯(lián)邦學(xué)習(xí)的數(shù)據(jù)傳輸總量也比傳統(tǒng)機(jī)器學(xué)習(xí)大100到1000倍。如果使用全同態(tài)的話，其計(jì)算量會(huì)是明文計(jì)算的上萬(wàn)倍。也正是基于這個(gè)原因，當(dāng)前的聯(lián)邦學(xué)習(xí)解決方案多采用部分同態(tài)加密。面臨計(jì)算和傳輸方面的挑戰(zhàn)，我們做了許多有價(jià)值的技術(shù)探索。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

第一個(gè)探索是使用GPU來(lái)加速聯(lián)邦學(xué)習(xí)計(jì)算。如上圖，我們首先進(jìn)行四個(gè)觀察方向的可行性分析，第一個(gè)觀察數(shù)據(jù)加解密及密態(tài)計(jì)算，不同數(shù)據(jù)的計(jì)算其實(shí)并不存在很大的關(guān)聯(lián)性，因此計(jì)算是高度并行的。而GPU正好適合加速高度并行的計(jì)算任務(wù)。

第二個(gè)觀察是聯(lián)邦學(xué)習(xí)很多計(jì)算公式其實(shí)本身并不復(fù)雜，但重復(fù)執(zhí)行次數(shù)巨大。舉例而言，聯(lián)邦學(xué)習(xí)需要經(jīng)常運(yùn)行 A的B次方這種冪計(jì)算，而A和B往往是1024比特甚至更長(zhǎng)的數(shù)字。所以，即使是簡(jiǎn)單的公式，但是重復(fù)運(yùn)算的次數(shù)非常多，而GPU正好適合加速這種重復(fù)的輕量級(jí)計(jì)算。

第三個(gè)觀察是在聯(lián)邦學(xué)習(xí)里，數(shù)據(jù)IO時(shí)間占比非常少，可能不到計(jì)算時(shí)間的0.1%，這說(shuō)明聯(lián)邦學(xué)習(xí)符合計(jì)算密集型的任務(wù)，而GPU適合加速計(jì)算密集型任務(wù)。第四個(gè)觀察是聯(lián)邦學(xué)習(xí)里訓(xùn)練模型的數(shù)據(jù)通常是以批量形式的產(chǎn)生為主，符合大數(shù)據(jù)的特征，而GPU正好適合加速海量數(shù)據(jù)的批量計(jì)算。

GPU加速聯(lián)邦學(xué)習(xí)計(jì)算的挑戰(zhàn)和解決方案

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

上述四個(gè)觀察雖然確定了GPU能夠加速聯(lián)邦計(jì)算的方向，但同時(shí)也提出了三個(gè)挑戰(zhàn)。第一個(gè)挑戰(zhàn)是聯(lián)邦學(xué)習(xí)計(jì)算需要做2048-bit大整數(shù)運(yùn)算，而GPU流處理器不直接支持大整數(shù)運(yùn)算；第二個(gè)挑戰(zhàn)是聯(lián)邦學(xué)習(xí)計(jì)算涉及大量的模冪運(yùn)算，而GPU做除法或者模冪運(yùn)算的代價(jià)非常大；第三個(gè)挑戰(zhàn)是聯(lián)邦學(xué)習(xí)計(jì)算需要緩存大量中間計(jì)算結(jié)果，而由于成本和能耗的限制，GPU顯存非常有限。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

針對(duì)三個(gè)挑戰(zhàn)，我們提出了三個(gè)解決方案。第一個(gè)方案是基于分治思想做元素級(jí)并行。如圖所示，以計(jì)算大整數(shù)乘法a*b為例，首先我們將N比特位長(zhǎng)的大整數(shù)a和b分解成高位和低位兩部分，分解之后其a和b以及a*b的表達(dá)式如圖。仔細(xì)觀察a*b的表達(dá)式，發(fā)現(xiàn)四個(gè)子項(xiàng)的計(jì)算不存在數(shù)據(jù)關(guān)聯(lián)性，可以并行計(jì)算。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

基于這個(gè)思想，我們可以通過(guò)遞歸的方式將大整數(shù)乘法分解成很多可并行計(jì)算的小整數(shù)乘法，這樣GPU就能發(fā)揮并行計(jì)算的優(yōu)勢(shì)完成大整數(shù)乘法的快速計(jì)算。不僅如此，對(duì)于聯(lián)邦學(xué)習(xí)涉及的其他大整數(shù)運(yùn)算，也可以做類(lèi)似的元素級(jí)并行。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

第二個(gè)解決方案是用平方乘算法+蒙哥馬利算法解決GPU做模冪運(yùn)算代價(jià)大的問(wèn)題。其核心是如何高效計(jì)算模冪運(yùn)算ab mod c ，其中a,b,c均為N比特大整數(shù)。對(duì)于這個(gè)問(wèn)題，最容易想到的樸素算法是先計(jì)算ab的值，然后將計(jì)算結(jié)果對(duì)c取模。但這樣會(huì)使問(wèn)題計(jì)算復(fù)雜度高達(dá)O(2^N)，并且中間的乘積結(jié)果很大。我們采用的方法是通過(guò)平方乘算法進(jìn)行優(yōu)化。平方乘算法主要基于的觀察是：我們要計(jì)算a^K，并不一定需要將a自乘k次，而是可以先計(jì)算出a^k/2的值，然后求平方。

以此類(lèi)推，我們只需要 logk 次的乘法運(yùn)算就可以得到ak的值。根據(jù)這個(gè)思想，我們可以將b表示為2進(jìn)制數(shù)，然后通過(guò)O(N)次乘法以及取模運(yùn)算得到計(jì)算結(jié)果。這類(lèi)方法的優(yōu)點(diǎn)是將復(fù)雜度降低到O(N)并且中間計(jì)算結(jié)果的大小不超過(guò)c。

缺點(diǎn)是需要做2N次取模運(yùn)算，對(duì)GPU來(lái)說(shuō)，做取模運(yùn)算的時(shí)間代價(jià)很高。為了解決這個(gè)問(wèn)題，我們引入了蒙哥馬利模乘算法來(lái)高效完成第3步中的模乘計(jì)算。蒙哥馬利算法的優(yōu)點(diǎn)能夠讓復(fù)雜度下降到O(N)，中間結(jié)果大小不超過(guò)c，完全避免了取模/除法運(yùn)算，從而大大加快了運(yùn)算速度。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

對(duì)于第三個(gè)挑戰(zhàn)，如何減少中間計(jì)算結(jié)果，我們給出的解決方案是通過(guò)中國(guó)剩余定理。中國(guó)剩余定理是數(shù)論領(lǐng)域的一個(gè)著名定理，說(shuō)的是給定一組兩兩互質(zhì)的整數(shù)n1,n2,…,nk和任意一組整數(shù)a1,a2,…,ak，那么通過(guò)這兩組數(shù)構(gòu)造的下面這個(gè)同余方程組一定有解，并且解一定同余于N。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

那么怎么使用呢？首先定義mp跟mq這兩個(gè)子項(xiàng)，并依據(jù)這兩個(gè)子項(xiàng)構(gòu)造一個(gè)滿足中國(guó)剩余定理的同余方程組。如上圖所示，并用CRT(mp,mq)來(lái)表示這個(gè)同余方程組的解。可以證明解密計(jì)算公式等價(jià)于同余方程組的解mod pq，所以可以通過(guò)計(jì)算這個(gè)新的表達(dá)式來(lái)求解m的值。根據(jù)上面三個(gè)計(jì)算表達(dá)式，會(huì)有兩個(gè)觀察結(jié)論。首先，三部分的中間計(jì)算結(jié)果都不超過(guò)N比特，因此減小了中間計(jì)算結(jié)果。此外，計(jì)算公式從2N比特?cái)?shù)的模冪運(yùn)算簡(jiǎn)化成N比特?cái)?shù)的模冪運(yùn)算，計(jì)算量大幅減小。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

最后看一下GPU加速聯(lián)邦學(xué)習(xí)的初步評(píng)測(cè)結(jié)果。我們主要評(píng)測(cè)了四種運(yùn)算：同態(tài)加密、同態(tài)解密、密態(tài)乘法和密態(tài)加法在三種優(yōu)化下的加速比。對(duì)比的baseline是14核2.2Ghz的服務(wù)器級(jí)CPU，而使用的CPU代碼是高度優(yōu)化的。

結(jié)果如上圖：對(duì)于比較復(fù)雜的同態(tài)加密和解密，在經(jīng)過(guò)三種優(yōu)化手段后，GPU為聯(lián)邦學(xué)習(xí)帶來(lái)了差不多6倍的加速比。對(duì)于計(jì)算相對(duì)簡(jiǎn)單的密態(tài)乘法和密態(tài)加法，GPU為聯(lián)邦學(xué)習(xí)分別帶來(lái)了30倍以上和400倍以上的加速比。

加速聯(lián)邦學(xué)習(xí)跨機(jī)構(gòu)跨區(qū)域通信的探索

上面講的是如何應(yīng)對(duì)聯(lián)邦學(xué)習(xí)計(jì)算方面的挑戰(zhàn)，那么在傳輸方面，即在加速聯(lián)邦學(xué)習(xí)跨機(jī)構(gòu)跨區(qū)域通信方面，主要考慮聯(lián)邦學(xué)習(xí)通信的兩大場(chǎng)景：場(chǎng)景一是數(shù)據(jù)中心內(nèi)部不同機(jī)構(gòu)間通信（主要是云服務(wù)器），場(chǎng)景二是不同機(jī)構(gòu)的數(shù)據(jù)中心跨區(qū)域通信（地理位置不同）。

其中，數(shù)據(jù)中心內(nèi)通信場(chǎng)景的主要挑戰(zhàn)是高速網(wǎng)絡(luò)時(shí)代如何加速聯(lián)邦學(xué)習(xí)通信；而跨區(qū)域通信場(chǎng)景的主要挑戰(zhàn)是如何在高延遲、高丟包率網(wǎng)絡(luò)環(huán)境下加速聯(lián)邦學(xué)習(xí)通信。針對(duì)場(chǎng)景一帶來(lái)的挑戰(zhàn)，我們采用的解決方案是通過(guò)RDMA網(wǎng)絡(luò)技術(shù)優(yōu)化兩點(diǎn)間通信，然后通過(guò)動(dòng)態(tài)參數(shù)聚合模型優(yōu)化多點(diǎn)間通信來(lái)解決。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

在這里也提一下數(shù)據(jù)傳輸?shù)谋尘?，現(xiàn)在正處在數(shù)據(jù)中心高速網(wǎng)絡(luò)時(shí)代，如上圖所示，數(shù)據(jù)中心網(wǎng)絡(luò)帶寬近年來(lái)高速增長(zhǎng)，100G，200G網(wǎng)絡(luò)對(duì)于大規(guī)模商用數(shù)據(jù)中心來(lái)說(shuō)，已經(jīng)非常普遍。當(dāng)然，網(wǎng)絡(luò)帶寬的高速增長(zhǎng)也對(duì)通信帶來(lái)了巨大挑戰(zhàn)！10-100倍的帶寬增長(zhǎng)帶來(lái)了三個(gè)問(wèn)題，第一，收發(fā)兩端相同時(shí)間需要處理10-100x的網(wǎng)絡(luò)數(shù)據(jù)包，第二，網(wǎng)絡(luò)突發(fā)流量現(xiàn)象變得更加嚴(yán)重，第三，網(wǎng)絡(luò)流完成時(shí)間大大減少意味著擁塞控制需要更快響應(yīng)。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

傳統(tǒng)的TCP網(wǎng)絡(luò)由于存在CPU負(fù)載高、端處理延遲大以及吞吐量瓶頸等幾個(gè)問(wèn)題，不太適用于高速網(wǎng)絡(luò)。所以在高速網(wǎng)絡(luò)下，RDMA取代TCP已經(jīng)成為了一個(gè)趨勢(shì)。具體表現(xiàn)在：通過(guò)內(nèi)核旁路以及將傳輸層卸載到網(wǎng)卡硬件上，RDMA能實(shí)現(xiàn)高吞吐、低時(shí)延、低CPU負(fù)載的兩點(diǎn)間通信，非常適合用于加速聯(lián)邦學(xué)習(xí)數(shù)據(jù)中心內(nèi)的通信。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

但是要將RDMA應(yīng)用于聯(lián)邦學(xué)習(xí)數(shù)據(jù)中心內(nèi)通信，我們還需要解決GPU跟RDMA網(wǎng)卡之間高效協(xié)作的問(wèn)題。我們注意到GPU與RDMA網(wǎng)卡之間的通信存在從GPU到內(nèi)存以及從內(nèi)存到網(wǎng)卡的多次數(shù)據(jù)拷貝。這會(huì)增大傳輸延遲, 降低吞吐量和浪費(fèi)CPU。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

為了解決這一問(wèn)題，我們?cè)诼?lián)邦學(xué)習(xí)通信中引入了英偉達(dá)的GPU-Direct-RDMA 技術(shù)，實(shí)現(xiàn)了GPU和RDMA網(wǎng)卡之間的直接數(shù)據(jù)拷貝。一方面通信吞吐量從20G提升到了100G，另一方面也將傳輸延遲最多降低了1000倍。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

最后我們?cè)u(píng)估了GRDMA能為聯(lián)邦學(xué)習(xí)帶來(lái)性能提升的程度，對(duì)于AlexNet和VGG16兩種模型，分別測(cè)試了他們?cè)赥CP和GRDMA兩種網(wǎng)絡(luò)下的訓(xùn)練效率。初步的測(cè)試結(jié)果如上圖顯示，使用GRDMA分別帶來(lái)了超過(guò)60%和超過(guò)50%的訓(xùn)練性能提升。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

關(guān)于優(yōu)化聯(lián)邦學(xué)習(xí)多點(diǎn)間通信，Parameter Server和Ring Allreduce是目前使用最廣泛的兩種參數(shù)聚合模型。但他們都分別有一些缺點(diǎn)。ParameterServer的問(wèn)題是存在多個(gè)worker節(jié)點(diǎn)給單個(gè)server節(jié)點(diǎn)發(fā)送參數(shù)的多對(duì)一通信方式。在超售網(wǎng)絡(luò)下，這種通信方式的性能會(huì)因?yàn)殒溌窊砣蠓认陆?。Ring Allreduce的問(wèn)題是存在一個(gè)很長(zhǎng)的通信依賴鏈。一旦某一跳發(fā)生阻塞，RingAllreduce 的長(zhǎng)依賴鏈會(huì)使整個(gè)聚合任務(wù)停滯。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

對(duì)于跨區(qū)域通信場(chǎng)景問(wèn)題，首先有以下幾點(diǎn)觀察，第一，隨著物理距離增加，跨區(qū)域通信時(shí)間在聯(lián)邦學(xué)習(xí)中的時(shí)間占比越來(lái)越大；第二，跨區(qū)域主干網(wǎng)具有高延遲、高丟包率等特征，丟包偵測(cè)與丟包恢復(fù)代價(jià)很大；第三，機(jī)器學(xué)習(xí)模型訓(xùn)練可以容忍一定的丟包率，即我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)丟包率小于15%時(shí)，即使不做丟包恢復(fù)，模型收斂所需要的輪次并不會(huì)變多。另外我們還發(fā)現(xiàn)，當(dāng)丟包率低于15%時(shí)，不做丟包重傳能顯著減少模型訓(xùn)練時(shí)間。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

那么為什么機(jī)器學(xué)習(xí)模型訓(xùn)練可以容忍部分丟包呢？原因是目前模型訓(xùn)練大多采用隨機(jī)梯度下降(SGD)方式通過(guò)多輪迭代進(jìn)行，丟失一部分?jǐn)?shù)據(jù)不影響訓(xùn)練算法找到模型收斂點(diǎn)。如圖所示，藍(lán)線是不丟包的情況下模型訓(xùn)練的收斂路徑，而在有丟包的情況下，隨機(jī)梯度下降能讓模型訓(xùn)練選擇另外一條路徑達(dá)到收斂點(diǎn)。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

基于上述觀察，我們?cè)O(shè)計(jì)了一個(gè)機(jī)器學(xué)習(xí)專用的網(wǎng)絡(luò)傳輸協(xié)議 --- MLT。核心思想是：在不影響模型收斂的前提下，允許一定的丟包，不做重傳，從而降低跨區(qū)域通信時(shí)間。將MLT跟傳統(tǒng)的TCP以及UDP進(jìn)行對(duì)比可以發(fā)現(xiàn)，TCP可以看作是做百分百丟包重傳的可靠傳輸，UDP可以看作是百分百丟包不重傳的不可靠傳輸，而MLT位于兩者之間，是根據(jù)機(jī)器學(xué)習(xí)訓(xùn)練的特點(diǎn)，選擇重傳一部分丟失的數(shù)據(jù)包，使丟包率控制在不影響模型收斂的范圍內(nèi)，并通過(guò)避免不必要的丟包重傳來(lái)降低聯(lián)邦學(xué)習(xí)的通信時(shí)間。

星云Clustar首席科學(xué)家胡水海：GPU在聯(lián)邦機(jī)器學(xué)習(xí)中的探索

具體到實(shí)驗(yàn)評(píng)測(cè)如上圖，MLT可以通過(guò)減少不必要的丟包重傳，能夠大幅縮短聯(lián)邦學(xué)習(xí)模型訓(xùn)練的時(shí)間。

雷鋒網(wǎng)、雷鋒網(wǎng)、雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

蔣寶尚

編輯

發(fā)私信

當(dāng)月熱門(mén)文章