丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給陳彩嫻
發(fā)送

0

馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

導(dǎo)語(yǔ):近幾年,聯(lián)邦學(xué)習(xí)技術(shù)帶來了非常好的潛在商業(yè)落地場(chǎng)景與創(chuàng)業(yè)機(jī)會(huì),創(chuàng)新工場(chǎng)AI研究院也花了許多精力去探究與聯(lián)邦學(xué)習(xí)有關(guān)的商業(yè)落地以及現(xiàn)有的科研發(fā)展情況。

馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

8月7日-8月9日,2020年全球人工智能和機(jī)器人峰會(huì)(簡(jiǎn)稱“CCF-GAIR 2020”)在深圳如期舉辦!CCF-GAIR由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,香港中文大學(xué)(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦,以“AI新基建 產(chǎn)業(yè)新機(jī)遇”為大會(huì)主題,致力打造國(guó)內(nèi)人工智能和機(jī)器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。

8月9日下午,在「聯(lián)邦學(xué)習(xí)與大數(shù)據(jù)隱私專場(chǎng)」上,創(chuàng)新工場(chǎng)南京人工智能研究院執(zhí)行院長(zhǎng)馮霽進(jìn)行了題為「聯(lián)邦學(xué)習(xí):下一代分布式AI協(xié)同合作范式」的演講。

以下是馮霽老師在大會(huì)的演講實(shí)錄,AI科技評(píng)論作了不修改原意的整理和編輯:

近幾年,聯(lián)邦學(xué)習(xí)技術(shù)帶來了非常好的潛在商業(yè)落地場(chǎng)景與創(chuàng)業(yè)機(jī)會(huì),創(chuàng)新工場(chǎng)AI研究院也花了許多精力去探究與聯(lián)邦學(xué)習(xí)有關(guān)的商業(yè)落地以及現(xiàn)有的科研發(fā)展情況。


一、分布式計(jì)算

首先,我跟大家介紹一項(xiàng)與聯(lián)邦學(xué)習(xí)有關(guān)的技術(shù):分布式計(jì)算。

大家不妨先想想,分布式計(jì)算是怎么來的?

 馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

以上圖所示自然語(yǔ)言處理模型的大小為例。最早的NLP模型大約有1200萬(wàn)個(gè)參數(shù),截止目前為止最新的GPT-3則有1750億個(gè)參數(shù)。不管是模型的大小還是訓(xùn)練集的大小,都在以接近指數(shù)級(jí)別的方式在增長(zhǎng)。這時(shí)候,如果一臺(tái)電腦沒有足夠大的容量處理海量數(shù)據(jù),就需要使用分布式算法對(duì)數(shù)據(jù)進(jìn)行并行處理。

 馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

假如你有超過30T的訓(xùn)練數(shù)據(jù),那么我們就把這30T的數(shù)據(jù)均等地劃分到100臺(tái)服務(wù)器上,這樣每臺(tái)服務(wù)器就只占30T的1%。應(yīng)用分布式計(jì)算時(shí),每一個(gè)子節(jié)點(diǎn)只擁有一部分的數(shù)據(jù),每一個(gè)子的Worker(進(jìn)程)在本地進(jìn)行一次梯度計(jì)算(相當(dāng)于把本地所有數(shù)據(jù)掃一遍),計(jì)算出梯度之后,將計(jì)算結(jié)果傳到中央服務(wù)器中,再由服務(wù)器把所有的梯度進(jìn)行一遍更新。雷鋒網(wǎng)

分布式計(jì)算的特點(diǎn)是:這些數(shù)據(jù)只有單一擁有者,也就是說,我們看似把數(shù)據(jù)進(jìn)行了某種程度上的劃分,但數(shù)據(jù)的歸屬者只有一個(gè)。分布式并行計(jì)算的主要目的是為了提升效率。雷鋒網(wǎng)

有人會(huì)問,在分布式計(jì)算中,數(shù)據(jù)是不是沒有出本地呢?確實(shí)是沒有出本地,但是在以下的任務(wù)中,它和聯(lián)邦學(xué)習(xí)的區(qū)別還是比較大的。

 

二、從分布式計(jì)算角度理解聯(lián)邦學(xué)習(xí)

聯(lián)邦學(xué)習(xí)剛被推出時(shí)就是分布式計(jì)算的一個(gè)變體。      馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

在之前的范式中,worker一般分布在比較大的集群里,所有worker由一個(gè)非常高效的網(wǎng)絡(luò)連接,worker與worker之間的通信效率非常高。但是在聯(lián)邦學(xué)習(xí)中,有很多任務(wù)基本無(wú)法承擔(dān)這種通信的代價(jià)。比如谷歌的手機(jī)輸入法(最早的聯(lián)邦學(xué)習(xí)應(yīng)用)。每個(gè)人的手機(jī)可以看成是一個(gè)本地設(shè)備,如果每一次運(yùn)算都要傳一個(gè)梯度的信息,那么手機(jī)與云端通信的效率是非常低下的。如果在這種AI計(jì)算中用傳統(tǒng)的分布式計(jì)算方式進(jìn)行更新,效率會(huì)非常低下。      

馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

所以最早的聯(lián)邦學(xué)習(xí)的第一篇算法并沒有談到同態(tài)加密,也沒有談到其他加密算法,就只是用計(jì)算來?yè)Q取通信的效率。傳統(tǒng)的分布式計(jì)算在每次進(jìn)行計(jì)算時(shí)候,本地的計(jì)算節(jié)點(diǎn)會(huì)把所有的數(shù)據(jù)掃一遍,傳一遍梯度。最早的聯(lián)邦學(xué)習(xí)版本相當(dāng)于是在本地讓模型盡可能收斂之后,再傳到中央服務(wù)器上,這樣就相當(dāng)于是用計(jì)算來?yè)Q通信,解決了To C端聯(lián)邦學(xué)習(xí)的目的。

       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020      

剛才所提到的框架是分布式計(jì)算的升級(jí)版本,但仍然有許多不足。如果僅僅用計(jì)算換通信是沒有辦法解決一些現(xiàn)實(shí)問題的,比如:

1、多數(shù)據(jù)擁有者場(chǎng)景

當(dāng)我們面臨一個(gè)擁有多數(shù)據(jù)owner(擁有者)的場(chǎng)景,很多家醫(yī)院想進(jìn)行協(xié)同合作,這時(shí)候場(chǎng)景需要存在一個(gè)聯(lián)盟激勵(lì)。為什么用戶要加入這個(gè)聯(lián)邦學(xué)習(xí)系統(tǒng)中呢?這是傳統(tǒng)的分布式計(jì)算所未曾面臨的問題,因?yàn)閿?shù)據(jù)的擁有者是單一的。此外,節(jié)點(diǎn)可能處于高度不穩(wěn)定的狀態(tài)。比如To C端的手機(jī),有時(shí)候會(huì)掉線,有時(shí)候會(huì)沒電,有時(shí)候壓根沒有計(jì)算反應(yīng)。其次,計(jì)算成本非常高,尤其是To C端。也許5G的到來會(huì)緩解成本高的問題,但與傳統(tǒng)的分布式機(jī)器學(xué)習(xí)相比,該場(chǎng)景的通信成本相對(duì)還是更高的。

2、數(shù)據(jù)隱私保護(hù)的要求更高

3、模型的魯棒性/攻防安全問題

4、數(shù)據(jù)非獨(dú)立同分布現(xiàn)象

以To C端為例,甲的手機(jī)上的圖像跟乙的手機(jī)上拍的圖像處于高度不平衡的狀態(tài)。比如說一個(gè)男生的手機(jī)上只拍了幾百?gòu)堈掌?,一個(gè)女生的手機(jī)上可能有上萬(wàn)張照片。除了照片的數(shù)量,照片內(nèi)容也不一樣,女生可能更多是自拍或者人像,男生的照片內(nèi)容則是其他。

 

三、研究展望

接下來分享的是我們認(rèn)為在聯(lián)邦學(xué)習(xí)領(lǐng)域值得研究的學(xué)術(shù)問題。

1、攻擊防御

       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020      

一個(gè)典型現(xiàn)象是:攻擊者監(jiān)聽了聯(lián)邦學(xué)習(xí)worker節(jié)點(diǎn)上中央服務(wù)器之間的信報(bào),通過監(jiān)聽梯度/參數(shù)信息就可以猜出你的原始數(shù)據(jù)。這一塊已經(jīng)有了較為成熟的解決方案,比如同態(tài)加密、MPC、TEE等技術(shù)。但我們認(rèn)為當(dāng)下這些解決方案并不是最完美的,還存在計(jì)算效率不足與部署不方便等等缺陷。       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

上圖是我們?nèi)ツ晁龅陌l(fā)表在NIPS上的毒化訓(xùn)練,給數(shù)據(jù)下毒。數(shù)據(jù)下毒是一種非常獨(dú)特的攻擊方式。我們?cè)谟?xùn)練集上修改肉眼不可見的擾動(dòng)。如果做了相應(yīng)的修改,任何的分類器經(jīng)受過下毒的訓(xùn)練,當(dāng)它看到干凈的測(cè)試樣板之后,基本上做出的決定都是錯(cuò)誤的。

聯(lián)邦學(xué)習(xí)的特點(diǎn)是:如果我們只下毒了一個(gè)或者多個(gè)參與方,有可能把整個(gè)模型進(jìn)行毒化,也就是說在libConfuse算法下,我們可以通過下毒的方式攻擊相關(guān)聯(lián)邦學(xué)習(xí)的參與方。

       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

如何設(shè)計(jì)一些更為魯棒性的聯(lián)邦學(xué)習(xí)算法來抵御這些攻擊,是我們正在做的事情。

2、Non-I.I.D非獨(dú)立同分布

目前聯(lián)邦學(xué)習(xí)主要有三種應(yīng)用:To C、To B和To G。尤其是在To C場(chǎng)景中,絕大多數(shù)情況下,聯(lián)邦學(xué)習(xí)的數(shù)據(jù)會(huì)隨著時(shí)間的變化而變化。也就是說,你在每一個(gè)時(shí)間點(diǎn)獲得的數(shù)據(jù)樣本并不是從獨(dú)立同分布中采樣出來的。在傳統(tǒng)機(jī)器學(xué)習(xí)中有一個(gè)核心的算法假設(shè),即數(shù)據(jù)都是獨(dú)立同分布的。因此,在非獨(dú)立同分布的場(chǎng)景下,有很多經(jīng)典的機(jī)器學(xué)習(xí)算法沒有辦法被成功應(yīng)用。所以我們認(rèn)為,非獨(dú)立同分布如何配合聯(lián)邦學(xué)習(xí)的框架是一個(gè)很重要的學(xué)術(shù)問題。       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020       

 

假如隨著時(shí)間的遷移,每一個(gè)聯(lián)邦學(xué)習(xí)的參與者所擁有的數(shù)據(jù)是不平穩(wěn)的。在這種情況下,集成學(xué)習(xí)能發(fā)揮很好的作用。給大家舉幾個(gè)論文的例子(如上圖所示)。第一篇研究是使用了對(duì)沖的方式來對(duì)沖掉非平穩(wěn)序列的風(fēng)險(xiǎn)。第二篇使用了模型重用的方式,因?yàn)榉植茧S著時(shí)間的變化而變化,這是可以利用模型重用的集成算法來調(diào)用之前的知識(shí),進(jìn)一步應(yīng)對(duì)非平穩(wěn)概念的遷移。


四、研究方法

目前在聯(lián)邦學(xué)習(xí)或其他機(jī)器學(xué)習(xí)框架中,常見的一種算法是Gradient Boosting Machine(GBM)。         馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020      

它是一類串行的計(jì)算方法,每一次訓(xùn)練一個(gè)分類器,第二個(gè)分類器的訓(xùn)練是基于第一次分類器的結(jié)果。這種模型(尤其是在表格的數(shù)據(jù)中)有非常優(yōu)秀的建模結(jié)果,但還是存在許多問題:       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020       

首先,因?yàn)樗且粋€(gè)串行訓(xùn)練的過程,所以訓(xùn)練成本大。基于這個(gè)算法本身的性質(zhì),我們沒辦法將N個(gè)分類器同時(shí)并行訓(xùn)練。其次,XGBoost很難適應(yīng)隨著分布遷移而產(chǎn)生的跟時(shí)序數(shù)據(jù)有關(guān)的問題。最后,像XGBoost之類的算法因自身存在的弊端,難以處理高維的回歸任務(wù)。比如在GitHub的頁(yè)面上,不管是XGBoost還是LightGBM對(duì)高維的回歸問題都沒有很好的解決方案。       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

為此,我們最近提出Soft Gradient Boosting Machine(軟梯度提升機(jī)):       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

如果每一個(gè)基分類器都是可微的話,那么我們就把GBM的整個(gè)架構(gòu)連接成一個(gè)可相關(guān)圖,然后分別注入本地和全局的損失(兩者恰好等于基分類器GBM中所對(duì)應(yīng)的本地?fù)p失)。由于兩個(gè)系統(tǒng)是可微分的,我們就可以同時(shí)訓(xùn)練所有分類器。第二個(gè)好處是,由于這樣的更新方式可以用SGD訓(xùn)練,所以在適應(yīng)streaming data(流數(shù)據(jù))或在線的訓(xùn)練中比傳統(tǒng)的串行的GBM有更好的模型性能體現(xiàn)。       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020       

上圖所示是相應(yīng)的實(shí)驗(yàn)結(jié)果。大家可以看到不管是在聯(lián)邦學(xué)習(xí)還是非分布式的場(chǎng)景下,SGB都比傳統(tǒng)的GBM/XGBoost與聯(lián)邦算法有更好的性能提升。“Federated Soft Gradient Boosting Machine for Streaming Data”是我們剛投出的一篇論文,其中我們結(jié)合GBM算法做了一個(gè)聯(lián)邦的版本。

Federated Ensemble Learning是一個(gè)非常值得研究的方向,有助于解決聯(lián)邦學(xué)習(xí)所面臨的大部分場(chǎng)景里的問題:非平穩(wěn)性和非獨(dú)立同分布性。因此,集成算法是我們目前主要研究的課題之一。

3、去中心化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的聯(lián)邦學(xué)習(xí)架構(gòu)

目前大家所接觸的大部分聯(lián)邦學(xué)習(xí)的框架、架構(gòu)、開源代碼基本上都有一個(gè)中央服務(wù)器(如下圖所示),中央服務(wù)器會(huì)跟每一個(gè)局部的參與者進(jìn)行通信。這個(gè)通信可以是加密的,也可以不加密,這取決于你對(duì)聯(lián)邦學(xué)習(xí)場(chǎng)景里的隱私需求。

       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020      

在分布式計(jì)算的場(chǎng)景下,我們也可以設(shè)計(jì)一個(gè)完全去中心化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(如下圖所示)。

       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020   

這就像楊強(qiáng)老師所說的:羊只能去鄰居家吃草。在上圖所示的全新架構(gòu)里,只有相鄰的節(jié)點(diǎn)之間才能交換梯度信息。如果兩個(gè)節(jié)點(diǎn)之間沒有一條邊連著,那么就不可以進(jìn)行通信。

從機(jī)器學(xué)習(xí)的角度來看,如果通過去中心化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來做相應(yīng)的隨機(jī)梯度下降,它能不能收斂?這取決于網(wǎng)絡(luò)連接的強(qiáng)度。如果連接得非常稠密,它就會(huì)收斂得跟中心化的一樣好。

基于這個(gè)理論保證,我們是否可以去設(shè)計(jì)一個(gè)去中心化的聯(lián)邦學(xué)習(xí)架構(gòu),并將這個(gè)架構(gòu)與其他一些目前比較火的技術(shù)進(jìn)一步結(jié)合?

4、聯(lián)盟動(dòng)機(jī)的經(jīng)濟(jì)學(xué)分析

這是聯(lián)邦學(xué)習(xí)框架區(qū)別于其他機(jī)器學(xué)習(xí)模型的地方,其中涉及到激勵(lì)機(jī)制的分析。


五、總結(jié)

綜上,我們認(rèn)為聯(lián)邦學(xué)習(xí)是一類重要的新型分布式人工智能協(xié)同合作平臺(tái),其未來潛在的研究方向包括:

1、模型安全方面的對(duì)抗攻防,比如數(shù)據(jù)下毒等等。

2、數(shù)據(jù)隱私的保護(hù)機(jī)制,比如設(shè)計(jì)除了同態(tài)加密和多方安全計(jì)算之外的隱私保護(hù)機(jī)制,以更好保護(hù)本地?cái)?shù)據(jù)。

3、在聯(lián)邦學(xué)習(xí)框架下設(shè)計(jì)能夠適應(yīng)非獨(dú)立同分布的更好的算法。我們認(rèn)為聯(lián)邦集成學(xué)習(xí)也許是解決的方向之一。

4、設(shè)計(jì)新型的網(wǎng)絡(luò)拓?fù)浼軜?gòu),比如是否存在一個(gè)更加高效的去中心化的聯(lián)邦學(xué)習(xí)架構(gòu)。

5、聯(lián)邦學(xué)習(xí)的經(jīng)濟(jì)學(xué)機(jī)制。

 

Q&A

提問:針對(duì)非獨(dú)立同分布的情況,可不可以用語(yǔ)言信息來解決這個(gè)場(chǎng)景?

馮霽:這是兩個(gè)范疇的知識(shí)。我認(rèn)為是可以的,相當(dāng)于用Mind Learning的方式去尋找一個(gè)能夠適應(yīng)復(fù)雜環(huán)境的更好的算法。我不用一個(gè)現(xiàn)有的算法去適應(yīng)非獨(dú)立同分布的問題,而是設(shè)計(jì)出一個(gè)算法去學(xué)習(xí)適應(yīng)這個(gè)環(huán)境。我覺得這應(yīng)該是能夠起作用的方向。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說