丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

本文作者: 蔣寶尚 2020-03-16 15:42
導(dǎo)語(yǔ):在2019年大火的聯(lián)邦學(xué)習(xí),最新的研究進(jìn)展怎么樣了?

聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

在2019年大火的聯(lián)邦學(xué)習(xí),最新的研究進(jìn)展怎么樣了?

文 | 蔣寶尚
編 | 賈    偉

聯(lián)邦學(xué)習(xí)無(wú)疑是近期 AI 界最火爆的技術(shù)范式之一,在過(guò)去的2019年,涌現(xiàn)了大量聯(lián)邦學(xué)習(xí)相關(guān)研究。聯(lián)邦學(xué)習(xí)是一個(gè)機(jī)器學(xué)習(xí)框架,它允許用戶使用分布在不同位置的多個(gè)數(shù)據(jù)集來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,同時(shí)防止數(shù)據(jù)泄露并遵守嚴(yán)格的數(shù)據(jù)隱私法規(guī)。

能夠防止數(shù)據(jù)泄露!這也意味著聯(lián)邦學(xué)習(xí)或許是解決數(shù)據(jù)敏感的重要途徑。最近來(lái)自澳大利亞國(guó)立大學(xué)、卡內(nèi)基·梅隆大學(xué)、康奈爾大學(xué)、谷歌、香港科技大學(xué)等機(jī)構(gòu)的學(xué)者們聯(lián)合發(fā)布了一篇論文,詳細(xì)闡述了該領(lǐng)域所面臨的開放性問(wèn)題和挑戰(zhàn),并列舉了大量珍貴的研究方向。聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

(雷鋒網(wǎng))論文下載地址:https://arxiv.org/pdf/1912.04977.pdf

這篇綜述性論文共有7個(gè)部分,從導(dǎo)語(yǔ)部分引入,介紹了跨設(shè)備設(shè)置以外的其他聯(lián)邦學(xué)習(xí)設(shè)置和問(wèn)題,以及如何提高聯(lián)邦學(xué)習(xí)效率和效用等問(wèn)題,也探討了用戶數(shù)據(jù)以及隱私、模型被操控和失敗的因素等熱點(diǎn)問(wèn)題。 

引 言

聯(lián)邦學(xué)習(xí)指多個(gè)客戶端(如移動(dòng)設(shè)備或整個(gè)組織)在一個(gè)中央服務(wù)器(如服務(wù)提供商)下協(xié)作式地訓(xùn)練模型的機(jī)器學(xué)習(xí)設(shè)置,該設(shè)置同時(shí)保證訓(xùn)練數(shù)據(jù)去中心化。

聯(lián)邦學(xué)習(xí)使用局部數(shù)據(jù)收集和最小化原則,降低傳統(tǒng)中心化機(jī)器學(xué)習(xí)方法帶來(lái)的一些系統(tǒng)性隱私風(fēng)險(xiǎn)和成本。聯(lián)邦學(xué)習(xí)這一術(shù)語(yǔ)由 McMahan 等人在 2016 年首次提出,但是在這一術(shù)語(yǔ)誕生之前,已經(jīng)就存在了大量相關(guān)研究工作致力于數(shù)據(jù)隱私保護(hù),例如20世紀(jì)80年代就已出現(xiàn)的計(jì)算加密數(shù)據(jù)的加密方法。聯(lián)邦學(xué)習(xí)最初只是強(qiáng)調(diào)移動(dòng)和邊緣設(shè)備應(yīng)用,研究者并把這兩種設(shè)置分別稱作跨設(shè)備(cross-device)和cross-silo。

基于這兩種變體,這篇論文給聯(lián)邦學(xué)習(xí)下了一個(gè)更加廣泛的定義:聯(lián)邦學(xué)習(xí)是多個(gè)實(shí)體(客戶端)協(xié)作解決機(jī)器學(xué)習(xí)問(wèn)題的機(jī)器學(xué)習(xí)設(shè)置,它在一個(gè)中央服務(wù)器或服務(wù)提供商的協(xié)調(diào)下進(jìn)行。

每個(gè)客戶端的原始數(shù)據(jù)存儲(chǔ)在本地,無(wú)法交換或遷移,聯(lián)邦學(xué)習(xí)利用局部更新(用于立即聚合 (immediate aggregation))來(lái)實(shí)現(xiàn)學(xué)習(xí)目標(biāo)。值得注意的是,這個(gè)定義完全將聯(lián)邦學(xué)習(xí)與完全去中心化的學(xué)習(xí)技術(shù)做了區(qū)分。

聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

(雷鋒網(wǎng))

跨設(shè)備聯(lián)邦學(xué)習(xí)設(shè)置:上圖展示了聯(lián)邦學(xué)習(xí)訓(xùn)練的生命周期,以及聯(lián)邦學(xué)習(xí)系統(tǒng)中的多個(gè)參與者。具體而言,其工作流程包括6個(gè)部分:1.問(wèn)題識(shí)別;2.客戶端設(shè)置;3.模型原型開發(fā);4.聯(lián)邦模型訓(xùn)練;5.模型評(píng)估;6.部署。

具體到訓(xùn)練過(guò)程,主要包括:1.客戶端選擇;2.廣播;3.客戶端計(jì)算;4.聚合;5.模型更新。在客戶端選擇步驟主要是從滿足要求的客戶端中進(jìn)行采樣;廣播步驟主要從選中的客戶端從服務(wù)器下載當(dāng)前模型權(quán)重和訓(xùn)練程序;而客戶端計(jì)算、聚合和模型更新階段的分離并非聯(lián)邦學(xué)習(xí)的嚴(yán)格要求,但它確實(shí)排除了特定類別的算法,如異步 SGD。 

跨設(shè)備設(shè)置以外的其他聯(lián)邦學(xué)習(xí)設(shè)置和問(wèn)題

在聯(lián)邦學(xué)習(xí)的訓(xùn)練中,服務(wù)器一直在扮演著中心角色,當(dāng)客戶端數(shù)量非常龐大的時(shí)候,服務(wù)器可能會(huì)成為訓(xùn)練的瓶頸。完全去中心化的關(guān)鍵思想就是采用點(diǎn)對(duì)點(diǎn)的方式取代以服務(wù)器為中心的通信模式。

在完全去中心化的算法中,客戶端作為節(jié)點(diǎn),客戶端之間的通信信道作為邊,這種邊與點(diǎn)的關(guān)系構(gòu)成了聯(lián)邦學(xué)習(xí)網(wǎng)絡(luò)。注意不再是標(biāo)準(zhǔn)聯(lián)邦學(xué)習(xí)中的全局狀態(tài),該過(guò)程可以被設(shè)計(jì)成使得所有局部模型都收斂到期望的全局解,換句話說(shuō)就是各個(gè)模型逐漸達(dá)成共識(shí)。

雖然是完全分布,但任然要有一個(gè)中心來(lái)負(fù)責(zé)分配學(xué)習(xí)任務(wù),這些學(xué)習(xí)任務(wù)包括:算法選擇、超參數(shù)選擇,調(diào)試等等。這個(gè)中心的選擇需要被信任,其可有提出學(xué)習(xí)任務(wù)的客戶擔(dān)當(dāng),也可以協(xié)商一致決定。

聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

(雷鋒網(wǎng))

聯(lián)邦學(xué)習(xí)和分布式學(xué)習(xí)的比較但是關(guān)于機(jī)器學(xué)習(xí)的去中心化方案當(dāng)前仍然面臨大量的算法問(wèn)題, 有些問(wèn)題類似于使用中央服務(wù)器進(jìn)行聯(lián)合學(xué)習(xí)的特殊情況,另一些問(wèn)題則是由于完全分布產(chǎn)生的副作用。在算法方面,所面臨的挑戰(zhàn)主要是網(wǎng)絡(luò)拓?fù)浜彤惒綄?duì)分布SGD的影響、本地更新的分布式SGD、個(gè)性化以及信任機(jī)制、梯度壓縮和量化方法。

Cross-Silo 聯(lián)邦學(xué)習(xí):與跨設(shè)備聯(lián)合學(xué)習(xí)的特征相反,Cross-Silo 聯(lián)邦學(xué)習(xí)在總體設(shè)計(jì)的某些方面非常靈活。許多組織如果只是想共享訓(xùn)練模型,而不想分享數(shù)據(jù)時(shí),cross-silo設(shè)置是非常好的選擇。

Cross-Silo 聯(lián)邦學(xué)習(xí)的設(shè)置主要有以下幾個(gè)要點(diǎn):數(shù)據(jù)分割、激勵(lì)機(jī)制、.差異隱私、張量因子分解。

聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

(雷鋒網(wǎng))兩種分割學(xué)習(xí)設(shè)置

分割學(xué)習(xí)(Split Learning):分割學(xué)習(xí)的關(guān)鍵思想是在客戶端和服務(wù)器之間執(zhí)行基于每層的分割模型,并應(yīng)用于訓(xùn)練和推理。分裂學(xué)習(xí)最簡(jiǎn)單配置是每個(gè)客戶端計(jì)算通過(guò)深層網(wǎng)絡(luò)前向傳遞,然后切割層的輸出,即粉碎數(shù)據(jù)被發(fā)送到另一個(gè)服務(wù)器或客戶端,然后由此服務(wù)器或客戶端完成剩余的計(jì)算。這意味著讓不共享的數(shù)據(jù)發(fā)生前向傳播;最后可以以類似的方式將梯度從其最后一層反向傳播到切割層。注意此過(guò)程會(huì)一直持續(xù)到收斂。 

如何提高效率

論文的這一部分屬于探索各種技術(shù)的開放性章節(jié),討論的問(wèn)題包括開發(fā)更好的優(yōu)化算法?如何為不同的客戶端提供差異化模型?在聯(lián)邦學(xué)習(xí)的背景下如何執(zhí)行機(jī)器學(xué)習(xí)任務(wù)?解決上述問(wèn)題有非常多的挑戰(zhàn),其中一個(gè)就是Non-IID(不合符獨(dú)立同分布的要求)數(shù)據(jù)的存在。出現(xiàn)這種問(wèn)題的原因主要有三個(gè)方面:1.不同的客戶端分布;2.違反獨(dú)立性假設(shè);3.數(shù)據(jù)集遷移。

聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

如何處理Non-IID數(shù)據(jù)呢?最一般的方法是修改現(xiàn)有的算法。對(duì)于一些應(yīng)用程序,可以選擇擴(kuò)充數(shù)據(jù),也可以用一些方法讓跨客戶端的數(shù)據(jù)更加相似。例如創(chuàng)建一個(gè)可以全局共享的小型數(shù)據(jù)集。

另一個(gè)提高效率的方法是為聯(lián)邦學(xué)習(xí)優(yōu)化算法,在一些典型的聯(lián)邦學(xué)習(xí)任務(wù)中,其優(yōu)化目標(biāo)是最小化“某些函數(shù)”。聯(lián)合優(yōu)化算法和標(biāo)準(zhǔn)分布式訓(xùn)練方法之間的主要區(qū)別在于:需要解決non-IID數(shù)據(jù)以及不平衡數(shù)據(jù)。另外聯(lián)邦學(xué)習(xí)的另一個(gè)重要的實(shí)際考慮因素算法是與其他技術(shù)的可組合性,例如根據(jù)實(shí)際情況調(diào)整有狀態(tài)的優(yōu)化算法(如ADMM)和有狀態(tài)的壓縮策略。

多任務(wù)學(xué)習(xí)、個(gè)性化以及元學(xué)習(xí)在面對(duì)非IID數(shù)據(jù)時(shí)非常有效,其性能甚至可能超過(guò)最好的共享全局模型。另外通過(guò)特征化實(shí)現(xiàn)個(gè)性化,這樣的輸入能夠讓共享的全局模型產(chǎn)生高度個(gè)性化的預(yù)測(cè)。為了使得訓(xùn)練效果更加高效,可以調(diào)整機(jī)器學(xué)習(xí)工作流程。

因?yàn)闃?biāo)準(zhǔn)的機(jī)器學(xué)習(xí)工作流程中的數(shù)據(jù)增強(qiáng)、特征工程、神經(jīng)體系結(jié)構(gòu)設(shè)計(jì)、模型選擇、超參數(shù)優(yōu)化等,在配置到分散的數(shù)據(jù)集和資源受限的移動(dòng)設(shè)備時(shí),會(huì)出現(xiàn)了許多問(wèn)題。 

保護(hù)用戶數(shù)據(jù)的隱私

聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

各種威脅模型機(jī)器學(xué)習(xí)工作流程涉及各種參與者。對(duì)于用戶來(lái)說(shuō),其可以通過(guò)與設(shè)備交互來(lái)生成訓(xùn)練數(shù)據(jù)。對(duì)于機(jī)器學(xué)習(xí)工程師來(lái)說(shuō)其參與方式就是訓(xùn)練并評(píng)估模型的質(zhì)量。在理想狀態(tài)中,系統(tǒng)中的每個(gè)參與者都可以輕松地推斷出自己的信息有沒(méi)有泄露,各方參與者可以利用這些推斷確定是否采取行動(dòng)。

論文中在這一章對(duì)現(xiàn)有的成果進(jìn)行了概述,并介紹了如何設(shè)計(jì),才能夠提供嚴(yán)格隱私保障,以及現(xiàn)在聯(lián)合學(xué)習(xí)系統(tǒng)所面臨的挑戰(zhàn)。當(dāng)然,除了針對(duì)用戶隱私的攻擊之外,還有其他類別的針對(duì)聯(lián)合學(xué)習(xí)的攻擊;例如,對(duì)手可能試圖根本阻止模型訓(xùn)練,或者試圖讓模型產(chǎn)生偏見。論文還討論了能夠提供保護(hù)的各種威脅模型,然后列出了一些核心工具和技術(shù)。在可信服務(wù)器也做了假設(shè),并討論了敵意客戶端和分析者的保護(hù)方面存在的公開問(wèn)題和挑戰(zhàn)。 

對(duì)攻擊和失敗的健壯性

現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)很容易出現(xiàn)問(wèn)題。這些問(wèn)題的出現(xiàn)可能并不是惡意的,如預(yù)處理管道中的錯(cuò)誤、有噪音的培訓(xùn)標(biāo)簽、不靠譜的客戶端,以及針對(duì)訓(xùn)練和部署的顯式攻擊。在本節(jié)中,論文介紹了聯(lián)邦學(xué)習(xí)的分布式特性、體系結(jié)構(gòu)設(shè)計(jì)和數(shù)據(jù)約束打開了新的失敗模式和攻擊面。

此外值得注意的是,在聯(lián)邦學(xué)習(xí)中保護(hù)隱私的安全機(jī)制可能會(huì)讓檢測(cè)和糾正變得十分困難。論文還討論了不同類型的攻擊和失敗之間關(guān)系,以及這些關(guān)系在聯(lián)邦學(xué)習(xí)中的重要性。對(duì)模型性能的對(duì)抗性攻擊:攻擊方可能不光針對(duì)模型的性能進(jìn)行攻擊,而是可能推斷參與訓(xùn)練的用戶的私有數(shù)據(jù)。對(duì)抗性攻擊的例子有很多,包括數(shù)據(jù)中毒、模型更新中毒以及模型規(guī)避攻擊(model evasion attacks)。

非惡意故障模式(Non-Malicious Failure Modes):與傳統(tǒng)的數(shù)據(jù)中心模式的訓(xùn)練相比,聯(lián)邦學(xué)習(xí)特別容易客戶端的非惡意故障的影響,與有敵意的攻擊一樣,系統(tǒng)因素和數(shù)據(jù)約束也會(huì)導(dǎo)致非惡意故障。非惡意故障通常比惡意攻擊的破壞性小,但出現(xiàn)的頻率更高,但往往與惡意攻擊具有共同的根源和復(fù)雜性。因此,對(duì)付非惡意故障的方法也能用在對(duì)付惡意攻擊上面。

探究隱私與穩(wěn)健性之間的張力:往往使用安全聚合技術(shù)來(lái)加強(qiáng)隱私保護(hù),但通常會(huì)使防御敵意攻擊變得更加困難,因?yàn)橹醒敕?wù)器只看到客戶端更新的集合,因此,研究在使用安全聚合時(shí)如何防御敵意攻擊非常重要。

總的來(lái)說(shuō)先介紹了對(duì)抗性攻擊,然后討論了非惡意失效模式,最后探討了隱私與健壯性之間的張力。

公平,消除偏見

機(jī)器學(xué)習(xí)模型的表現(xiàn)經(jīng)常會(huì)令人驚訝。當(dāng)這些行為模型對(duì)用戶非常不友好時(shí),研究者會(huì)將其歸為不公平。例如,如果具有相似特征的人得到了完全不同的結(jié)果,那么這就違反了個(gè)體公平的標(biāo)準(zhǔn)。如果某些敏感群體(種族、性別等)得到不同的結(jié)果,那么這可能違反人口統(tǒng)計(jì)學(xué)公平的各種標(biāo)準(zhǔn)........

聯(lián)邦學(xué)習(xí)為公平性研究提供了幾個(gè)思考,其中一些擴(kuò)展了非聯(lián)邦環(huán)境中先前的研究方向,另一些則是聯(lián)邦學(xué)習(xí)獨(dú)有的。訓(xùn)練數(shù)據(jù)中的偏差:機(jī)器學(xué)習(xí)模型中不公平的一個(gè)驅(qū)動(dòng)因素是訓(xùn)練數(shù)據(jù)中的偏差,包括認(rèn)知抽樣、報(bào)告和確認(rèn)偏差。

一種常見的現(xiàn)象是個(gè)別特征數(shù)據(jù)在總的數(shù)據(jù)集中代表性不足,因此模型訓(xùn)練過(guò)后得到的權(quán)重并不能代表問(wèn)題。就像聯(lián)合學(xué)習(xí)中使用的數(shù)據(jù)訪問(wèn)過(guò)程可能會(huì)引入數(shù)據(jù)集移位和非獨(dú)立性一樣。

公平而不獲取敏感屬性:明確獲取人口統(tǒng)計(jì)信息,例如種族、性別等會(huì)引發(fā)關(guān)于公平性標(biāo)準(zhǔn)的討論,當(dāng)個(gè)人敏感屬性不可用時(shí),經(jīng)常部署聯(lián)邦學(xué)習(xí)的環(huán)境也會(huì)引起對(duì)公平性的討論,例如開發(fā)個(gè)性化的語(yǔ)言模型和公平的醫(yī)學(xué)分類器。所以測(cè)量和糾正不公平是聯(lián)合學(xué)習(xí)研究人員要解決的一個(gè)關(guān)鍵問(wèn)題。

公平、隱私和穩(wěn)?。汗胶蛿?shù)據(jù)隱私似乎是互補(bǔ)的倫理概念,在許多需要隱私保護(hù)的現(xiàn)實(shí)環(huán)境中,公平也是非常需要的。由于聯(lián)合學(xué)習(xí)最有可能部署在隱私和公平都需要的敏感數(shù)據(jù)環(huán)境中,因此解決公平和隱私問(wèn)題至關(guān)重要。

利用聯(lián)邦提高模式多樣性:聯(lián)合學(xué)習(xí)提供的分布式訓(xùn)練將以前可能不切實(shí)際甚至非法地?cái)?shù)據(jù),都能合理的利用起來(lái)。當(dāng)前的一些數(shù)據(jù)隱私保護(hù)法已經(jīng)逼得企業(yè)在數(shù)據(jù)孤島中建模。另外,訓(xùn)練數(shù)據(jù)中缺乏代表性和多樣性會(huì)導(dǎo)致模型性能的下降,聯(lián)邦學(xué)習(xí)能夠組合可能已經(jīng)與敏感屬性相關(guān)的數(shù)據(jù)來(lái)改善這些模型的公平性,進(jìn)而提高模型的性能。

結(jié)  論

聯(lián)邦學(xué)習(xí)使分布式客戶端設(shè)備能夠協(xié)作學(xué)習(xí)并共享預(yù)測(cè)模型,同時(shí)將所有訓(xùn)練數(shù)據(jù)保存在設(shè)備上,從而將機(jī)器學(xué)習(xí)的能力與將數(shù)據(jù)存儲(chǔ)在云中的需求分離開來(lái)。

近年來(lái),聯(lián)邦學(xué)習(xí)的話題在工業(yè)界和學(xué)術(shù)界都經(jīng)歷了爆炸性的增長(zhǎng)。聯(lián)邦學(xué)習(xí)在其他學(xué)科領(lǐng)域也逐漸擴(kuò)大著影響力: 從機(jī)器學(xué)習(xí)到優(yōu)化、信息論和統(tǒng)計(jì)到密碼學(xué)、公平性和隱私。數(shù)據(jù)隱私不是二元的,不同假設(shè)下的威脅模型,每一個(gè)模型都有其獨(dú)特的挑戰(zhàn)。

論文討論的開放性問(wèn)題并不全面的,其反映了作者的興趣和背景。本文并不討論機(jī)器學(xué)習(xí)項(xiàng)目中需要解決的非學(xué)習(xí)問(wèn)題,畢竟這些問(wèn)題可能需要基于分散的數(shù)據(jù)來(lái)解決。例如計(jì)算基本的描述性統(tǒng)計(jì),計(jì)算開放集上的直方圖頭部。另一個(gè)未討論的重要主題是可能激發(fā)或限制使用聯(lián)邦學(xué)習(xí)的法律和業(yè)務(wù)問(wèn)題。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

聯(lián)邦學(xué)習(xí)最新研究趨勢(shì)!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)