丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

破解數(shù)據(jù)孤島壁壘,三篇論文詳細解讀聯(lián)邦學(xué)習(xí)

本文作者: 楊曉凡 2019-05-07 23:28
導(dǎo)語:在保護安全和隱私和前提下,化解「數(shù)據(jù)孤島」

破解數(shù)據(jù)孤島壁壘,三篇論文詳細解讀聯(lián)邦學(xué)習(xí)

雷鋒網(wǎng) AI 科技評論按:香港科技大學(xué)講席教授、微眾銀行首席人工智能官(CAIO)楊強教授是機器學(xué)習(xí)領(lǐng)域內(nèi)活動積極的學(xué)者,也是大家非常熟悉的機器學(xué)習(xí)研究人員之一。

楊強教授對于數(shù)據(jù)運用的問題有較多研究,比如他經(jīng)常在公眾場合談及的「遷移學(xué)習(xí)」(Transfer Learning),其作用就是幫助只有小數(shù)據(jù)的任務(wù)運用來自其他相關(guān)任務(wù)的大數(shù)據(jù),從而獲得更好的表現(xiàn),應(yīng)用例子比如貸款風(fēng)控策略在不同用戶類別間的遷移、推薦系統(tǒng)的策略遷移、輿情分析中的遷移學(xué)習(xí)等。

從遷移學(xué)習(xí)到聯(lián)邦學(xué)習(xí)

近幾年,領(lǐng)域發(fā)現(xiàn)還存在另一種與遷移學(xué)習(xí)相似,但更有挑戰(zhàn)性、也更有應(yīng)用價值的問題,但無法直接用遷移學(xué)習(xí)的方法解決:現(xiàn)代組織機構(gòu)雖然數(shù)據(jù)多,但是互相之間數(shù)據(jù)不共享,比如不同的視頻網(wǎng)站都會收集各自用戶的數(shù)據(jù),各自持有分別的數(shù)據(jù)庫,用于各自的推薦系統(tǒng)模型訓(xùn)練。即便這些不同機構(gòu)的數(shù)據(jù)全部加在一起形成一個大數(shù)據(jù)庫后訓(xùn)練的模型有更好的表現(xiàn),但受制于隱私、安全等問題,他們不可以這樣做;實際上 2018 年 5 月歐盟提出的 GDPR 也對用戶隱私保護作出了明確的要求。而且,由于不同機構(gòu)的模型設(shè)計和針對的目標有所不同,他們也無法直接交換、共享模型。

楊強教授帶領(lǐng)微眾銀行 AI 團隊針對這類問題研究了「聯(lián)邦學(xué)習(xí)」(Federated Learning)的解決方案。在 2018 年 12 月的「新一代人工智能院士高峰論壇」演講中,楊強教授也簡單介紹過聯(lián)邦學(xué)習(xí)的兩種模式:縱向聯(lián)邦學(xué)習(xí),不同的數(shù)據(jù)庫中有部分數(shù)據(jù)特征是相同的,A 方和 B 方都持有模型的一部分,通過同態(tài)加密技術(shù)傳遞重要的參數(shù);第二種模式,橫向聯(lián)邦學(xué)習(xí),在 A 方、B 方各自更新模型并上傳,云端服務(wù)器根據(jù)一定的策略統(tǒng)一更新他們的模型。

通過近期的三篇論文,微眾 AI 團隊介紹了聯(lián)邦學(xué)習(xí)思路下針對有安全需求的有監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、決策樹的具體方法:安全的聯(lián)邦遷移學(xué)習(xí)、聯(lián)邦強化學(xué)習(xí)以及 SecureBoost 安全樹模型。

安全的聯(lián)邦遷移學(xué)習(xí)(Secure Federated Transfer Learning),arxiv.org/abs/1812.03337

聯(lián)邦遷移學(xué)習(xí)(FTL)針對的是有標簽學(xué)習(xí)(監(jiān)督學(xué)習(xí))任務(wù),利用一整個數(shù)據(jù)聯(lián)邦內(nèi)的數(shù)據(jù)資源,提高每個成員的模型的表現(xiàn)。通過聯(lián)邦遷移學(xué)習(xí)框架,聯(lián)邦內(nèi)不同的成員之間可以在嚴守數(shù)據(jù)隱私的前提下共同挖掘數(shù)據(jù)的價值,而且可以在網(wǎng)絡(luò)內(nèi)轉(zhuǎn)移補充性的數(shù)據(jù)。這樣,通過利用整個數(shù)據(jù)聯(lián)邦的大量有標簽數(shù)據(jù),聯(lián)邦內(nèi)的每個成員都可以構(gòu)建出更靈活、更強大的模型;只需要對模型做微小的調(diào)整就可以看到準確率的明顯提升,甚至可以比擬完全不考慮隱私、直接在全部數(shù)據(jù)上訓(xùn)練的表現(xiàn)。

安全性是這篇論文所提方法的重要考慮因素,安全保護涵蓋了訓(xùn)練、評估、交叉驗證的全過程。安全的遷移交叉驗證機制確保數(shù)據(jù)能為聯(lián)邦內(nèi)的成員帶來性能提升(相比于傳統(tǒng)的考慮到安全因素的方法會帶來準確率損失)。作者們還提出的可拓展、靈活的方法,為神經(jīng)網(wǎng)絡(luò)模型提供額外的同態(tài)加密功能,只需要對模型做微小的調(diào)整。聯(lián)邦遷移學(xué)習(xí)框架非常靈活,可以高效地應(yīng)用在許多現(xiàn)實世界的機器學(xué)習(xí)任務(wù)中,提供安全的多方性能提升。

聯(lián)邦強化學(xué)習(xí)(Federated Reinforcement Learning),arxiv.org/abs/1901.08755

破解數(shù)據(jù)孤島壁壘,三篇論文詳細解讀聯(lián)邦學(xué)習(xí)

聯(lián)邦強化學(xué)習(xí)框架示意圖

在強化學(xué)習(xí)領(lǐng)域中,當狀態(tài)的特征空間很小、訓(xùn)練數(shù)據(jù)有限時,構(gòu)建高質(zhì)量的策略是很有挑戰(zhàn)性的。由于數(shù)據(jù)和模型的隱私限制,直接從一個智能體遷移數(shù)據(jù)或者知識到另一個智能體是不行的。具體來說,作者們假設(shè)智能體不會分享它自己的部分觀察結(jié)果,而且也有一些智能體無法獲得反饋;這樣的設(shè)定就和多智能體強化學(xué)習(xí)、以及多智能體環(huán)境下的遷移學(xué)習(xí)都有明顯的區(qū)別。

在這篇論文中,作者們提出了一種新的強化學(xué)習(xí)方案,它考慮到了上述的隱私要求,然后在其它智能體的幫助下為每個智能體構(gòu)建新的 Q 網(wǎng)絡(luò)。這就是聯(lián)邦強化學(xué)習(xí)(FRL)。

聯(lián)邦強化學(xué)習(xí)以三個步驟運行。首先,每個智能體都有一個 Q 網(wǎng)絡(luò),而且這個 Q 網(wǎng)絡(luò)的輸出是通過高斯差分方法加密保護的,每個智能體也都會收集其他智能體的 Q 網(wǎng)絡(luò)輸出;然后,智能體會構(gòu)建一個神經(jīng)網(wǎng)絡(luò),比如多層感知機模型,根據(jù)收集的其它智能體的輸出和自己的 Q 網(wǎng)絡(luò)輸出計算全局的 Q 網(wǎng)絡(luò)輸出;最后,它會基于全局 Q 網(wǎng)絡(luò)的輸出同時更新剛才的多層感知機模型和自己的 Q 網(wǎng)絡(luò)。值得注意的是,多層感知機模型是在所有智能體之間共享的,而智能體自己的 Q 網(wǎng)絡(luò)對其他智能體都是不可見的,而且也是無法通過訓(xùn)練過程中共享的那個 Q 網(wǎng)絡(luò)的加密輸出進行推斷的。

為了保護數(shù)據(jù)和模型的隱私,在不同的智能體之間共享信息、更新本地模型時都會對信息使用高斯差分保護。作者們在 Grid-world (多種不同尺寸)和 Text2Action 兩個截然不同的任務(wù)中評估了聯(lián)邦強化學(xué)習(xí)方法,不僅比所有同樣使用了部分觀察結(jié)果的方法表現(xiàn)更好,甚至和直接把所有信息作為輸入的方法取得了同等的表現(xiàn)。

SecureBoost 安全樹模型,arxiv.org/abs/1901.08755

破解數(shù)據(jù)孤島壁壘,三篇論文詳細解讀聯(lián)邦學(xué)習(xí)

SecureBoost 框架示意圖

這篇論文中作者們提出了一個基于聯(lián)邦學(xué)習(xí)的,新的無損、保護隱私的提升樹(tree-boosting)系統(tǒng) SecureBoost 安全樹模型。它可以讓多個機構(gòu)的學(xué)習(xí)過程共同進行,用戶樣本只需要有一部分相同,但可以使用完全不同的特征集,相當于對應(yīng)了不同的垂直分組的虛擬數(shù)據(jù)集。SecureBoost 安全樹模型的優(yōu)點是,它在訓(xùn)練數(shù)據(jù)保持多方相互保密的前提下,可以達到和不保護隱私的方法相同的性能;而且這個過程還不需要一個共同信任的第三方參與。

作者們從理論上證明了 SecureBoost 安全樹模型框架和其它的把數(shù)據(jù)合并成一整數(shù)據(jù)集的傳統(tǒng)(非聯(lián)邦)梯度提升樹方法有相同的準確率,是無損(lossless)的。由于 SecureBoost 安全樹模型框架由保護隱私的實體對齊以及安全的聯(lián)邦提升樹系統(tǒng)兩部分構(gòu)成,作者們也分別研究了兩者的可拓展性。除此之外,作者們還證明了方法的安全性,并且討論了如何讓使用到的協(xié)議完全安全。

開源信息

目前 FTL 和 Secureboost 已經(jīng)開源,開源項目屬于微眾銀行 AI 團隊的聯(lián)盟 AI 解決方案項目 FATE(Federated AI Technology Enabler)。這是一個為聯(lián)邦 AI 生態(tài)及應(yīng)用提供支持的開源庫,可以部署在單機或者計算機集群上,提供了基于同態(tài)加密的安全計算協(xié)議、多種聯(lián)邦學(xué)習(xí)架構(gòu),以及支持包括邏輯回歸、樹算法、深度學(xué)習(xí)、遷移學(xué)習(xí)等在內(nèi)的多種機器學(xué)習(xí)算法的安全計算。具體介紹以及解決方案示例可以參見 https://www.fedai.org/。

結(jié)語

面向?qū)嶋H問題的解決方案需要考慮加密和安全性、以及考慮只有部分信息時如何處理,這三篇帶著對安全和隱私的考慮進行研究的聯(lián)邦學(xué)習(xí)論文正展現(xiàn)了這一點。讓數(shù)據(jù)帶來更高效用、讓不同機構(gòu)的數(shù)據(jù)不再是「數(shù)據(jù)孤島」,聯(lián)邦學(xué)習(xí)能帶來明顯的幫助,相關(guān)技術(shù)也值得繼續(xù)深入挖掘。

另外,在即將于今年 8 月舉行的人工智能頂會 IJCAI 2019 上,楊強教授領(lǐng)銜的微眾銀行 AI 團隊將聯(lián)合 Google、IBM 等公司舉辦聯(lián)邦學(xué)習(xí)技術(shù)相關(guān)的國際研討會(FML 2019: The 1st International Workshop on Federated Machine Learning for User Privacy and Data Confidentiality)。屆時,在研討會上主辦方將會展示聯(lián)邦學(xué)習(xí)在隱私保護、安全機器學(xué)習(xí)以及人工智能領(lǐng)域的原創(chuàng)性學(xué)術(shù)成果,如果對聯(lián)邦學(xué)習(xí)想要有進一步深入了解,可以關(guān)注 FML 2019 活動,并向會議主辦方投稿。更多細節(jié)參見活動頁面 http://fml2019.algorithmic-crowdsourcing.com 。

詳細閱讀論文原文參見:

《Secure Federated Transfer Learning》

《Federated Reinforcement Learning》

《SecureBoost: A Lossless Federated Learning Framework》

雷鋒網(wǎng) AI 科技評論報道。

雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

破解數(shù)據(jù)孤島壁壘,三篇論文詳細解讀聯(lián)邦學(xué)習(xí)

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學(xué)術(shù)死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說