楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

本文作者：叢末

2020-08-11 11:25

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導(dǎo)語：AI 要保護人的隱私、模型的安全，也需要人類的理解

8月7日-8月9日，2020年全球人工智能和機器人峰會（簡稱“CCF-GAIR 2020”）在深圳如期舉辦！CCF-GAIR由中國計算機學(xué)會（CCF）主辦，香港中文大學(xué)（深圳）、雷鋒網(wǎng)聯(lián)合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦，以“AI新基建產(chǎn)業(yè)新機遇”為大會主題，致力打造國內(nèi)人工智能和機器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。

8月9日下午，在「聯(lián)邦學(xué)習(xí)與大數(shù)據(jù)隱私」專場上，微眾銀行首席人工智能官、香港科技大學(xué)楊強教授進行了題為「聯(lián)邦學(xué)習(xí)下的數(shù)據(jù)價值與模型安全」的演講。

演講中，楊強教授介紹了聯(lián)邦學(xué)習(xí)的關(guān)鍵技術(shù)以及應(yīng)用案例，并進一步介紹了最新開展的聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)的結(jié)合研究以及接下來的重點研究方向。

楊強教授表示，我們建立的 AI 離不開人，保護人的隱私是當(dāng)下AI 發(fā)展中特別重要的一點，這也是從政府到個人、企業(yè)以及社會的要求；另外，AI也要保護模型的安全，防止惡意或非惡意的攻擊；最后，AI 需要人類伙伴的理解，如何實現(xiàn)聯(lián)邦學(xué)習(xí)系統(tǒng)的透明性和可解釋性，也是研究者接下來需要重點研究的方向。

以下是楊強教授在大會的演講實錄，AI 科技評論進行了不修改原意的整理和編輯：

今天非常高興跟大家在聯(lián)邦學(xué)習(xí)專場相見，也非常感謝CCF-GAIR、雷鋒網(wǎng)組織了這場會議。就像剛才主持人所說，聯(lián)邦學(xué)習(xí)現(xiàn)在在國內(nèi)外已經(jīng)變成“星星之火可以燎原”之勢，在學(xué)術(shù)界、工業(yè)界、政府層面都有很大的推動力和場景，這和我們在座同事們的努力也是分不開的。今天我的題目是《聯(lián)邦學(xué)習(xí)的數(shù)據(jù)價值和模型安全》。

一、聯(lián)邦學(xué)習(xí)研究背景

首先看一下聯(lián)邦學(xué)習(xí)的研究背景。

我們知道AI的力量來自大數(shù)據(jù)，但我們面臨的實際問題往往只有小數(shù)據(jù)，比方說我經(jīng)常舉的例子，一個是法律，一個是金融，一個是醫(yī)療，這些跟國計民生和大產(chǎn)業(yè)都相關(guān)。另外還有很多其他的例子，比如香港科技大學(xué)的老師們，他們網(wǎng)上課程的學(xué)生受眾是萬級的，那能不能用他們的問答數(shù)據(jù)做一個對話系統(tǒng)？我?guī)е@個問題訪問了好幾位老師，結(jié)果他們的回答都是：沒有數(shù)據(jù)。他們的數(shù)據(jù)十分有限，也沒有標注，完全沒辦法采用人工智能對話機器人的思路和方法來做對話系統(tǒng)。

這也給了我一個啟發(fā)，我們總覺得在一個領(lǐng)域應(yīng)該有很多數(shù)據(jù)，然而實際情況是，這些數(shù)據(jù)是非常有限的。我們經(jīng)常聽到的人工智能主戰(zhàn)場，像無人車、智能手機等等，每一臺設(shè)備上的數(shù)據(jù)也是有限的，我們只有把這些數(shù)據(jù)匯聚在云端，才能形成大數(shù)據(jù)。但現(xiàn)在對數(shù)據(jù)的監(jiān)管法規(guī)，例如歐盟推出的個人隱私與數(shù)據(jù)法規(guī)GDPR等等，也限制了這些數(shù)據(jù)的匯聚。

給大家講一個小故事，2018年我在AI瑞典大會上遇到了瑞典的一位工業(yè)部長，我們進行了一些問答交流，他對AI也很感興趣。我當(dāng)時提的問題是“你們今年推出了GDPR，會不會限制歐洲人工智能的成長？”他說看上去是會的，但是他希望歐洲的公司有提出一些滿足GDPR的人工智能方案的理想。今天來看，這個想法是非常好的，因為如果真的做到了，他們的人工智能就能夠螺旋性上升，就可以走在世界的前端。不過，歐洲并沒有做出這樣的人工智能。也就是說，這并不是技術(shù)革新的充分條件。

在此背景下，我們也知道數(shù)據(jù)監(jiān)管以及對數(shù)據(jù)隱私的要求，在全世界范圍內(nèi)形成了一股潮流，不管是政府還是民間，大家對數(shù)據(jù)隱私的安全保護都是非常在意的。另外，To B的企業(yè)會知道，每一個機構(gòu)、企業(yè)，甚至是每一個集團公司的子公司，都很希望他們的數(shù)據(jù)可以不出本地，不為其他人所有。這一方面是受限于監(jiān)管和數(shù)據(jù)安全的限制，另一方面是他們不愿意讓自己的核心資產(chǎn)被別人拿到，因為數(shù)據(jù)承載了很多價值，一旦他們的數(shù)據(jù)被別人掌握，他們的核心價值就折舊了，就好像我們買一輛車，一出4S店的門，這輛車的價值就馬上減半了，這種狀態(tài)使得大家裹足不前。我們之所以大力推動聯(lián)邦學(xué)習(xí)，便是從這個角度出發(fā)的。

二、聯(lián)邦學(xué)習(xí)：數(shù)據(jù)不動模型動，數(shù)據(jù)可用不可見

關(guān)于聯(lián)邦學(xué)習(xí)，我和我的同事們經(jīng)常提兩句話：第一句話是“數(shù)據(jù)不動模型動”，這是聯(lián)邦學(xué)習(xí)的核心，讓模型在不同機構(gòu)之間、端和云之間進行溝通交流。

那它產(chǎn)生的效果是什么？這就是第二句話——“數(shù)據(jù)可用不可見”，這里所說的不可見，是別人看不見你的數(shù)據(jù)，你也看不見別人的數(shù)據(jù)，即數(shù)據(jù)和模型都保留在本地，建模的過程也保證了數(shù)據(jù)的安全。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

我經(jīng)常用的一個例子是“羊吃草”。我們把羊比擬成一個模型，把草比作數(shù)據(jù)。傳統(tǒng)的做法是把草運到羊的位置，這樣的話這個數(shù)據(jù)就需要出本地，而聯(lián)邦學(xué)習(xí)的做法是領(lǐng)著這只羊訪問不同的草所在的地方，這樣草就不用出本地，羊還是可以長大。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

業(yè)界也發(fā)展出了不同的聯(lián)邦學(xué)習(xí)模式，一種模式是谷歌提出的橫向聯(lián)邦，或者叫做按照樣本切割的聯(lián)邦學(xué)習(xí)。如果我們把所有聚合好的數(shù)據(jù)想象成一個大的數(shù)據(jù)集，這個數(shù)據(jù)集橫過來的每一行是一個樣本，是一個用戶的所有數(shù)據(jù)，縱過來的每一列則是特征，比如用戶的年份、身份等等。橫向聯(lián)邦，就是把這個數(shù)據(jù)的一部分樣本寄存在某個終端，如上右圖所示。這些樣本加起來是一個完整的數(shù)據(jù)集，但我們現(xiàn)在沒辦法在物理或?qū)嶋H現(xiàn)實世界中達到這個目的。因此，谷歌的做法是：首先在每一個本地建模，建的模型是圖里的“w”，對模型加密以后，把加密后的模型在云端進行整合。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

這個過程的目的是不讓參數(shù)泄露，因此關(guān)鍵技術(shù)是加密和解密的技術(shù)，現(xiàn)在有各種各樣的可以使用的加密技術(shù)，它們都在不同程度有保密性。比方說最嚴格的同態(tài)加密，它的特點是穿透性，其進行的數(shù)學(xué)多項運算可以穿透包對內(nèi)部數(shù)據(jù)進行同樣的運算，而運作執(zhí)行者可以不看內(nèi)容。就像我們在電商上買了很多包咖啡豆，每一個外面都有包裹，聚集了多個包裹以后，我們想把它們做成一個大袋子，同態(tài)加密技術(shù)就可以讓我們在不破壞外包裝的前提下做出這個大袋子，同時把咖啡豆聚集在一起。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

這個技術(shù)也可以同樣可以用在縱向聯(lián)邦模型上。按照特征來分，一個機構(gòu)可以有這樣的用戶特征，另一個機構(gòu)可以有那樣的用戶特征；一個醫(yī)院可以有病人的胸腔檢測，另一個醫(yī)院可以有病人的核酸檢測，當(dāng)他們合作以后，就希望得到全面的用戶檢測模型。而這個模型可以通過上右圖呈現(xiàn)的方式，在兩個機構(gòu)之間傳播和溝通，整個傳播和溝通過程也是在加密的情況下用分布式的機器學(xué)習(xí)來進行的。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

這種做法也可以適配到人工智能算法上，左邊的圖表示的是在縱向的情況下采用SecureBoost算法，右邊的圖表示在橫向聯(lián)邦基礎(chǔ)上也可以實現(xiàn)SecureBoost算法，這是機器學(xué)習(xí)聯(lián)邦化的例子。對于學(xué)生來說，將算法和聯(lián)邦學(xué)習(xí)相結(jié)合是一個很好的研究題目。不管是To C還是To B，可以采用橫向聯(lián)邦學(xué)習(xí)也可以采用縱向聯(lián)邦學(xué)習(xí)。

三、聯(lián)邦學(xué)習(xí)應(yīng)用案例

給大家舉幾個聯(lián)邦學(xué)習(xí)的應(yīng)用案例。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

第一個案例是推薦系統(tǒng)，這是現(xiàn)在很多應(yīng)用的核心，比如電影推薦、書籍推薦，比如新聞和短視頻推薦，這些系統(tǒng)的特點是數(shù)據(jù)越多越好，我們叫做矩陣數(shù)據(jù)。也就是說，這個矩陣的縱向是不同用戶，橫向是不同特征（即產(chǎn)品）。做推薦的時候，矩陣越密越好，因為矩陣的密度決定了推薦的個性化效果。如果要實現(xiàn)這個推薦系統(tǒng)，讓兩方合作，同時又不在物理上將雙方的數(shù)據(jù)進行傳播，就需要用到聯(lián)邦推薦的架構(gòu)，具體來說，就是讓雙方交換一些共有子矩陣，在加密的前提下實現(xiàn)聯(lián)邦推薦的效果。這種方法也可以應(yīng)用在廣告的推薦上。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

第二個例子是基于聯(lián)邦學(xué)習(xí)的企業(yè)貸款風(fēng)控模型。金融界特別關(guān)心建立一個好的風(fēng)控模型。在這個案例中，由一家銀行和一家票據(jù)公司對同一批用戶進行聯(lián)合建模，在建模的過程中就可以復(fù)傳數(shù)據(jù)。

對于縱向聯(lián)邦而言特別重要的一點是，有一方需要有關(guān)鍵的標注數(shù)據(jù)，比如銀行有關(guān)鍵的逾期率數(shù)據(jù)，但缺乏用戶行為數(shù)據(jù)，而用戶行為數(shù)據(jù)可以由合作的票據(jù)方來提供，最終實現(xiàn)效果也是非常明顯的。

目前在聯(lián)邦學(xué)習(xí)實踐中，已經(jīng)有幾十家銀行和非銀行合作的案例了，這些案例都證明聯(lián)邦學(xué)習(xí)方法可以大幅降低壞賬率。

第三個例子，多個保險公司之間進行橫向聯(lián)邦，在保險公司和互聯(lián)網(wǎng)之間還可以進行縱向聯(lián)邦。也就是說在同樣類型客戶的機構(gòu)之間，可以進行橫向聯(lián)邦；而在擁有不同特征客戶的機構(gòu)之間可以進行縱向聯(lián)邦，也可以進行拓撲聯(lián)邦。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

聯(lián)邦學(xué)習(xí)在計算機視覺領(lǐng)域也有應(yīng)用案例。AI 視覺公司之間如果進行橫向聯(lián)邦，他們可以把模型的準確率大幅提高。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

視覺以外，人工智能的另一個重要戰(zhàn)場是語音識別ASR，這一領(lǐng)域也有采用聯(lián)邦學(xué)習(xí)的需求。比方說我們在一個客服中心收集了很多錄音，在另一個客服中心也收集了很多錄音，那能不能把這兩批錄音結(jié)合起來變成更大的數(shù)據(jù)集？很顯然，這會暴露用戶隱私，不過現(xiàn)在我們可以用聯(lián)邦學(xué)習(xí)建立一個更好的語音識別模型，目前微眾人工智能部門也實現(xiàn)這一方案。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

另外，聯(lián)邦學(xué)習(xí)在 IoT 領(lǐng)域也得到了應(yīng)用，比如還利用聯(lián)邦學(xué)習(xí)進行倉庫的倉儲量預(yù)測，比如當(dāng)有些貨品缺乏時，系統(tǒng)就可以提早提出預(yù)警。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

總結(jié)來說，這一階段我們做了各種各樣的嘗試，以證明聯(lián)邦學(xué)習(xí)可以在企業(yè)，尤其是可以在不同企業(yè)之間廣泛使用，現(xiàn)在這一點也得到了很好的印證，接下來的專場，大家也會聽到不同講者闡述聯(lián)邦學(xué)習(xí)在他們各自領(lǐng)域中的應(yīng)用。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

我特別要提到的一個應(yīng)用——健康碼，這是我們最新的一個嘗試。大家掃健康碼進入會場的時候，掃的時候可能都會有一個擔(dān)心，健康碼記錄了你到過什么地方，有沒有去過現(xiàn)在疫情比較緊急的地方。其實更準確的健康碼，應(yīng)該能記錄到你有沒有近距離接觸過一些新冠病人，但這就要對你的軌跡數(shù)據(jù)進行非常細致的調(diào)查以及你和其他人的軌跡的交叉計算。這或多或少會讓我們擔(dān)心自己的軌跡數(shù)據(jù)隱私會不會暴露給一些不認識的人，比方說云計算公司。我們現(xiàn)在把聯(lián)邦學(xué)習(xí)和應(yīng)用結(jié)合起來，形成了新的方案，叫做聯(lián)邦健康碼，它計算出來的最后結(jié)果只有你自身所擁有的那臺手機才知道，其他的人都只知道片面信息，而不知道全面信息。

四、聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)的結(jié)合研究

我們現(xiàn)在在做一項研究工作，把聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)結(jié)合起來。聯(lián)邦學(xué)習(xí)在應(yīng)用中往往存在一個現(xiàn)象，即每一個數(shù)據(jù)擁有方所持有的數(shù)據(jù)，也許和別人的分布是不一樣的，也許和別人的表達也是不一樣的。比方說一個攝像頭中可能看到更多的是男性，另一個攝像頭看到的更多的是女性，這樣的分布是不一樣的。在這種狀況下建模，對機器學(xué)習(xí)來說是有困難的，因為機器學(xué)習(xí)要求數(shù)據(jù)遵從統(tǒng)一分布，并且表達也是類似的，而不能一部分數(shù)據(jù)是圖像，而另一部分數(shù)據(jù)是文字。這種異構(gòu)的數(shù)據(jù)在現(xiàn)實中經(jīng)常發(fā)生，所以有必要來做聯(lián)邦學(xué)習(xí)和遷移學(xué)習(xí)的結(jié)合。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

這種結(jié)合可以體現(xiàn)在各個層面，以深度學(xué)習(xí)為例，左邊的圖展示的是兩個神經(jīng)網(wǎng)絡(luò)，藍色的神經(jīng)網(wǎng)絡(luò)有很多數(shù)據(jù)標簽，所以可以建一個很好的神經(jīng)網(wǎng)絡(luò)模型，但是紅色的神經(jīng)網(wǎng)絡(luò)卻缺乏這樣的數(shù)據(jù)，我們考慮將藍色神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)遷移到紅色的神經(jīng)網(wǎng)絡(luò)中。過去，遷移學(xué)習(xí)是不考慮隱私的，模型和數(shù)據(jù)都可以被物理運到紅色神經(jīng)網(wǎng)絡(luò)進行知識遷移?，F(xiàn)在有了隱私顧慮，是不是可以用聯(lián)邦學(xué)習(xí)達到遷移學(xué)習(xí)的效果？答案是可以。

在兩邊溝通的過程中，除了隱私加密以外，還要進行一項遷移學(xué)習(xí)的運算，保證兩邊數(shù)據(jù)的分布和兩邊數(shù)據(jù)的表達都是相同的。要達到這一點，雙方首先要把各自方的模型和數(shù)據(jù)遷移到一個共同的子空間，這個遷移過程可以通過某種數(shù)學(xué)運算進行，比如和函數(shù)，效果相當(dāng)于我們把神經(jīng)網(wǎng)絡(luò)的某些層遷移到了新的場景下。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

這個工作中需要經(jīng)過多番遷移和對比，所以效率很低。最近我們又提出了一個加速算法，使得每一方本地的數(shù)據(jù)計算盡量多，跨合作方的計算盡量少，以聯(lián)邦塊的方式進行梯度交互，結(jié)果證明效果非常好。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

另外隨機森林也可以采用這個方法實現(xiàn)遷移學(xué)習(xí)和聯(lián)邦學(xué)習(xí)的結(jié)合。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

最近我們在推一個聯(lián)邦視覺的公共數(shù)據(jù)集，歡迎學(xué)校的學(xué)生來參與比賽。我在很多場合都說過，我們在共同推動IEEE標準，比如涂威威等人都在共同推動?，F(xiàn)在，微眾銀行開源的FATE也變成了國際上知名的聯(lián)邦學(xué)習(xí)開源軟件。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

五、聯(lián)邦學(xué)習(xí)接下來的重點研究方向

接下來，我們會做什么事？第一方向，是如何應(yīng)對對抗攻擊。假設(shè)在聯(lián)合建模的過程中有壞人參與，或者說這個人并不那么壞，但是他很好奇，時不時要探測合作方數(shù)據(jù)隱私，這種情況怎么防止？我們要看機器學(xué)習(xí)的過程中有哪些可攻擊點。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

第一種，他可以通過跟你的交互來推斷你的數(shù)據(jù)隱私，這個叫推斷訓(xùn)練數(shù)據(jù)的隱私；第二種，通過跟你合作建模，影響你的模型效果，而這個影響朝著他們希望的方向行進；第三種，在測試數(shù)據(jù)里加入一些小的改動，改變模型對測試數(shù)據(jù)的判斷。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

另外我們一不小心也有可能讓參與方學(xué)到你數(shù)據(jù)里的隱私，這也是一種隱私攻擊。如果我們用很嚴格的同態(tài)加密或者多方安全計算來進行，往往就不會發(fā)生這種情況。但是在大規(guī)模的工業(yè)應(yīng)用中，我們往往沒辦法用完整的原始同態(tài)加密和多方安全計算保證安全。相反，我們往往會往模型加一些噪音，在完全安全和完全不安全之間選擇一個中間點，差分隱私往往是中間點，具體做法是在數(shù)據(jù)和模型當(dāng)中加入一些噪音，使對方?jīng)]辦法完全區(qū)分某一個人或者某一個樣本是不是在你的數(shù)據(jù)里。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

但是這是有一定概率的，有可能對方還是能猜出來你的數(shù)據(jù)內(nèi)容。去年年底MIT的韓松教授團隊發(fā)表了一篇論文，他們證明如果差分隱私應(yīng)用得不好，有可能讓參與方通過對梯度的積累猜出來數(shù)據(jù)的原始形狀和原始的隱私信息。實驗證明，如果你加更多的噪音，會導(dǎo)致聯(lián)邦學(xué)習(xí)的效果下降，準確率會變差；而加的噪音少了，效果變好了，安全性卻又大為降低，所以這個方法其實是一把雙刃劍。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

最近我們引入了一個新的方法，讓每一個參與方不直接和對方溝通，具體來說，就是讓參與方在建模的時候建立自己的鏡像，在跟別人溝通時，防火墻會把他們對隱私的好奇心擋住，這樣就能夠在安全和效率高的兩個極端找到一個最佳的平衡點。

聯(lián)邦學(xué)習(xí)和自動化機器學(xué)習(xí)的結(jié)合研究，是另一個方向，第四范式的涂威威是這方面的專家。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020

縱向聯(lián)邦中，我們都希望兩邊都快速建立起一個神經(jīng)網(wǎng)絡(luò)。而神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和搜索空間是非常大的，過去我們需要一個人做手工調(diào)參，但現(xiàn)在可以通過一些加密手段梯讓度和損失函數(shù)值進行溝通，促進雙邊都自動尋找最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)，如圖上所示的兩個系統(tǒng)一樣，可以進行有機結(jié)合，最后獲得的效果就會非常好。上圖的大概思想是，我們建立網(wǎng)絡(luò)形狀拓撲的同時，也可以讓他們交換一定量的網(wǎng)絡(luò)數(shù)據(jù)、梯度和損失函數(shù)，當(dāng)能夠自動化建模的過程，實現(xiàn)的效果非常好。

最后總結(jié)一下。首先，我們建立的AI離不開人，保護人的隱私是當(dāng)下AI 發(fā)展中特別重要的一點，這也是從政府到個人、企業(yè)以及社會的要求；另外，AI也要保護模型的安全，我剛才舉的例子也說到，如果差分隱私用得不好，可能會暴露原始數(shù)據(jù)；最后，AI需要人類伙伴的理解，如何實現(xiàn)聯(lián)邦學(xué)習(xí)系統(tǒng)的透明性和可解釋性，也是我們需要研究的方向。

我今天就講到這，謝謝大家。

觀眾提問：我想了解一下聯(lián)邦學(xué)習(xí)在智能金融方面的應(yīng)用，目前進度如何？

楊強：聯(lián)邦學(xué)習(xí)在智能金融領(lǐng)域的應(yīng)用，是聯(lián)邦學(xué)習(xí)的重點及主戰(zhàn)場，其中最重要的一個方向是風(fēng)險控制。風(fēng)險控制中模型的全面性非常重要，因此數(shù)據(jù)的來源越多越好，但數(shù)據(jù)方往往不肯把數(shù)據(jù)拿出來，因此用聯(lián)邦學(xué)習(xí)是最好的場景。雷鋒網(wǎng)雷鋒網(wǎng)

當(dāng)然還有其他方面的應(yīng)用，比如客服里的人臉識別、語音識別。其中以語音識別為例，我們國內(nèi)有很多口音，比如四川、河南口音，都需要訓(xùn)練，那我們?nèi)绾文茉诓话褦?shù)據(jù)物理傳過來的情況下同時訓(xùn)練好能理解口音的語音訓(xùn)練模型呢？這其實也是一個非常好的場景。

演講結(jié)束后，楊強教授還為《遷移學(xué)習(xí)》以及《聯(lián)邦學(xué)習(xí)》兩本新書舉行了簽售會，前者是全球首本遷移學(xué)習(xí)教材，對遷移學(xué)習(xí)的基本原理、研究流派、方法、應(yīng)用都做了全面而深入的詮釋，后者則是首部全面、系統(tǒng)的聯(lián)邦學(xué)習(xí)專著，詳細剖析了聯(lián)邦學(xué)習(xí)與數(shù)據(jù)安全、隱私保護的前沿學(xué)術(shù)成果，涵蓋隱私保護技術(shù)，聯(lián)邦學(xué)習(xí)定義、分類、算法和系統(tǒng)，聯(lián)邦學(xué)習(xí)激勵機制等。簽售會現(xiàn)場人潮如涌，非常火爆。

楊強：應(yīng)對對抗攻擊、結(jié)合AutoML，是聯(lián)邦學(xué)習(xí)接下來的研究重點 | CCF-GAIR 2020