丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
金融科技巨頭 正文
發(fā)私信給周蕾
發(fā)送

0

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

本文作者: 周蕾 2020-08-17 19:01
導(dǎo)語:共享智能與聯(lián)邦學(xué)習(xí)有何不同?

隱私性跟可用性難以兼顧,讓人工智能落入了魚與熊掌不可兼得的尷尬境地。

當(dāng)前,業(yè)界解決隱私泄露和數(shù)據(jù)濫用的數(shù)據(jù)共享技術(shù)路線主要有兩條:一條是基于硬件可信執(zhí)行環(huán)境(TEE:Trusted Execution Environment)技術(shù)的可信計算,另一條是基于密碼學(xué)的多方安全計算(MPC:Multi-party Computation)。

針對數(shù)據(jù)共享場景,包括聯(lián)邦學(xué)習(xí)、隱私保護機器學(xué)習(xí)(PPML)在內(nèi)的多個技術(shù)解決方案紛紛出爐。螞蟻金服提出了共享智能(又稱:共享機器學(xué)習(xí)),結(jié)合TEE與MPC兩條路線,同時結(jié)合螞蟻自身業(yè)務(wù)場景特性,聚焦于金融行業(yè)的應(yīng)用。

究竟共享智能與我們熟知的聯(lián)邦學(xué)習(xí)有何不同?在共享智能落地金融等多個重要領(lǐng)域的過程中,螞蟻金服又遇到過哪些挑戰(zhàn),留下了怎樣的寶貴經(jīng)驗?

為此,雷鋒網(wǎng)《AI金融評論》邀請到了螞蟻集團共享智能部總經(jīng)理周俊做客線上講堂,詳解螞蟻金服共享智能的技術(shù)進展和落地實踐。

以下為周俊公開課全文,AI金融評論做了不改變原意的編輯:

在業(yè)界做隱私保護技術(shù)研發(fā)之前,是通過協(xié)同學(xué)習(xí)方法來實現(xiàn)多方信息融合,聯(lián)邦學(xué)習(xí)就是其中一種。近年來,學(xué)術(shù)圈相應(yīng)的證明發(fā)現(xiàn)此類方法的一些安全性問題,尤其是直接共享梯度,本質(zhì)上存在一些安全性問題。

我們先來看一下去年在一個學(xué)術(shù)頂會上比較火的Paper引發(fā)的討論。Paper里面的方法也比較好理解,實際上就是近幾年大家保護隱私的方法之一:就是不傳原始的數(shù)據(jù),只傳共享的梯度,把梯度匯聚到一起,然后再匯集到模型。

這種方法在前幾年一直都比較火,無論是聯(lián)邦學(xué)習(xí)還是其他的協(xié)同學(xué)習(xí)方式。

工作里面證明了,如果有惡意者在模型訓(xùn)練過程中拿到真正的梯度之后,就可以反推出數(shù)據(jù)中的特征(x)和標簽(y)。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

這里舉了兩個例子,能夠看到,尤其是在圖像領(lǐng)域,通過梯度本身是可以反推出原始輸入的這張圖像和原始的Y。

右邊的例子,是在NIPS網(wǎng)站上摳的一些文字,剛開始是隨機生成的,迭代到第30輪的時候,可以看到從梯度里恢復(fù)出來的一個樣本,跟原始樣本是非常接近的,只有個別詞有一定差異。

從學(xué)術(shù)上能夠看到,在這種協(xié)同學(xué)習(xí)中,以前大家認為安全的共享梯度方式,本身并不是很安全,我們給它取了一個標題叫做非可證安全。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

在這之后,DLG方法有了改進。這個方法首先通過推導(dǎo)可以精確拿到Label本身,有了Label再去反推X就更簡單了。從公式可以看到,它能更容易反推出原始數(shù)據(jù)的X。

從它的三個數(shù)據(jù)集可以看到,改進版DLG相對于原始的DLG在攻擊的準確率提升非常大。

阿里巴巴在去年也做過一個更加貼合實際情況的例子:假定雙方有兩個數(shù)據(jù)擁有者,它們的特征空間一樣,樣本空間不一樣,我們稱之為水平切分。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

按照聯(lián)邦學(xué)習(xí)的協(xié)作方式,計算本地的梯度,發(fā)到服務(wù)器,平均之后更新本地的模型,看起來比較安全——實際上,由于A和B精確知道每一輪梯度,它其實可以反饋出很多相關(guān)信息。

滿足一定條件的情況下,尤其是邏輯回歸,可以構(gòu)造出這樣的一組方程組,當(dāng)方程組的個數(shù)大于這個數(shù)據(jù)的特征維度,方程組是可以解出來的。因此也可以反推出原始的數(shù)據(jù)。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

從右下角的結(jié)果中,能夠看到我們攻擊出來的結(jié)果,跟原始特征非常接近。這說明,不論是從學(xué)術(shù)圈里面假定的setting,還是真實情況中,目前這種共享梯度的協(xié)作方式,也包括聯(lián)邦學(xué)習(xí),本身都有比較大的安全隱患。

做保護隱私的機器學(xué)習(xí)方法,本身還是需要結(jié)合其他方法去彌補它的不足,才有可能讓方法本身更安全,真正保護用戶隱私。

如何“精修”機器學(xué)習(xí)處理方法各環(huán)節(jié)

數(shù)據(jù)預(yù)處理:

我們自己所做的機器學(xué)習(xí)處理方法,從數(shù)據(jù)預(yù)處理到模型訓(xùn)練再到模型推斷,都是遵循這樣切實保護用戶隱私的思路,將MPC、TEE或其他技術(shù),跟現(xiàn)在技術(shù)相應(yīng)結(jié)合,確保中間每一步的隱私都能得到更好地保護。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

以數(shù)據(jù)預(yù)處理中的降維為例,假定數(shù)據(jù)在水平切分的情況下,大家樣本空間不一樣,兩方希望能夠把數(shù)據(jù)能降低一個維度,降維之后的結(jié)果能夠送到后面的機器學(xué)習(xí)模型進行相應(yīng)訓(xùn)練,這種方法能較好提升效率。

同時,模型的泛化能力會有進一步提升,結(jié)合MPC里同態(tài)加密和秘密分享的技術(shù),加固PCA(Principal Components Analysis,主成分分析),使得它能真正保護數(shù)據(jù)安全性。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

此處有幾步核心操作:

首先是計算均值。如果是在同態(tài)加密的情況下,需要密態(tài)空間要進行計算;如果是秘密分享的方法,則需要將原始數(shù)據(jù)拆成多個秘密分片,再配合起來算出均值。

其次是計算協(xié)方差矩陣,最后再算出相應(yīng)的特征值、特征向量,就得到了降維后的X′。同態(tài)加密和秘密分享的技術(shù),跟PCA做相應(yīng)結(jié)合,就能比較好的拿到相應(yīng)結(jié)果。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

從結(jié)果可以看出,相比于各方單獨算一個PCA再拼湊結(jié)果,我們的方法精度提升比較大。同時,它跟原始PCA方法相比,在后面都接相同的機器學(xué)習(xí)模型的情況下,幾乎沒有精度損失的情況。

除了降維以外,還有很多類似的工作可做,比如共線性檢測,隱私求交(PSI)等。

當(dāng)然,安全的方法計算時間會更長一些,因為天下沒有免費的午餐,要保護隱私,肯定有相應(yīng)的計算和通信成本在里面。

模型訓(xùn)練:

DNN模型是現(xiàn)在大家用的比較多的。這里分別列出來業(yè)界三種典型做法。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

左邊是傳統(tǒng)的基于明文的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。

中間是完全基于MPC的方法,有很多非線性運算,可以做到可證安全,但速度會慢幾個數(shù)量級,效率本身也不高。

右邊是MIT提出來的方法,比較快,但它的Label也放在服務(wù)器里計算,安全性有一定問題;而且它沒有考慮特征之間的相關(guān)性,精度上有一定損失。

發(fā)現(xiàn)這些問題之后,我們提出了一個創(chuàng)新的體系。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

首先,為了考慮特征之間的相關(guān)性,我們在底層利用MPC技術(shù)去做跟隱私數(shù)據(jù)相關(guān)的一部分模型計算。計算完之后,再把跟隱層相關(guān)的復(fù)雜計算,放到一個Semi-honest 服務(wù)器(半誠實服務(wù)器)去完成其他運算。 

這服務(wù)器里可以利用現(xiàn)有的各種計算資源,比如TF、PyTorch,甚至可以利用一些比較靈活的處理框架。

Label的部分還是放到數(shù)據(jù)持有者本身,全程能確保沒有哪一部分隱私會被泄露。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

Semi-honest 服務(wù)器會拿到中間的隱層結(jié)果,我們可以通過一些對抗學(xué)習(xí)方式去防止服務(wù)器獲取中間信息。這一方法盡可能做到隱私、準確率、效率三者之間的平衡。此外,我們還可以使用貝葉斯學(xué)習(xí)的方法(SGLD)去替換傳統(tǒng)的SGD(隨機梯度下降),從而更好保護訓(xùn)練過程中的隱私。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

SGLD是在貝葉斯神經(jīng)網(wǎng)絡(luò)中應(yīng)用較廣泛的方法,可以看作是加噪版本的SGD。

以前很多方法都在探討它的泛化能力,在這里我們發(fā)現(xiàn)了它另外的好處:因為訓(xùn)練過程中添加了噪聲,所以可以更好的保護隱私,尤其是在對成員攻擊(Membership attack)的情況。比如有時醫(yī)療領(lǐng)域想知道自己的數(shù)據(jù)有沒有被這個模型所用。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

我們在評估Membership攻擊效果時,定了一個成員隱私的loss,這個loss就是為了看SGLD到底能不能保護成員隱私,我們通過大量的實驗發(fā)現(xiàn)SGLD是能較好阻止Membership attack。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

具體來講,我們在兩個數(shù)據(jù)上面做了相應(yīng)的測試,無論是在Table1還是在Table2里,尤其是在Attack Metric上,SGLD跟普通的方法相比,能夠大大降低成員攻擊的準確率。

同時,我們也發(fā)現(xiàn)用它也能很好提升模型的擼棒性, SGLD和變種,比前面單獨的不加噪版本在Test上面的Metric會更好一些。

因此,我們在訓(xùn)練時也把傳統(tǒng)的SGD換成了SGLD,能進一步提升安全等級,在兼顧三方面要求后,具有比較高的安全性和高效性。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

剛才講到,在服務(wù)器里,可以很好利用現(xiàn)有的TensorFlow或Pytorch,從右邊這個代碼可以看出來,該方法是非常用戶友好的。

其次,在服務(wù)器里面,對于網(wǎng)絡(luò)結(jié)構(gòu)這部分,設(shè)計可以非常靈活,也可以設(shè)置任意的網(wǎng)絡(luò)結(jié)構(gòu),充分發(fā)揮中心服務(wù)器的計算力。

通過訓(xùn)練過程中引入的SGLD,也就是加噪的SGD,再加上Adversary loss,使得哪怕是服務(wù)器試圖做惡,也無法由此推斷出更多相應(yīng)信息,安全等級進一步提升。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

我們跟業(yè)界的幾個方法也對比過,比如2017年 MIT的 SplitNN和現(xiàn)在最好的SecureML。

性能上,(我們的方法)比這倆更好一些。從這兩個數(shù)據(jù)集來看,訓(xùn)練時間上,由于我們使用了中間服務(wù)器,訓(xùn)練時間相對于純MPC的方法(SecureML)大大降低,但相比SplitNN訓(xùn)練時間還是要長,因為我們安全等級要高。

總體而言,我們的方法能較好地實現(xiàn)效率、安全性和準確率的折中。

模型預(yù)測:

在模型訓(xùn)練上,涉及到前向、反向的計算,非常耗資源,它跟現(xiàn)有的一些隱私計算技術(shù)結(jié)合之后,對效率本身還是有比較大的影響。所以有很多工作都在考慮怎么做模型推理。在模型預(yù)測時,既要保護云上的模型,也要保護客戶手里的數(shù)據(jù)。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

我們這個方法跟原來不一樣,之前可能有很多工作局限于支持一部分的激活函數(shù)。比如有時都無法支持sigmoid或max pooling,有的干脆只保護客戶端的Input data,但不保護服務(wù)器上的模型。 

還有極端情況是完全用MPC做計算,單次模型預(yù)測用時會非常長。

另外,現(xiàn)在MPC尚不能完全精確計算一些比較復(fù)雜的函數(shù),只能做一些展開或近似計算,精度上也有所損失。

我們希望能夠提出一種方式,盡可能在效率、精度、安全性方面能達到比較好的折中,保護服務(wù)器和用戶的隱私。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

方法采用了兩點,一是前面介紹的貝葉斯神經(jīng)網(wǎng)絡(luò),因為它里面可以引入權(quán)重的不確定性,這能讓服務(wù)器上的精確模型不被拿到。 

第二,無論是在數(shù)據(jù)保護還是在客戶端上,用同態(tài)加密的機制去保護。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

具體是把DNN的計算拆分成兩級,一是首先通過采樣的方法拿到W,有了W之后,客戶端傳過來的加密Input,通過線下的運算出Z,這也是密態(tài)的。密態(tài)下的Z在返回到客戶端解密后,在客戶端上就能拿到最后的a。

這樣的方式,既保護了服務(wù)器上的模型,也保護了客戶端上面輸入數(shù)據(jù)的效果,起到了比較好的trade-off。

通過迭代式的同態(tài)加密計算,既保護了用戶隱私,也保護了密態(tài)下的服務(wù)器隱私。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

我們的方法,因為大量的復(fù)雜運算很多是返回到客戶端上面,在非密態(tài)的情況下進行計算,所以Latency比較低。它還能支持任意的激活函數(shù),可以比較好地擴展到RNN和CNN。

典型應(yīng)用案例:POI上的推薦

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

原來的做法,不論是非常詳細的profile數(shù)據(jù),還是一些用戶跟POI的交互數(shù)據(jù),用戶的所有相關(guān)數(shù)據(jù)都要被推薦系統(tǒng)所收集。一些隱私模型,比如用戶偏好也都是被推薦系統(tǒng)所保留。所以推薦系統(tǒng)有很大的機會窺探到用戶相關(guān)隱私。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

我們的思路是:首先,比較敏感的用戶隱私數(shù)據(jù)和模型,能夠在用戶本地,而不能上傳到服務(wù)器的推薦系統(tǒng)這里。

第二,我們還是會收集用戶和POI的交互數(shù)據(jù),通過本地化差分隱私的方式注入噪音,這樣傳上去的是一個帶噪音且能夠保護隱私的版本。

通過這樣的方式產(chǎn)生動態(tài)的POI,再通過去中心化的梯度下降方法學(xué)習(xí)能保護隱私的FM模型。

通過各式各樣的安全聚合方式使隱私得到保護,這種方法我們稱為PriRec。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

我們在兩個數(shù)據(jù)集上做了比較,在Foursquare數(shù)據(jù)上,因為用戶特征只有兩三個,我們的方法比FM稍弱;但切換到真實的場景數(shù)據(jù),因為這里面有大量的用戶和POI數(shù)據(jù),能看到我們這個方法比FM起到更好的效果。

之所以會更好,原因就是用戶和POI的數(shù)據(jù),往往具有聚焦性,而去中心化的學(xué)習(xí)方法恰恰可以很好的利用這一點。在PriRec中,服務(wù)器上也沒有拿到隱私的數(shù)據(jù)和模型,所以能保護隱私。

實際上,推薦搜索廣告方面都有類似應(yīng)用;金融科技領(lǐng)域的風(fēng)控也有類似的方法,就是對現(xiàn)有的機器學(xué)習(xí)方法進行加固,產(chǎn)生一個更好的、更具有隱私保護的版本,達到AI助力業(yè)務(wù)效果的目的。

目前業(yè)界的四種技術(shù)

包括MPC,可信執(zhí)行環(huán)境,差分隱私和聯(lián)邦學(xué)習(xí)。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

在多方安全計算時,理想情況是有一個大家都完全相信的可信服務(wù)器,所有人把所有東西都放上去計算,再把結(jié)果分發(fā)給大家。

現(xiàn)實是找不到完全的可信服務(wù)器,還是需要很多協(xié)作方,協(xié)同完成函數(shù)f的計算。

當(dāng)然,大家希望在計算的過程當(dāng)中既能夠保護Input privacy,也能夠保護計算的privacy,如果同時能保護Output privacy最好。

MPC的提出,是希望能夠保護Input privacy和Compute過程當(dāng)中的privacy。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

這里面有幾個典型技術(shù),一是秘密分享(Secret Sharing),密碼學(xué)里一個比較老的技術(shù)。早在七八十年代就已經(jīng)有相應(yīng)的論文發(fā)表。

舉個例子:有兩個人想?yún)f(xié)同計算他們求和的結(jié)果,每個人會把自己的數(shù)拆成多個share,share加起來等于他們自己,但任何人拿到其中一個的share是沒有什么物理含義的。

通過share的交互,雙方最后拿到7和6的結(jié)果(上圖右側(cè)),這其實已經(jīng)完成加法的求和運算,既保護了Input的隱私,也保護了中間計算的隱私。

這幾年在工業(yè)界里,隨著算力的豐盛,以歐美為代表的很多公司都在用這樣的技術(shù),比如著名的開源SPDZ等。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

二是姚期智院士在1989年提出來的混淆電路。它主要是通過兩個大的building block構(gòu)建,一個是混淆的真值表,一個是遺忘傳輸,通過這兩種方式完成協(xié)同計算,解決了著名的百萬富翁問題。

秘密分享因為它需要通過大量交互迭代,通信代價一般較高。

混淆電路中間是通過大量電路運算,電路的門個數(shù)較高時,效率相對來說沒有那么高。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

其次還有同態(tài)加密方法,過程中是在密態(tài)下計算完的,之后才解密得到相應(yīng)結(jié)果。

同態(tài)加密和秘密分享在一些比較復(fù)雜的函數(shù)上,是沒有辦法進行相應(yīng)計算的,要通過一些近似計算的方法才能拿到相應(yīng)的結(jié)果。

由于算力的逐步提升,和一些基礎(chǔ)突破,這兩年工業(yè)界對MPC也用得越來越多。

三個技術(shù)有各自的優(yōu)缺點,組合使用也能產(chǎn)生一個相對理想的結(jié)果。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

可信執(zhí)行環(huán)境,相當(dāng)于是一個硬件級的密碼箱。把加密數(shù)據(jù)放到密碼箱里之后,OS操作系統(tǒng)都沒有辦法打開密碼箱,只有持有相關(guān)密鑰的人才能在里面進行運算,就是所說的可信區(qū)域。

這個方法本身是非常安全,但很依賴于硬件,目前做得比較好的是因特爾的SGX。

前面所介紹的 MPC、TEE,都是可以保護Input privacy和compute privacy ,但沒能很好地保護output privacy。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

在差分隱私(Differential Privacy)之前有很多別的方法去處理數(shù)據(jù)中的隱私,比如像各種匿名化方法,除了K匿名,還有一些L-diversity等方法保護隱私。

但隨著大數(shù)據(jù)時代的到來,通過鏈接一些別的數(shù)據(jù),能夠反推出來單人ID,匿名化基本上沒有什么用。所以差分隱私之前的一些技術(shù),現(xiàn)在來看是不安全的。對Output或Release的數(shù)據(jù)集,都在慢慢切換到差分隱私的技術(shù)上來。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

這個技術(shù)本身較好地考慮到實用性和隱私性的折中,隱私肯定有代價,要么犧牲一定的實用性,要么有計算代價。

差分隱私是在數(shù)據(jù)中加噪聲,對實用性有所影響,尤其是在數(shù)據(jù)本身也不大的情況下,對結(jié)果的影響較大。

差分隱私提供了一種量化的方法,能測量到底加多少噪聲,能夠取得比較好的trade-off。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

差分隱私從從概率學(xué)和信息論得到一個隱私保護的bound,實操不是很復(fù)雜,就是在數(shù)據(jù)中添加相應(yīng)的噪聲,并且通過參數(shù)控制噪音的大小。

當(dāng)然,它本身怎么使用、怎么設(shè)置privacy budget,有著非常復(fù)雜的考量機制,但原理本身不算特別復(fù)雜。

這個技術(shù)在提出來之后,因為它有比較好的理論保障,所以在學(xué)術(shù)界、工業(yè)界很多人也都在用,能比較好地保護Output privacy,跟前面的技術(shù)也有比較好的結(jié)合。

Local 差分隱私類似多方,就是自己本身加上噪聲,再上傳到一個地方。

它在工業(yè)界遇到的一個較大問題是,因為要在里面加噪聲,所以模型精度受影響。  

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

聯(lián)邦學(xué)習(xí),谷歌在2014年就已經(jīng)在內(nèi)部開始做這樣的技術(shù),它本身是解決to C的問題,所以想解決幾十億的設(shè)備間如何協(xié)同、安全地利用數(shù)據(jù)訓(xùn)練模型。

當(dāng)然設(shè)備之間可能不滿足獨立同分布的概念,硬件之間差異非常大,所以會導(dǎo)致可靠度的差異也很大,有時在訓(xùn)練的時候自己就下線了。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

在2016-2017年,聯(lián)邦學(xué)習(xí)有相應(yīng)論文發(fā)表。目前用的算法也是從服務(wù)器上拉了一個模型,做完更新,delta發(fā)給服務(wù)器做average并更新模型。

直接這么做肯定會有一些問題,所以paper里面做了大量的優(yōu)化,能夠讓通信成本和訓(xùn)練的穩(wěn)定性都有比較大的提升。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

谷歌在2017年期間已經(jīng)發(fā)現(xiàn)了,原來把梯度直接匯聚到服務(wù)器上的協(xié)同學(xué)習(xí)方法也不是很安全;如果要保護隱私,必須得結(jié)合MPC的技術(shù)。

幾種技術(shù)的比較和解決方案

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

我們從自己的角度做了一張總結(jié)表格,像MPC能保護好Input privacy和計算過程中的 privacy;但對于Output privacy,它的保護能力比較弱。效率上,因為牽涉到大量密碼學(xué)技術(shù),代價不低。

TEE跟MPC類似,把它們理解成密碼學(xué)偏軟件和偏硬件的實驗版本。

差分隱私就可以較好保護Output privacy,計算代價相對不高,實用性有一定損失,尤其是local 差分隱私加了某種噪聲之后,只能用于某些統(tǒng)計學(xué)運算。

聯(lián)邦學(xué)習(xí)無法很好地保護Input privacy和Output privacy,好處在于效率相對高。

站在從業(yè)者的角度來看,這些技術(shù)還是需要一個端到端的設(shè)計,結(jié)合各方技術(shù)優(yōu)勢提供相應(yīng)的方案,達到最后總體的效果。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

我們結(jié)合了這樣三個方案

首先,MPC底下分為這么幾層,用前面所講的秘密共享、OT或其他密碼學(xué)的原語。為什么要實現(xiàn)這么多密碼學(xué)的協(xié)議?就是希望能夠利用每種協(xié)議的優(yōu)缺點,有更加好的組合,在合適的地方選用合適的技術(shù)。

第二層,我們希望把底下比較偏密碼學(xué)的原語,再做一層封裝,這上面提供一些機器學(xué)習(xí)經(jīng)常要用的運算,比如比較、求交、矩陣加法、求max的運算。

上面再抽象成一個DSL語言,開發(fā)算法時,不用直接面對底層密碼學(xué)原語,速度相對會更快。

另外,因為我們參考的是機器學(xué)習(xí)里面的DSL,整個語法也跟機器學(xué)習(xí)類似,機器學(xué)習(xí)的創(chuàng)業(yè)者就能用比較低的成本,切換到共享智能技術(shù)上,進行算法開發(fā)。

同時,我們也提供編譯器,它能夠?qū)⒂脩魧ι蠈娱_發(fā)的算法,自動選擇最優(yōu)的安全算子,實現(xiàn)安全的程序,進而實現(xiàn)整個MPC里面的一些方法。

TEE方面,因為TEE本身的SDK也不是那么友好,并且單機的SGX 的運算能力并不是特別強,為此我們做了一些改進:

組建安全可信集群,以擴展算力;做了很多防止各種攻擊的方法,在安全性上有個更好的工業(yè)級框架出來,便于開發(fā)者能夠基于這些核心能力開發(fā)出各種算法。

上面是比較偏差分隱私或矩陣變換的方法。這種方法還是有比較好的適用場合,比如前面講的Output privacy里面用到差分隱私,或者是MPC和TEE里面在Output 的地方加上差分隱私,本身有比較好的互補的作用。技術(shù)之間也可以兩兩去組合。 

每個方案都有各自的優(yōu)缺點,做隱私保護相關(guān)的工作,還是需要通過精心的工程設(shè)計,算法設(shè)計加上密碼學(xué)原語,才能夠端到端地保護數(shù)據(jù)輸入、計算過程、數(shù)據(jù)輸出等隱私,從而達到相應(yīng)的目的。

螞蟻共享智能的落地經(jīng)驗

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

合作案例:江蘇銀行

去年上半年,江蘇銀行希望使用MPC實現(xiàn)聯(lián)合風(fēng)控,模型的產(chǎn)出完全放在江蘇銀行,自主可控。構(gòu)建出聯(lián)合模型之后,模型分數(shù)給到銀行,由它去做獨立的風(fēng)控判斷,之后再產(chǎn)生結(jié)果給到最后的申請判斷。整個模型的效果在測試的時候發(fā)現(xiàn)提升了50%左右。

同樣,我們還在支付的聯(lián)合風(fēng)控、聯(lián)合營銷以及聯(lián)合保險也進行了相應(yīng)的落地。

AI研究前沿動態(tài)和未來展望

目前看來,現(xiàn)在這幾個技術(shù)之間彼此有互補,但端到端的系統(tǒng)怎么在各個環(huán)節(jié)去利用合適的技術(shù),去產(chǎn)生合適的效果?怎么樣把這樣一個系統(tǒng)在超大規(guī)模的數(shù)據(jù)上做相應(yīng)的實踐?在不影響效率的情況下,將隱私保護的等級能夠升級到更高的級別? 

我覺得還需要有整個業(yè)界需要投入更多的資源,更長的研發(fā)投入,更長的耐心,才有可能在一些更關(guān)鍵的技術(shù)上面產(chǎn)生更好的結(jié)果。

同時也需要整個AI圈子加上密碼學(xué)的硬件再加上工程系統(tǒng),一起努力才有可能在一些點上面取得真正的大的突破,才有可能使得整個隱私計算的效率能夠再提升1~2個數(shù)量級。

目前隱私計算效率本身,相比非隱私保護的AI,在速度甚至精度上都會有一定的損失。

所以,怎么樣去設(shè)計更好的方式,除了在技術(shù)本身的突破,也需要有更多的場景去打磨技術(shù),才能發(fā)現(xiàn)的問題,逐步讓技術(shù)往前走。

螞蟻集團「共享智能技術(shù)」戰(zhàn)略全布局丨萬字長文

從三大維度來看:

第一,從算法維度看,無論是在學(xué)術(shù)界還是工業(yè)界,目前的這幾個方法割裂程度比較明顯。比如TEE跟差分隱私,雖然他們之間有交集但并不多。

TEE里也有很多技術(shù)要去突破,比如目前TEE的內(nèi)存只有128兆,相比普通系統(tǒng)還是比較小的。現(xiàn)在數(shù)據(jù)量比較大,尤其是在一個圖像數(shù)據(jù)上,怎么在這么大的數(shù)據(jù)情況下完成隱私計算,是難度比較大的一個問題。

第二,由于內(nèi)存比較小,為了保護安全和隱私,所以在很多運算效率跟目前正常操作有一定差距。

第三,SDK的友好性方面,因為比較偏硬件,還涉及到大量的密碼學(xué)等機制,比如遠程認證,對于很多從業(yè)人員而言還是有相應(yīng)的學(xué)習(xí)成本。 

當(dāng)然,業(yè)界很多開源的、在原生的TEE上封裝的一些SDK,各方面有一些提升,可擴展性本質(zhì)上有些突破,但突破不是特別大,意味著很多東西不能拿來直接在工業(yè)界使用。所以TEE也還需要整個社區(qū)有更多的投入。

TEE上面,現(xiàn)在很多都在做支持中小規(guī)模的算法訓(xùn)練和預(yù)測。怎么讓更大的規(guī)模、更新的算法能夠被集成進來,這也是需要業(yè)界有更多投入。

差分隱私技術(shù)本身的理論性質(zhì)比較優(yōu)美,但在實用性上有一定損失。

我們提到過,對于utility loss以及差分隱私輸出來的結(jié)果,因為畢竟是在原始的數(shù)據(jù)上面加了一定的噪聲,這個數(shù)據(jù)相對來講會不會有一定的損失度?

如果完全是local 差分隱私的方式,在很多場景下面就沒有辦法用,怎么讓差分隱私能夠再更進一步,更貼合現(xiàn)在AI這個情況?

目前看到,差分隱私在很多數(shù)據(jù)分析應(yīng)用非常廣泛,比如,蘋果系統(tǒng)上收集了emoji的數(shù)據(jù);微軟操作系統(tǒng)的瀏覽器里面也嵌入了差分隱私的數(shù)據(jù);Uber也用了這樣一個技術(shù),但目前大部分用在數(shù)據(jù)統(tǒng)計方面。

怎么樣把差分隱私這樣的技術(shù)能夠跟AI有更好的結(jié)合,是未來一個比較大的突破點。

MPC技術(shù)本身,從經(jīng)典論文發(fā)表來看,雖然不算特別新,但在很多很復(fù)雜的運算上,尤其是在AI的一些新方法,MPC效率本身還是有一定的代價。

怎樣取得算力的增長,有新模式突破,像完全同態(tài)的方法什么時候真的變成實用,怎么能夠使這個技術(shù)在工業(yè)界更進一步,這也是需要考量的一個點。

聯(lián)邦學(xué)習(xí)目前也存在一定的安全隱患,四個技術(shù)之間怎么去做相應(yīng)的結(jié)合,取長補短,能夠形成比較好的下一代的解決方案,真真正正保護隱私,讓AI落地變得更簡單?

尤其是在一些數(shù)據(jù)比較敏感的地方,像醫(yī)療的某些領(lǐng)域,病例的數(shù)據(jù)采集特別困難,真的能夠讓AI進到這些地方,輔助決策,才能更加好實現(xiàn)社會意義和價值。

我覺得,在算法層面會需要深度結(jié)合,無論是基于某些算力,還是說在技術(shù)領(lǐng)域的突破,能讓這里面的一些問題有更進一步的解法。

在平臺層,無論是差分隱私、TEE還是別的技術(shù),越靠近數(shù)學(xué)和越靠近密碼學(xué)硬件,為了保護隱私,里面大量的設(shè)置都比較難以理解。怎樣讓大家更高效產(chǎn)出不一樣的算法,降低使用門檻,這些方法才能夠跟更多地方結(jié)合,產(chǎn)生更多的新突破。

在DSL和在編譯器方面,甚至在整個系統(tǒng)的運維、部署,以及系統(tǒng)穩(wěn)定性、安全生產(chǎn)等各方面,有沒有進一步的突破,變得易用?

在一些對時效性要求沒有那么強的情況,如果能夠持續(xù)穩(wěn)定計算,對于很多產(chǎn)品也是比較適用的。對于整個隱私計算領(lǐng)域而言,這也是一個巨大的挑戰(zhàn)。

所以怎樣有更高效的平臺一體化設(shè)計,讓使用門檻變低,才有可能會真正帶來一些繁榮的社區(qū),讓技術(shù)能夠走進更多場景、更多機構(gòu),真正產(chǎn)生一些化學(xué)反應(yīng)。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

云計算/To B/金融科技丨微信:LorraineSummer
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說