丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
風(fēng)控與安全 正文
發(fā)私信給周蕾
發(fā)送

0

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

導(dǎo)語:擁有三大開源聯(lián)邦學(xué)習(xí)框架之一的百度,有著怎樣的實踐心得?

對百度來說,聯(lián)邦學(xué)習(xí)+金融會產(chǎn)生怎樣的火花?

雷鋒網(wǎng)AI金融評論推出的《BATJ高管公開課》第四期,就邀請到了百度智能云智慧金融事業(yè)部算法負(fù)責(zé)人謝國斌做客線上講堂,揭秘百度智能云在金融領(lǐng)域的安全計算布局和技術(shù)思考。

此次課程,他將分享基于聯(lián)邦學(xué)習(xí)技術(shù)的百度金融安全計算平臺(度信)建設(shè)與實際應(yīng)用,講述如何借力安全技術(shù)架構(gòu)、脫敏方法和合規(guī)制度設(shè)計,在“用戶充分授權(quán)、數(shù)據(jù)來源合法合規(guī)”前提下,打破數(shù)據(jù)孤島,實現(xiàn)多方數(shù)據(jù)加密融合建模,助力金融企業(yè)業(yè)務(wù)的開展。

本文整理:佳慧,以下為謝國斌演講全文內(nèi)容:

百度智能云的數(shù)據(jù)孤島破解之道

我們在跟很多的金融客戶進(jìn)行溝通的時候,他們普遍面臨的痛點,就是數(shù)據(jù)孤島和隱私保護(hù)的問題。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

目前的現(xiàn)狀是,一方面要保護(hù)客戶的隱私,另外一方面,數(shù)據(jù)孤島在不同的程度上存在著,去年央行發(fā)布的金融科技三年發(fā)展規(guī)劃里,也強(qiáng)調(diào)了要“消除信息的壁壘;數(shù)據(jù)融合?!?nbsp;

今年4月,國務(wù)院也在《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》里,強(qiáng)調(diào)了數(shù)據(jù)的共享、數(shù)據(jù)資源的整合和安全保護(hù)。

所以,“數(shù)據(jù)孤島”和“隱私保護(hù)”兩者的困境,在業(yè)內(nèi)一直是個難題。 

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

行業(yè)里做這塊技術(shù)的公司,一般有如下路徑在積極探索:

其中一種就是聯(lián)邦學(xué)習(xí);還有與之接近的,就是在做參數(shù)交換、梯度交換的時候,會用到的多方安全計算。另一種以硬件加密為主,可信計算(TEE),在內(nèi)存里做安全加密。以及基于云安全,做安全隔離域的方法。

基于剛才說到的痛點,百度推出了度信金融安全計算平臺,做數(shù)據(jù)融合,前提是強(qiáng)調(diào)用戶要充分授權(quán),數(shù)據(jù)來源要合法、合規(guī)。也提出了聯(lián)合建模產(chǎn)品,拒絕數(shù)據(jù)孤島的存在,產(chǎn)品對上面幾種路徑都是支持的。

今天的要點,主要是分享在聯(lián)邦學(xué)習(xí)和多方安全計算技術(shù)路徑上,我們所做的嘗試和產(chǎn)品的研發(fā)。

我們的金融安全計算平臺有以下特點:

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文


平臺主要服務(wù)于金融行業(yè)to B客戶,會考慮行業(yè)里特別關(guān)注的一些場景,比如營銷、風(fēng)控、投研、反欺詐。我們基于金融的建模,有一些專用的功能點增強(qiáng)。從安全特性上,無論硬件軟件,有多種的方式進(jìn)行技術(shù)加固。

金融云專區(qū)上,我們通過了國家的四級等級保護(hù);數(shù)據(jù)流通方面,我們今年通過了信通院的相關(guān)技術(shù)測評。

從計算建模層面看,我們是自主操作,甲方乙方各自操作,全程免編碼,流程很簡單,性能比同類的算法也要快。

私有云、公有云和私有化方面,我們有多種方式部署,產(chǎn)品目前也能提供工業(yè)級的使用體驗,包括嚴(yán)格的工程封裝、項目的驗證實測,還有百度沉淀的金融行業(yè)案例、提供金融行業(yè)的場景的解決方案。

度信金融安全計算平臺的技術(shù)方案

我們這個平臺建設(shè),剛才提到用三大類技術(shù)方案,統(tǒng)一前端入口和統(tǒng)一后臺架構(gòu)。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

后臺的架構(gòu),從下往上看,分為執(zhí)行層、應(yīng)用層、操作層、場景層。

從執(zhí)行層看,中間是基于多方計算的聯(lián)邦學(xué)習(xí)引擎,引擎最下面是基于加密的密碼學(xué)算法和一些常用的不經(jīng)意傳輸、同態(tài)加密、密鑰分享等。

往上是基于密碼學(xué)算法的多方安全計算,雙方或多方的加密數(shù)據(jù)的協(xié)調(diào)和交換,隱私的PSI對齊、ID化、聯(lián)邦分析和聯(lián)邦學(xué)習(xí)。

再往上是應(yīng)用層一些基于模型的算法的應(yīng)用,這個是標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)建模流程。

操作層有可視化的操作平臺和4A安全賦能金融行業(yè),打造營銷風(fēng)控端對端的場景化建模功能。

我們的平臺架構(gòu),需要滿足三個不同的客戶需求:

定制化方案要滿足客戶不同的安全等級要求;有客戶對建模要求較高,那對算子、算法、模型多樣性、交互和應(yīng)用性方面要求就高一些,我們也會提供類似的解決方案。還有對不同的資源配置,構(gòu)建私有云、公有云和專有云支撐,支持不同的部署方案。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

這個平臺的操作很簡單,就是三個步驟。

先是合作的AB雙方,完成本地數(shù)據(jù)的上傳。原則上都是上傳到自己的IDC機(jī)房里,數(shù)據(jù)不出域。

第二步細(xì)分為幾個小步驟:

1.數(shù)據(jù)的融合,會通過隱私保護(hù)的求交技術(shù)PSI,達(dá)到雙方的數(shù)據(jù)的可用不可見。

強(qiáng)調(diào)一下,融合不會泄露雙方的數(shù)據(jù)隱私,比如說甲方有一億的客戶,B方有5000萬的客戶,雙方去求交集,求出來只有500萬客戶,那么我們只知道這500萬的交集,剩下的客戶群雙方都是不知道的。

即使求交了這500萬的客戶,我們也只有某一個主要的使用方,比如甲方銀行在使用的時候,才知道這500萬相互求交的客戶號碼是什么。

2.求交的這批客戶,我們會進(jìn)行簡單的特征工程,一些算法模型訓(xùn)練,包括像機(jī)器學(xué)習(xí)的邏輯回歸、GBDT等,也按照這個數(shù)據(jù)拆分,做完模型訓(xùn)練、輸出模型報告以后,進(jìn)行模式部署、模型推理和預(yù)測發(fā)布。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第一步上傳樣本比較簡單,把數(shù)據(jù)上傳以后,摁一個按鍵,就會看到這一橫行里數(shù)據(jù)的上傳成功,然后AB雙方在這個地方點鼠標(biāo)發(fā)布,數(shù)據(jù)才傳到本地的服務(wù)器上面。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第二步模型訓(xùn)練,會自動包含剛才說的樣本對齊,包括可選的特征工程,還有算法參數(shù)、算法選擇等。

在模型訓(xùn)練過程中,等它出來一個結(jié)果,就會有一些像我這里截屏的模型,配置基本信息,比如雙方對齊了多少樣本,有哪一些特征?這里只能看到特征名稱。我們算法所涉及的每一個主要參數(shù)是什么樣的。這里以邏輯式回歸為例,生成模型評估報告,像ROC、KS值等等,就完成整個模型訓(xùn)練。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第三步就是模型預(yù)測,需要在頁面新建預(yù)測任務(wù)名稱,包括描述,還有我們選擇哪個預(yù)測的模型。生成的模型在這里做選擇,再選擇要預(yù)測的數(shù)據(jù)集,點藍(lán)色按鈕完成整個模型預(yù)測過程。一定時間后,就會看到右下角預(yù)測成功的顯示,整個模型的離線預(yù)測就完成了,也可以用新建預(yù)測服務(wù)以API的方式供外調(diào)用。

我們平臺的設(shè)計理念,是全程免編碼,通過鼠標(biāo)的拖拽來完成的。

度信平臺在銀行業(yè)、保險業(yè)的應(yīng)用

銀行信貸產(chǎn)品的互聯(lián)網(wǎng)營銷

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

這家銀行開展信貸業(yè)務(wù)時,需要通過互聯(lián)網(wǎng)去線上獲客,但它并沒有這種線上資源或流量去投放,也沒有相關(guān)風(fēng)險管理經(jīng)驗,于是它就跟某家互聯(lián)網(wǎng)公司進(jìn)行渠道上的聯(lián)合建模,實現(xiàn)精準(zhǔn)獲客和控制風(fēng)險。

首先是銀行把他的數(shù)據(jù)和互聯(lián)網(wǎng)合作方,把數(shù)據(jù)在自己的機(jī)房里邊準(zhǔn)備好,然后各自聯(lián)邦學(xué)習(xí)時,上傳梯度參數(shù)。

在互聯(lián)網(wǎng)渠道這一端,主要是上傳數(shù)據(jù),建模發(fā)生在銀行這端自行操作,就完成了整個建模過程,達(dá)到了數(shù)據(jù)模型建設(shè),完成后確定合適人群。

第三步,精準(zhǔn)廣告投放,包括精準(zhǔn)獲客,這部分我們項目的客戶日均調(diào)用量是50萬筆。整體貸后表現(xiàn)非常好,降低了風(fēng)險,也節(jié)約了這家銀行的成本。 

線上風(fēng)控+聯(lián)邦學(xué)習(xí)

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

因為銀行沒有過往的一些互聯(lián)網(wǎng)行為信息,也需要為此通過互聯(lián)網(wǎng)渠道來合作、來進(jìn)行聯(lián)合建模。聯(lián)邦學(xué)習(xí)最后的效果就是,讓申請率提升了,通過率又穩(wěn)定在一定的范圍內(nèi),不良率低于銀行業(yè)同業(yè)平均水平。

這個案例,我們推送的貸款客戶金額是超過千萬;通過率控制在穩(wěn)定范圍;該案例的不良貸款率是0.38 ,比去年銀行業(yè)1.81的不良率低了不少。 

不同險種交叉營銷

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

這個案例是一家車險公司的業(yè)務(wù),在客戶里篩選健康險的意向用戶,進(jìn)行精準(zhǔn)點對點促銷。建模流程與上個案例類似,由保險公司提供的高響應(yīng)人群樣本和互聯(lián)網(wǎng)公司的數(shù)據(jù)進(jìn)行融合訓(xùn)練,最后結(jié)果運用于全量的車險客戶群。

效果上,這個模型的AUC值達(dá)到了0.76,減少了對客戶的打擾,也降低了營銷的成本。 

聯(lián)邦學(xué)習(xí)落地金融的關(guān)鍵技術(shù)點

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

聯(lián)邦學(xué)習(xí)本質(zhì)上是軟件加密技術(shù),數(shù)據(jù)不出域、不出本企業(yè),主要是通過梯度參數(shù)出域。從本質(zhì)上來說是去中心化的方案。橫向聯(lián)邦由谷歌在2016年的時候研發(fā)出來,即數(shù)據(jù)的水平切分,主要用于金融同業(yè)間的數(shù)據(jù)融合。

橫向聯(lián)邦學(xué)習(xí)的計算步驟主要有四:雙方發(fā)送加密的梯度,安全的聚合,發(fā)送聚合的加密梯度參數(shù),再解密梯度更新模型。

縱向聯(lián)邦學(xué)習(xí)基于數(shù)據(jù)的垂直細(xì)分,主要用于金融業(yè)和非金融行業(yè),特別是像一家銀行和一家互聯(lián)網(wǎng)公司的數(shù)據(jù)融合。兩家公司的客戶群很多時候是重疊的,特征互補(bǔ)。

首先有分發(fā)公鑰,加密交換中間的結(jié)果,再進(jìn)行加密梯度和損失的計算,然后更新模型。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

在和金融企業(yè)溝通的時候,我們發(fā)現(xiàn)他們關(guān)注的點有這些:

整個聯(lián)邦學(xué)習(xí)里,金融企業(yè)運用最多的是縱向聯(lián)邦學(xué)習(xí),金融機(jī)構(gòu)更想看到的是和他非同業(yè)之間的數(shù)據(jù)融合。

銀行在和第三方機(jī)構(gòu)合作時,非常強(qiáng)調(diào)這些數(shù)據(jù)進(jìn)來以后,對指標(biāo)的一些增量貢獻(xiàn),在意的是在現(xiàn)有基礎(chǔ)上的提升。如果在現(xiàn)有基礎(chǔ)上,引入的數(shù)據(jù)源沒有很大幅度的提升、效果不明顯,對金融機(jī)構(gòu)的吸引力就會降低。

同時金融機(jī)構(gòu)也強(qiáng)調(diào)數(shù)據(jù)源的差異化,如果數(shù)據(jù)來源都很類似,那對指標(biāo)的貢獻(xiàn)、對模型效果,提升度不是很大。 

聯(lián)邦學(xué)習(xí)是整個框架里的主要技術(shù)。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

另外,多方安全計算所涉及的加密技術(shù),其主要原理如圖左所示,四個參與方在針對任何一方都沒有可信的情況下,安全地進(jìn)行多方協(xié)同計算。

在一個分布式的網(wǎng)絡(luò)中,多個的參與實體各自持有秘密的輸入,完成對某函數(shù)的計算;但是要求每一個參與實體,除了計算的最終結(jié)果以外,其他的中間過程,包括自己其他客戶的原始數(shù)據(jù),任何的輸入數(shù)據(jù)都是不可以看到、都是不可以獲得的,這保證了參與各方的數(shù)據(jù)的安全性。

在安全計算過程中,所用到的一些密碼學(xué)或加密技術(shù),概括起來有這么七種。

  • 混淆電路,來自于物理學(xué)電路原理:一堆人各自擁有隱私數(shù)據(jù),想把數(shù)據(jù)合起來進(jìn)行計算,但又不想把數(shù)據(jù)交換給別人,典型的案例就是百萬富翁問題。

  • 不經(jīng)意傳輸,服務(wù)的某一個接收方,以不經(jīng)意的方式得到服務(wù)的發(fā)送方輸入的一些信息、信號,這樣就可以保護(hù)接受者的隱私不被發(fā)送者所知道。

  • 秘密的比較協(xié)議,計算的雙方各輸入一個數(shù)值,但是他們又希望在不向?qū)Ψ叫孤蹲约旱臄?shù)據(jù)的前提下,比較出這兩個數(shù)的大小。

  • 同態(tài)加密,用這種方法先計算,后解密,也等價于先解密后計算。同態(tài)加密里也有加法同態(tài)、乘法同態(tài),包括全同態(tài)、偏同態(tài)、半同態(tài)等,它在聯(lián)邦學(xué)習(xí)中應(yīng)用也較多。

  • 秘密分享,將秘密分割存儲,多個參與者要相互協(xié)作才能恢復(fù)秘密的消息,如果有一方?jīng)]有參與,是沒有辦法把這個秘密完全恢復(fù)出來的。

  • 零知識證明,證明者能夠在不向驗證者提供任何有用的信息情況下,使驗證者相信某個論斷是正確的。

  • 差分隱私,這在業(yè)界應(yīng)用也比較多。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

百度在多方安全計算方面,有自己的MPC平臺架構(gòu)。我們的平臺架構(gòu)分為這么六層,從基礎(chǔ)到應(yīng)用,有運行環(huán)境基于DOCKER的,還有基于云和SERVER的。

在基礎(chǔ)的運行環(huán)境往上,有剛才說到的六七種加密算法。再往上是整個系統(tǒng)包括TLS、4A這一塊的安全。再往上是系統(tǒng)平臺層,有用戶角色管理,包括數(shù)據(jù)和分布式調(diào)度、監(jiān)控等。再往上看是數(shù)據(jù)的接入,再到數(shù)據(jù)的應(yīng)用。

下面我會重點介紹三類算法,都是百度自研的。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第一種是邏輯回歸,邏輯回歸是常用的二分類的分類器,在這種分類器上面我們加了一個基于PrivC的加密算法的邏輯回歸,這種算法是基于MPC的安全學(xué)習(xí)。

我們在19年的安全頂會上面發(fā)表了關(guān)于這個算法的文章,特點是訓(xùn)練速度和在公開的服務(wù)器上的明文相比,速度大概會是在明文算法的40倍以內(nèi),也就是明文算法假如要用時1分鐘,那么我們要用時40分鐘。

這里有一個案例,就是我們基于深度MNIST公開數(shù)據(jù)集,6萬行784位的運算,我們用時25秒,時間還是比較快的。

在下面的截圖,我們看到一些Table2,在一些加減還有一些常規(guī)的比較上面,基于我們自研的PrivC的算法和公開的其他的一些加密算法,像ABY、EMP、SPDZ等等,我們的運算速度都比他們快,標(biāo)出的黑色數(shù)值是越小越好。

我們的準(zhǔn)確率和明文算法比,會達(dá)到99%左右,比明文算法低一點點,一般的梯度,有時候建模如果控制得不太好,都會有一些模型的損耗,而我們的損耗是比較少的。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第二種算法,就是基于梯度提升的算法,有GBDT、XGBoost,再快一點的有LightGBM,我們這種算法叫SecureGBM,它是在LightGBM級別的基礎(chǔ)上改造而成的。

基于 LightGBM基礎(chǔ)上改造而成的這種算法,我們也是發(fā)表在19年的IEEE國際大數(shù)據(jù)會議上,大家看到左下角有一個截圖,紅色的框是百度自研的叫SecureGBM,藍(lán)色的框,LightGBM-(A,B)就是明文算法,我們算法最后的結(jié)果和同類的最好的明文算法去比,在沒有用任何加密的和普通的建模相同的條件下,AUC值的差距大概是在3%以內(nèi)。

我們也比較了其他的一些明文算法,在這個圖里邊是-A或者-B,它是用了一些加密的聯(lián)邦的一些算法去比AUC值,我們的算法都是比其它的算法會高一些,但我們會比明文的算法大概低三個AUC值,在3%以內(nèi)。

第二個是它的運算速度,從這個截圖看到,對比了16,000個樣本,我們的算法和明文算法去比的話,我們的速度大概是明文算法的6倍,也就是明文算法如果用一分鐘的話,我們會用六分鐘,這個已經(jīng)是非常好的效果了。

這個地方我們也提到,我們現(xiàn)在用的這個Paper里邊是16,000個樣本,如果樣本增加到10萬個,或者再往上增加,我們這個算法的運算效率會更高。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

那么我們SecureGBM和明文算法的LightGBM,雙方數(shù)據(jù)在一起,比較了在訓(xùn)練集上的AUC值和F1值,大家會看到有一條紅線和一條藍(lán)線,在截圖里面紅線和藍(lán)線絕大多數(shù)時候是靠在一起的,走勢是相同的,非常的接近。

說明我們的這個算法和明文的LightGBM的算法,在AUC值、在F1、在訓(xùn)練集上和測試集上,達(dá)到了非常類似的一個效果。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第三種算法基于深度學(xué)習(xí),PaddleFL,是在我們百度自研的一個開源的深度學(xué)習(xí)框架飛槳的基礎(chǔ)上,研發(fā)出來的開源的聯(lián)邦學(xué)習(xí)框架。

下面是開源框架的github的網(wǎng)址,通過PaddleFL,使用人員可以很輕松的去復(fù)制和比較不同的聯(lián)邦學(xué)習(xí)算法,也可以在分布式的大規(guī)模集群里面去使用。

這種PaddleFL主要用在深度學(xué)習(xí)算法里邊,用在計算機(jī)視覺、自然語言處理和推薦算法的一些領(lǐng)域,也提供一些傳統(tǒng)的機(jī)器學(xué)習(xí)的訓(xùn)練策略。

比如說像多任務(wù)學(xué)習(xí),還有一些遷移學(xué)習(xí)、主動學(xué)習(xí)等等,我們底層也提供基于分布式的訓(xùn)練和Kubernetes的訓(xùn)練任務(wù)的彈性的調(diào)度能力,可以進(jìn)行全站開源軟件的侵入和部署,下面是基于我們的飛槳的一個的架構(gòu)圖。

接下來是編程模型、參數(shù)服務(wù)器、到端側(cè)訓(xùn)練和彈性調(diào)度,再往上是我們聯(lián)邦學(xué)習(xí)的訓(xùn)練策略及應(yīng)用。

聯(lián)邦學(xué)習(xí)策略這塊我們也有縱向的聯(lián)邦學(xué)習(xí),剛才提到的PrivC的邏輯回歸,橫向的聯(lián)邦學(xué)習(xí),還包括DPSGD基于差分隱私的隨機(jī)梯度等等。

我們也有常態(tài)的一些機(jī)器學(xué)習(xí),像遷移學(xué)習(xí),多任務(wù)學(xué)習(xí),主動學(xué)習(xí)等基于聯(lián)邦學(xué)習(xí)的任務(wù),還有基于深度學(xué)習(xí)的自然語言處理、視覺、推薦這一塊的學(xué)習(xí)任務(wù),都是在PaddleFL的基礎(chǔ)上來做深度聯(lián)邦學(xué)習(xí)的建模。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

PaddleFL的架構(gòu)設(shè)計,圖的左邊叫編譯Compile Time,是首先通過聯(lián)邦策略,去設(shè)計一些算法策略,然后在中間設(shè)計訓(xùn)練策略,再用分布式的配置,合成以后,傳到中間任務(wù)的調(diào)度上面。任務(wù)調(diào)度再傳到參數(shù)的任務(wù)和訓(xùn)練的任務(wù)上面生成了job以后,再傳到這邊運行。

運行這一塊有參數(shù)的服務(wù)器和worker,再下面是調(diào)度器,整個就會把服務(wù)提起來,然后進(jìn)行分布式的訓(xùn)練,這是PaddleFL的架構(gòu)設(shè)計。

同理,我們也有基于MPC的聯(lián)邦學(xué)習(xí),分成三部分,一是圖右部分,基于數(shù)據(jù)的準(zhǔn)備,首先有私有數(shù)據(jù)的對齊和數(shù)據(jù)加密及分發(fā)。

二是訓(xùn)練和推理過程,和Paddle的運行模式一樣。首先要定義協(xié)議,在策略訓(xùn)練和推理完成后,就會到這個圖的最右邊進(jìn)行結(jié)果的重構(gòu)。

這一塊就會把模型的結(jié)果或者預(yù)測結(jié)果,由加密方以加密的形式輸出,結(jié)果方可以收集加密的結(jié)果,在PFM工具中進(jìn)行解密,再將明文的結(jié)果傳遞給用戶,就完成了整個MPC的聯(lián)邦學(xué)習(xí)過程。

安全保證是金融企業(yè)最高優(yōu)關(guān)注點

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

我們先看看現(xiàn)有的模式,現(xiàn)有的模式只有幾個,在沒有用到聯(lián)邦學(xué)習(xí)的時候,狀態(tài)是自己的IDC機(jī)房的網(wǎng)絡(luò)和外界是隔離的,沒有聯(lián)通互聯(lián)網(wǎng),數(shù)據(jù)不進(jìn)不出,因為只用到自己的核心系統(tǒng)的數(shù)據(jù),數(shù)據(jù)是物理隔離的。

但是這個模式最大的問題,就是在它的建模過程中,會存在著一些天花板,比如剛才提到的KS值,如果做到0.35了,就再也不能再往上做了。

模型效果更多的取決于特征工程,而他又沒有用過外面的無論是互聯(lián)網(wǎng),還有政府,一些運營商的一些領(lǐng)域的數(shù)據(jù),那么一些風(fēng)控也好,營銷的行為它是拿不到的,模型的上限是由多維度、多樣性來決定的,所以達(dá)不到很好的建模效果。

于是就衍生出來第二種模式,叫標(biāo)準(zhǔn)分的調(diào)用模式,標(biāo)準(zhǔn)分的第二個模式,它也是有自有機(jī)房,但是它的網(wǎng)絡(luò)變成不是隔離的了,而是單通道的,就是它的數(shù)據(jù)只進(jìn)不出。

在網(wǎng)絡(luò)這塊,因為開了一個單向的通道,有可能存在一些被黑客攻擊的風(fēng)險,這個標(biāo)準(zhǔn)分的調(diào)用也有一些弊端。

大家知道,進(jìn)來的只是一些標(biāo)準(zhǔn)分,也就是說,外面的數(shù)據(jù)過來的可能就是一個變量或者兩個變量,它是一個高維特征壓縮以后的、降維以后的一些特征的輸入,每次輸入只有那么兩三個特征。

這種高維特征壓縮降到兩三個維度以后,有非常多的特征信息是損失了的,所以它提升的建模效果在信貸場景可能只提升那么一兩個點,比如像KS值是0.35,提升到0.37、0.38就到了天花板了。

我們今天談到聯(lián)邦學(xué)習(xí)的模式,它的數(shù)據(jù)通道是雙通道的,雙方要進(jìn)行梯度或模型參數(shù)的交換。

首先,雙方數(shù)據(jù)對上面的一個中間節(jié)點要進(jìn)行上傳,但是它的原始數(shù)據(jù)沒有出域,它的參數(shù)數(shù)據(jù)或者模型的參數(shù)或者梯度參數(shù),是通過加密的方式來出域的。

從這個角度來看,因為它的網(wǎng)絡(luò)通道打開了,存在潛在的被黑客去攻擊的風(fēng)險。梯度參數(shù)的話,從現(xiàn)在的業(yè)內(nèi)的研究來看,也存在一些被反解,或者一些隱私被攻擊的方法。

還有一個,它有一個強(qiáng)烈假設(shè),就是需要參與的雙方或者各方,需要滿足誠實、半誠實模型的原則,如果有一方有嚴(yán)重的欺詐,去改變了模型的一些參數(shù),或者是一些游戲規(guī)則,模型的安全也會受到一些挑戰(zhàn)。

這是聯(lián)邦學(xué)習(xí)目前和上面的現(xiàn)有模式、標(biāo)準(zhǔn)的模式相比,所面臨的一些優(yōu)點和缺點。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

那么這里會就提到模型提效,模型提效是一把雙刃劍?,F(xiàn)有模式下,在右邊的這樣一個方程式,目標(biāo)標(biāo)簽Y是來自于金融企業(yè)本身,它的X特征也是來自于這家企業(yè),企業(yè)只用自有的數(shù)據(jù)建模,沒有外部數(shù)據(jù)帶來模型效果提升,就會面臨天花板。

我們再看聯(lián)邦學(xué)習(xí)這種方式,剛才提到,通過梯度參數(shù)的交換來建立模型,那么基本上雙方數(shù)據(jù)沒有降維,外部提升的最大好處就是,帶來的模型效果提升非常大,與明文相比的話,它的精度損失基本上還是比較小的。

但是,在和很多金融企業(yè)溝通后,知道它有非常大的短板,企業(yè)有各種各樣的顧慮。

1.建模的過程中,即使想用聯(lián)邦學(xué)習(xí)來進(jìn)行建模,金融企業(yè)很多時候并不愿意把自己的特征放進(jìn)來,但是可能只會將自己客戶的ID和目標(biāo)變量Y放進(jìn)來,因為金融企業(yè)會覺得用聯(lián)邦學(xué)習(xí)來建模,有可能存在一些數(shù)據(jù)安全的問題。

2.他們也希望拿到一些數(shù)據(jù)以后,再做二次建模,以滿足金融監(jiān)管的要求,因為在金融監(jiān)管這一塊,特別是在信貸風(fēng)控的場景,希望金融機(jī)構(gòu)要自控這個模型本身,而不能把這個模型交給外部的機(jī)構(gòu)去控制。

安全保證和數(shù)據(jù)提效前提下的得與舍

在數(shù)據(jù)的安全保證和數(shù)據(jù)提效的前提下,聯(lián)邦學(xué)習(xí)還要面對什么樣的得和舍呢?

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第一個,從運算速度來看,現(xiàn)有的銀行在自己的機(jī)房里面進(jìn)行明文計算的數(shù)據(jù)建模,它的特點是運算速度很快,可以用像spark、Tensorflow、PaddlePaddle等分布式技術(shù)去做這種很成熟的運算。

但是到聯(lián)邦學(xué)習(xí)就不一樣了,剛才提到,它的訓(xùn)練速度至少會比明文計算,少則慢一個數(shù)量級,慢10倍幾十倍,也有慢兩個數(shù)量級幾百倍的這種可能性。

第二塊就是它現(xiàn)有的分布式技術(shù)還不太成熟,這是他在速度這一塊可能需要去考量的。

第二個,從算法種類來說,明文算法它是基于Python的開源社區(qū),算法生態(tài)非常多,上千種上萬種,頂級論文的開源代碼,基本上就是按天、按周來迭代,更新的頻次非???。

但是在聯(lián)邦學(xué)習(xí)的算法過程中,要考慮到數(shù)據(jù)參數(shù)的加密,所以它的研發(fā)非常困難,我們的算法種類相對而言都是比較少的。業(yè)界現(xiàn)在能看到的也就是那么幾種或者幾十種,并且也不可能把最新的算法研發(fā)出來用在聯(lián)邦學(xué)習(xí)這個領(lǐng)域。

第三塊,就是產(chǎn)品的應(yīng)用性,因為現(xiàn)在基于明文數(shù)據(jù)的這種算法,AI開發(fā)平臺有非常多,支持多種框架,還有它和數(shù)據(jù)的中臺的融合,非常好對接。

那么對純代碼方式來講,金融行業(yè)去使用時,因為金融行業(yè)很多用戶也不是經(jīng)常做coding,所以他的學(xué)習(xí)曲線比較難、比較高。

剛才也提到如果用代碼這種方式,它跟這個操作系統(tǒng)有些時候需要linux shell腳本方式進(jìn)行交互,那么它的安全性可能會存在一些缺陷。百度的度信平臺在這一塊用純界面的方式,也面臨著一些開發(fā)的周期和實施的難度。這個是聯(lián)邦學(xué)習(xí)與建模要考慮的問題。

所以我們在考慮安全,在考慮數(shù)據(jù)對建模效果業(yè)務(wù)績效的前提下,我們在運算速度上,在算法的種類的選擇上,在產(chǎn)品的應(yīng)用上,都做了一些權(quán)衡和一些損失,但有些時候這種損失和這種權(quán)衡是值得的。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

下面一點,就是百度金融專有云,如果是聯(lián)邦學(xué)習(xí)在我們的金融云、專有云上面進(jìn)行部署的話,我們還額外提供七重的數(shù)據(jù)安全保障。

這七重的數(shù)據(jù)安全保障在這個圖里邊用1234567都標(biāo)注出來了。一塊是我們提供異地的災(zāi)備,我們在武漢、北京和上海有異地的百度金融云專區(qū)。

在數(shù)據(jù)的交換過程中,我們會提供一些芯片級的算法級的加密,包括在網(wǎng)絡(luò)的通路上,也提供一些加密的傳輸,讓加密的數(shù)據(jù)被截取以后都是不可用、不可解的。我們參與方的數(shù)據(jù)在云上的鏈路也好,在云上的一些硬件的里面,雙方都是互不可見的。

安全的數(shù)據(jù)脫敏方法和合規(guī)制度保障

在完成了整個建模的過程以后,比如說金融企業(yè)的數(shù)據(jù)要有用戶要查處,最后模型在使用的時候,有一個數(shù)據(jù)的健全,如果沒有授權(quán)的話,是不可以去使用產(chǎn)出模型的。

除了聯(lián)邦學(xué)習(xí)以外,我們在整個云上、在物理鏈路上、存儲量上、硬件上做了各種各樣的加密去保證安全,而不只是運用了聯(lián)邦學(xué)習(xí)技術(shù)本身,或者只是開發(fā)一個平臺。

在和金融企業(yè)的溝通中,我們發(fā)現(xiàn),即便雙方要進(jìn)行聯(lián)邦數(shù)據(jù)的融合建模,也可以采取剛才說到的,雙方先有兩個數(shù)據(jù)寬表,然后再進(jìn)行融合的聯(lián)邦學(xué)習(xí)。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

在生成這兩個雙方的數(shù)據(jù)寬表的同時,還可以采取一些更加安全的數(shù)據(jù)脫敏方法,用的比較多的就是K-匿名化,這個是保護(hù)客戶數(shù)據(jù)隱私的一種重要方法。

我們希望雙方在生成數(shù)據(jù)寬表的時候,甲方和乙方都能夠采用類似于匿名化的技術(shù),讓雙方的原始特征數(shù)據(jù)脫敏得比較徹底,不能夠被反推。雖然聯(lián)邦學(xué)習(xí)本身也非常安全,在這個基礎(chǔ)上,我們能夠用更多的數(shù)據(jù)脫敏的方法。

右邊這一種也是類似的,我們會用差分隱私的一個方法,在數(shù)據(jù)集中里面產(chǎn)生一定的噪聲,這種隨機(jī)造成它可以通過一些概率分布前置來產(chǎn)生,這樣就在設(shè)計過程中很難去推斷出客戶的一些隱私。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

和金融機(jī)構(gòu)合作時,在數(shù)據(jù)的安全管控上,我們也會提供一整套的安全的合規(guī)的保障制度。

首先是從公司的治理層面,數(shù)據(jù)和流程層面及安全的能力層面,我們從不同的角度去看這家金融企業(yè)和它合作的另外一個互聯(lián)網(wǎng)企業(yè),只要用到度信平臺,我們會提供一整套的關(guān)于安全保障機(jī)制的建議。

還有一塊就是數(shù)據(jù)的生命周期安全,我們考慮到六個環(huán)節(jié),數(shù)據(jù)的收集和產(chǎn)生要合規(guī),我們有數(shù)據(jù)的分類分級和安全日志。那么在傳輸和傳遞過程中,有加密和傳輸?shù)陌踩谋O(jiān)控。

第三塊就是存儲,在存儲的安全和數(shù)據(jù)的加密備份這一塊,也要考慮安全。

第四就是它整個數(shù)據(jù)的加工的環(huán)境,使用方和用戶授權(quán)等等,也要保證安全。

第五個環(huán)節(jié)涉及整個的流通與共享,包括對內(nèi)流通和對外流通,我們要考慮相關(guān)的安全性。

當(dāng)我們使用完聯(lián)邦學(xué)習(xí)以后,也要有相應(yīng)的動作,不要讓數(shù)據(jù)留存在雙方的服務(wù)器里邊。整個的安全制度合規(guī)保障和數(shù)據(jù)的生命周期,都是我們在實踐中慢慢總結(jié)出來的。

對于整個聯(lián)邦學(xué)習(xí),額外增加了一些針對金融行業(yè)更加安全的一些舉措和方法論。

我們也通過度信在這樣一個平臺的實施過程中,慢慢把這種方法論傳遞給金融機(jī)構(gòu),傳遞給合作方,讓我們整個在運用聯(lián)邦學(xué)習(xí)的過程中,更加保證整個數(shù)據(jù)的安全,讓數(shù)據(jù)可用不可見。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

云計算/To B/金融科技丨微信:LorraineSummer
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說