不讓「數(shù)據(jù)孤島」成為 AI 發(fā)展的絆腳石，「聯(lián)邦學(xué)習(xí)」將成突破口？

本文作者：黃善清

編輯：汪思穎

2019-02-27 17:39

導(dǎo)語(yǔ)：如何實(shí)現(xiàn)「共同富裕」目標(biāo)？

雷鋒網(wǎng) AI 科技評(píng)論按：人工智能經(jīng)過(guò)漫長(zhǎng)發(fā)展，近些年成功突破技術(shù)與算力上的限制，因此得以在新世紀(jì)發(fā)揮著舉足輕重的作用。不過(guò)隨之而來(lái)是一系列的新問(wèn)題——最典型的比如「數(shù)據(jù)孤島」問(wèn)題。該問(wèn)題一日不被解決，將可能抑制人工智能領(lǐng)域的長(zhǎng)期發(fā)展，并造成嚴(yán)重的商業(yè)后果。

人工智能面臨的問(wèn)題

人工智能發(fā)展至這一階段，存在三個(gè)與數(shù)據(jù)緊密相關(guān)的問(wèn)題：

很多領(lǐng)域的數(shù)據(jù)數(shù)量有限且質(zhì)量較差，有人做過(guò)估算，如果將醫(yī)療數(shù)據(jù)交由第三方公司標(biāo)注，需要?jiǎng)佑?1 萬(wàn)人花上 10 年的時(shí)間才能收集到有效數(shù)據(jù)；
由于競(jìng)爭(zhēng)關(guān)系、安全問(wèn)題、審批流程等因素，數(shù)據(jù)之間的流通存在著難以打破的壁壘，即所謂的「數(shù)據(jù)孤島」問(wèn)題；
即便行業(yè)間有意交換數(shù)據(jù)，也可能遭遇政策問(wèn)責(zé)，因?yàn)橹匾晹?shù)據(jù)隱私和安全已經(jīng)成為世界性的趨勢(shì)，如歐盟最近引入的新法案——《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR) 就是一個(gè)最佳證明。

針對(duì)以上問(wèn)題，谷歌公司率先提出了基于個(gè)人終端設(shè)備的「橫向聯(lián)邦學(xué)習(xí)」（Horizontal Federated Learning）算法框架，而 AAAI Fellow 楊強(qiáng)教授與微眾銀行隨后提出了基于「聯(lián)邦學(xué)習(xí)」的系統(tǒng)性的通用解決方案，可以解決個(gè)人 (to C) 和公司間 (to B) 聯(lián)合建模的問(wèn)題。

「聯(lián)邦學(xué)習(xí)」

「聯(lián)邦學(xué)習(xí)」實(shí)際上是一種加密的分布式機(jī)器學(xué)習(xí)技術(shù)，參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)的加密（混淆）形態(tài)的前提下共建模型。它可以實(shí)現(xiàn)各個(gè)企業(yè)的自有數(shù)據(jù)不出本地，而是通過(guò)加密機(jī)制下的參數(shù)交換方式，即在不違反數(shù)據(jù)隱私法規(guī)情況下，建立一個(gè)虛擬的共有模型。由于數(shù)據(jù)本身不移動(dòng)，因此也不會(huì)涉及隱私泄露和數(shù)據(jù)合規(guī)問(wèn)題。建好的模型將在各自的區(qū)域僅為本地的目標(biāo)服務(wù)。在這樣一個(gè)機(jī)制下，參與各方的身份和地位相同，成功實(shí)現(xiàn)了「共同富?！沟哪繕?biāo)。

「聯(lián)邦學(xué)習(xí)」具有四大顯著優(yōu)勢(shì)。

第一是數(shù)據(jù)隔離，數(shù)據(jù)不會(huì)泄露到外部，滿足用戶隱私保護(hù)和數(shù)據(jù)安全的需求；
第二是能夠保證模型質(zhì)量無(wú)損，不會(huì)出現(xiàn)負(fù)遷移，保證聯(lián)邦模型比割裂的獨(dú)立模型效果好；
第三則是參與者地位對(duì)等，能夠?qū)崿F(xiàn)公平合作；
最后，則是能夠保證參與各方在保持獨(dú)立性的情況下，進(jìn)行信息與模型參數(shù)的加密交換，并同時(shí)獲得成長(zhǎng)。

（更多聯(lián)邦學(xué)習(xí)技術(shù)介紹請(qǐng)登陸官網(wǎng): https://www.fedai.org/#/）

「聯(lián)邦學(xué)習(xí)」規(guī)范化

為了加速「聯(lián)邦學(xué)習(xí)」的普及與落地，楊強(qiáng)教授與微眾銀行做出了眾多努力，其中包括了在國(guó)際頂會(huì)上發(fā)表演講、發(fā)布《聯(lián)邦學(xué)習(xí)白皮書 V1.0》以及發(fā)布商用級(jí)開(kāi)源項(xiàng)目 FATE（Federated AI Technology Enabler）等。最近，由微眾銀行主辦的 IEEE P3652.1（聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用）標(biāo)準(zhǔn)工作組第一次會(huì)議在深圳成功召開(kāi)，會(huì)議的召開(kāi)也正式宣告「聯(lián)邦學(xué)習(xí)」走入行業(yè)規(guī)范。

「IEEE 標(biāo)準(zhǔn)協(xié)會(huì)」是世界領(lǐng)先的行業(yè)標(biāo)準(zhǔn)制定機(jī)構(gòu)，其標(biāo)準(zhǔn)制定內(nèi)容涵蓋互聯(lián)網(wǎng)、人工智能、電子電路和通信等多個(gè)領(lǐng)域。目前，IEEE 標(biāo)準(zhǔn)協(xié)會(huì)已經(jīng)制定了 900 多個(gè)現(xiàn)行工業(yè)標(biāo)準(zhǔn)，如眾所周知的 IEEE 802?有線與無(wú)線的網(wǎng)絡(luò)通信標(biāo)準(zhǔn)和 IEEE 1394?標(biāo)準(zhǔn)，同時(shí)，還有 400 多項(xiàng)標(biāo)準(zhǔn)正在制定過(guò)程中。由微眾銀行牽頭的 IEEE P3652.1 項(xiàng)目是首個(gè)聯(lián)邦學(xué)習(xí)領(lǐng)域的國(guó)際標(biāo)準(zhǔn)。

不讓「數(shù)據(jù)孤島」成為 AI 發(fā)展的絆腳石，「聯(lián)邦學(xué)習(xí)」將成突破口？

IEEE 會(huì)議上，楊強(qiáng)教授發(fā)表了相關(guān)演講

不讓「數(shù)據(jù)孤島」成為 AI 發(fā)展的絆腳石，「聯(lián)邦學(xué)習(xí)」將成突破口？

由微眾銀行主辦的 IEEE P3652.1（聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用）標(biāo)準(zhǔn)工作組第一次會(huì)議在深圳成功召開(kāi)

「聯(lián)邦學(xué)習(xí)」未來(lái)展望

在學(xué)界與業(yè)界的不懈努力下，「聯(lián)邦學(xué)習(xí)」技術(shù)日漸成熟，針對(duì)不同數(shù)據(jù)方所涉及數(shù)據(jù)集的用戶群體和用戶特征不完全相同的問(wèn)題，如今已延展出橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)以及聯(lián)邦遷移學(xué)習(xí)等分類：

橫向聯(lián)邦學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少的情況下，我們把數(shù)據(jù)集按照橫向 (即用戶維度) 切分，并取出雙方用戶特征相同而用戶不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。
縱向聯(lián)邦學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶重疊較多而用戶特征重疊較少的情況下，我們把數(shù)據(jù)集按照縱向 (即特征維度) 切分，并取出雙方用戶相同而用戶特征不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。目前，邏輯回歸模型，樹(shù)型結(jié)構(gòu)模型和神經(jīng)網(wǎng)絡(luò)模型等眾多機(jī) 器學(xué)習(xí)模型已經(jīng)逐漸被證實(shí)能夠建立在這個(gè)聯(lián)邦體系上。
聯(lián)邦遷移學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶與用戶特征重疊都較少的情況下，我們不對(duì)數(shù)據(jù)進(jìn)行切分，而可以利用遷移學(xué)習(xí)來(lái)克服數(shù)據(jù)或標(biāo)簽不足的情況。

不讓「數(shù)據(jù)孤島」成為 AI 發(fā)展的絆腳石，「聯(lián)邦學(xué)習(xí)」將成突破口？

主要基于數(shù)據(jù)集的用戶群體與用戶特征進(jìn)行分類，進(jìn)而決定處理方案

以借貸行業(yè)為例，當(dāng)需檢測(cè)多方借貸的不良用戶時(shí)，（在一個(gè)金融機(jī)構(gòu)借貸后還錢給另一個(gè)借貸機(jī)構(gòu)），在聯(lián)邦學(xué)習(xí)的條件下，即可利用聯(lián)邦機(jī)制向聯(lián)邦內(nèi)的其他機(jī)構(gòu)發(fā)出新用戶的查詢，這樣既能保護(hù)已有用戶在各個(gè)金融機(jī)構(gòu)的隱私和數(shù)據(jù)完整性，也能完成查詢多頭借貸的問(wèn)題。

我們期待，在不遠(yuǎn)的將來(lái)，聯(lián)邦學(xué)習(xí)能夠幫助打破各領(lǐng)域、各行業(yè)的數(shù)據(jù)壁壘，在保護(hù)數(shù)據(jù)隱私和安全的前提下形成一個(gè)數(shù)據(jù)與知識(shí)共享的共同體，并同時(shí)解決了獎(jiǎng)勵(lì)對(duì)聯(lián)盟做出貢獻(xiàn)機(jī)構(gòu)的共識(shí)機(jī)制，將人工智能帶來(lái)的紅利落實(shí)到社會(huì)的各個(gè)角落。

雷鋒網(wǎng) AI 科技評(píng)論雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

黃善清

編輯

發(fā)私信

當(dāng)月熱門文章

不讓「數(shù)據(jù)孤島」成為 AI 發(fā)展的絆腳石，「聯(lián)邦學(xué)習(xí)」將成突破口？

不讓「數(shù)據(jù)孤島」成為 AI 發(fā)展的絆腳石，「聯(lián)邦學(xué)習(xí)」將成突破口？