0
雷鋒網(wǎng) AI 科技評(píng)論按:人工智能經(jīng)過(guò)漫長(zhǎng)發(fā)展,近些年成功突破技術(shù)與算力上的限制,因此得以在新世紀(jì)發(fā)揮著舉足輕重的作用。不過(guò)隨之而來(lái)是一系列的新問(wèn)題——最典型的比如「數(shù)據(jù)孤島」問(wèn)題。該問(wèn)題一日不被解決,將可能抑制人工智能領(lǐng)域的長(zhǎng)期發(fā)展,并造成嚴(yán)重的商業(yè)后果。
人工智能面臨的問(wèn)題
人工智能發(fā)展至這一階段,存在三個(gè)與數(shù)據(jù)緊密相關(guān)的問(wèn)題:
很多領(lǐng)域的數(shù)據(jù)數(shù)量有限且質(zhì)量較差,有人做過(guò)估算,如果將醫(yī)療數(shù)據(jù)交由第三方公司標(biāo)注,需要?jiǎng)佑?1 萬(wàn)人花上 10 年的時(shí)間才能收集到有效數(shù)據(jù);
由于競(jìng)爭(zhēng)關(guān)系、安全問(wèn)題、審批流程等因素,數(shù)據(jù)之間的流通存在著難以打破的壁壘,即所謂的「數(shù)據(jù)孤島」問(wèn)題;
即便行業(yè)間有意交換數(shù)據(jù),也可能遭遇政策問(wèn)責(zé),因?yàn)橹匾晹?shù)據(jù)隱私和安全已經(jīng)成為世界性的趨勢(shì),如歐盟最近引入的新法案——《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, GDPR) 就是一個(gè)最佳證明。
針對(duì)以上問(wèn)題,谷歌公司率先提出了基于個(gè)人終端設(shè)備的「橫向聯(lián)邦學(xué)習(xí)」(Horizontal Federated Learning)算法框架,而 AAAI Fellow 楊強(qiáng)教授與微眾銀行隨后提出了基于「聯(lián)邦學(xué)習(xí)」的系統(tǒng)性的通用解決方案,可以解決個(gè)人 (to C) 和公司間 (to B) 聯(lián)合建模的問(wèn)題。
「聯(lián)邦學(xué)習(xí)」
「聯(lián)邦學(xué)習(xí)」實(shí)際上是一種加密的分布式機(jī)器學(xué)習(xí)技術(shù),參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)的加密(混淆)形態(tài)的前提下共建模型。它可以實(shí)現(xiàn)各個(gè)企業(yè)的自有數(shù)據(jù)不出本地,而是通過(guò)加密機(jī)制下的參數(shù)交換方式,即在不違反數(shù)據(jù)隱私法規(guī)情況下,建立一個(gè)虛擬的共有模型。由于數(shù)據(jù)本身不移動(dòng),因此也不會(huì)涉及隱私泄露和數(shù)據(jù)合規(guī)問(wèn)題。建好的模型將在各自的區(qū)域僅為本地的目標(biāo)服務(wù)。在這樣一個(gè)機(jī)制下,參與各方的身份和地位相同,成功實(shí)現(xiàn)了「共同富?!沟哪繕?biāo)。
「聯(lián)邦學(xué)習(xí)」具有四大顯著優(yōu)勢(shì)。
第一是數(shù)據(jù)隔離,數(shù)據(jù)不會(huì)泄露到外部,滿(mǎn)足用戶(hù)隱私保護(hù)和數(shù)據(jù)安全的需求;
第二是能夠保證模型質(zhì)量無(wú)損,不會(huì)出現(xiàn)負(fù)遷移,保證聯(lián)邦模型比割裂的獨(dú)立模型效果好;
第三則是參與者地位對(duì)等,能夠?qū)崿F(xiàn)公平合作;
最后,則是能夠保證參與各方在保持獨(dú)立性的情況下,進(jìn)行信息與模型參數(shù)的加密交換,并同時(shí)獲得成長(zhǎng)。
(更多聯(lián)邦學(xué)習(xí)技術(shù)介紹請(qǐng)登陸官網(wǎng): https://www.fedai.org/#/)
「聯(lián)邦學(xué)習(xí)」規(guī)范化
為了加速「聯(lián)邦學(xué)習(xí)」的普及與落地,楊強(qiáng)教授與微眾銀行做出了眾多努力,其中包括了在國(guó)際頂會(huì)上發(fā)表演講、發(fā)布《聯(lián)邦學(xué)習(xí)白皮書(shū) V1.0》以及發(fā)布商用級(jí)開(kāi)源項(xiàng)目 FATE(Federated AI Technology Enabler)等。最近,由微眾銀行主辦的 IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第一次會(huì)議在深圳成功召開(kāi),會(huì)議的召開(kāi)也正式宣告「聯(lián)邦學(xué)習(xí)」走入行業(yè)規(guī)范。
「IEEE 標(biāo)準(zhǔn)協(xié)會(huì)」是世界領(lǐng)先的行業(yè)標(biāo)準(zhǔn)制定機(jī)構(gòu),其標(biāo)準(zhǔn)制定內(nèi)容涵蓋互聯(lián)網(wǎng)、人工智能、電子電路和通信等多個(gè)領(lǐng)域。目前,IEEE 標(biāo)準(zhǔn)協(xié)會(huì)已經(jīng)制定了 900 多個(gè)現(xiàn)行工業(yè)標(biāo)準(zhǔn),如眾所周知的 IEEE 802?有線與無(wú)線的網(wǎng)絡(luò)通信標(biāo)準(zhǔn)和 IEEE 1394?標(biāo)準(zhǔn),同時(shí),還有 400 多項(xiàng)標(biāo)準(zhǔn)正在制定過(guò)程中。由微眾銀行牽頭的 IEEE P3652.1 項(xiàng)目是首個(gè)聯(lián)邦學(xué)習(xí)領(lǐng)域的國(guó)際標(biāo)準(zhǔn)。
IEEE 會(huì)議上,楊強(qiáng)教授發(fā)表了相關(guān)演講
由微眾銀行主辦的 IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第一次會(huì)議在深圳成功召開(kāi)
「聯(lián)邦學(xué)習(xí)」未來(lái)展望
在學(xué)界與業(yè)界的不懈努力下,「聯(lián)邦學(xué)習(xí)」技術(shù)日漸成熟,針對(duì)不同數(shù)據(jù)方所涉及數(shù)據(jù)集的用戶(hù)群體和用戶(hù)特征不完全相同的問(wèn)題,如今已延展出橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)以及聯(lián)邦遷移學(xué)習(xí)等分類(lèi):
橫向聯(lián)邦學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶(hù)特征重疊較多而用戶(hù)重疊較少的情況下,我們把數(shù)據(jù)集按照橫向 (即用戶(hù)維度) 切分,并取出雙方用戶(hù)特征相同而用戶(hù)不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。
縱向聯(lián)邦學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶(hù)重疊較多而用戶(hù)特征重疊較少的情況下,我們把數(shù)據(jù)集按照縱向 (即特征維度) 切分,并取出雙方用戶(hù)相同而用戶(hù)特征不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。目前,邏輯回歸模型,樹(shù)型結(jié)構(gòu)模型和神經(jīng)網(wǎng)絡(luò)模型等眾多機(jī) 器學(xué)習(xí)模型已經(jīng)逐漸被證實(shí)能夠建立在這個(gè)聯(lián)邦體系上。
聯(lián)邦遷移學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶(hù)與用戶(hù)特征重疊都較少的情況下,我們不對(duì)數(shù)據(jù)進(jìn)行切分,而可以 利用遷移學(xué)習(xí)來(lái)克服數(shù)據(jù)或標(biāo)簽不足的情況。
主要基于數(shù)據(jù)集的用戶(hù)群體與用戶(hù)特征進(jìn)行分類(lèi),進(jìn)而決定處理方案
以借貸行業(yè)為例,當(dāng)需檢測(cè)多方借貸的不良用戶(hù)時(shí),(在一個(gè)金融機(jī)構(gòu)借貸后還錢(qián)給另一個(gè)借貸機(jī)構(gòu)),在聯(lián)邦學(xué)習(xí)的條件下,即可利用聯(lián)邦機(jī)制向聯(lián)邦內(nèi)的其他機(jī)構(gòu)發(fā)出新用戶(hù)的查詢(xún),這樣既能保護(hù)已有用戶(hù)在各個(gè)金融機(jī)構(gòu)的隱私和數(shù)據(jù)完整性,也能完成查詢(xún)多頭借貸的問(wèn)題。
我們期待,在不遠(yuǎn)的將來(lái),聯(lián)邦學(xué)習(xí)能夠幫助打破各領(lǐng)域、各行業(yè)的數(shù)據(jù)壁壘,在保護(hù)數(shù)據(jù)隱私和安全的前提下形成一個(gè)數(shù)據(jù)與知識(shí)共享的共同體,并同時(shí)解決了獎(jiǎng)勵(lì)對(duì)聯(lián)盟做出貢獻(xiàn)機(jī)構(gòu)的共識(shí)機(jī)制,將人工智能帶來(lái)的紅利落實(shí)到社會(huì)的各個(gè)角落。
雷鋒網(wǎng) AI 科技評(píng)論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。