0
雷鋒網(wǎng) AI 科技評論按:人工智能經(jīng)過漫長發(fā)展,近些年成功突破技術(shù)與算力上的限制,因此得以在新世紀(jì)發(fā)揮著舉足輕重的作用。不過隨之而來是一系列的新問題——最典型的比如「數(shù)據(jù)孤島」問題。該問題一日不被解決,將可能抑制人工智能領(lǐng)域的長期發(fā)展,并造成嚴(yán)重的商業(yè)后果。
人工智能面臨的問題
人工智能發(fā)展至這一階段,存在三個與數(shù)據(jù)緊密相關(guān)的問題:
很多領(lǐng)域的數(shù)據(jù)數(shù)量有限且質(zhì)量較差,有人做過估算,如果將醫(yī)療數(shù)據(jù)交由第三方公司標(biāo)注,需要動用 1 萬人花上 10 年的時間才能收集到有效數(shù)據(jù);
由于競爭關(guān)系、安全問題、審批流程等因素,數(shù)據(jù)之間的流通存在著難以打破的壁壘,即所謂的「數(shù)據(jù)孤島」問題;
即便行業(yè)間有意交換數(shù)據(jù),也可能遭遇政策問責(zé),因為重視數(shù)據(jù)隱私和安全已經(jīng)成為世界性的趨勢,如歐盟最近引入的新法案——《通用數(shù)據(jù)保護條例》(General Data Protection Regulation, GDPR) 就是一個最佳證明。
針對以上問題,谷歌公司率先提出了基于個人終端設(shè)備的「橫向聯(lián)邦學(xué)習(xí)」(Horizontal Federated Learning)算法框架,而 AAAI Fellow 楊強教授與微眾銀行隨后提出了基于「聯(lián)邦學(xué)習(xí)」的系統(tǒng)性的通用解決方案,可以解決個人 (to C) 和公司間 (to B) 聯(lián)合建模的問題。
「聯(lián)邦學(xué)習(xí)」
「聯(lián)邦學(xué)習(xí)」實際上是一種加密的分布式機器學(xué)習(xí)技術(shù),參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)的加密(混淆)形態(tài)的前提下共建模型。它可以實現(xiàn)各個企業(yè)的自有數(shù)據(jù)不出本地,而是通過加密機制下的參數(shù)交換方式,即在不違反數(shù)據(jù)隱私法規(guī)情況下,建立一個虛擬的共有模型。由于數(shù)據(jù)本身不移動,因此也不會涉及隱私泄露和數(shù)據(jù)合規(guī)問題。建好的模型將在各自的區(qū)域僅為本地的目標(biāo)服務(wù)。在這樣一個機制下,參與各方的身份和地位相同,成功實現(xiàn)了「共同富裕」的目標(biāo)。
「聯(lián)邦學(xué)習(xí)」具有四大顯著優(yōu)勢。
第一是數(shù)據(jù)隔離,數(shù)據(jù)不會泄露到外部,滿足用戶隱私保護和數(shù)據(jù)安全的需求;
第二是能夠保證模型質(zhì)量無損,不會出現(xiàn)負(fù)遷移,保證聯(lián)邦模型比割裂的獨立模型效果好;
第三則是參與者地位對等,能夠?qū)崿F(xiàn)公平合作;
最后,則是能夠保證參與各方在保持獨立性的情況下,進行信息與模型參數(shù)的加密交換,并同時獲得成長。
(更多聯(lián)邦學(xué)習(xí)技術(shù)介紹請登陸官網(wǎng): https://www.fedai.org/#/)
「聯(lián)邦學(xué)習(xí)」規(guī)范化
為了加速「聯(lián)邦學(xué)習(xí)」的普及與落地,楊強教授與微眾銀行做出了眾多努力,其中包括了在國際頂會上發(fā)表演講、發(fā)布《聯(lián)邦學(xué)習(xí)白皮書 V1.0》以及發(fā)布商用級開源項目 FATE(Federated AI Technology Enabler)等。最近,由微眾銀行主辦的 IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第一次會議在深圳成功召開,會議的召開也正式宣告「聯(lián)邦學(xué)習(xí)」走入行業(yè)規(guī)范。
「IEEE 標(biāo)準(zhǔn)協(xié)會」是世界領(lǐng)先的行業(yè)標(biāo)準(zhǔn)制定機構(gòu),其標(biāo)準(zhǔn)制定內(nèi)容涵蓋互聯(lián)網(wǎng)、人工智能、電子電路和通信等多個領(lǐng)域。目前,IEEE 標(biāo)準(zhǔn)協(xié)會已經(jīng)制定了 900 多個現(xiàn)行工業(yè)標(biāo)準(zhǔn),如眾所周知的 IEEE 802?有線與無線的網(wǎng)絡(luò)通信標(biāo)準(zhǔn)和 IEEE 1394?標(biāo)準(zhǔn),同時,還有 400 多項標(biāo)準(zhǔn)正在制定過程中。由微眾銀行牽頭的 IEEE P3652.1 項目是首個聯(lián)邦學(xué)習(xí)領(lǐng)域的國際標(biāo)準(zhǔn)。
IEEE 會議上,楊強教授發(fā)表了相關(guān)演講
由微眾銀行主辦的 IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第一次會議在深圳成功召開
「聯(lián)邦學(xué)習(xí)」未來展望
在學(xué)界與業(yè)界的不懈努力下,「聯(lián)邦學(xué)習(xí)」技術(shù)日漸成熟,針對不同數(shù)據(jù)方所涉及數(shù)據(jù)集的用戶群體和用戶特征不完全相同的問題,如今已延展出橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)以及聯(lián)邦遷移學(xué)習(xí)等分類:
橫向聯(lián)邦學(xué)習(xí)——在兩個數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少的情況下,我們把數(shù)據(jù)集按照橫向 (即用戶維度) 切分,并取出雙方用戶特征相同而用戶不完全相同的那部分?jǐn)?shù)據(jù)進行訓(xùn)練。
縱向聯(lián)邦學(xué)習(xí)——在兩個數(shù)據(jù)集的用戶重疊較多而用戶特征重疊較少的情況下,我們把數(shù)據(jù)集按照縱向 (即特征維度) 切分,并取出雙方用戶相同而用戶特征不完全相同的那部分?jǐn)?shù)據(jù)進行訓(xùn)練。目前,邏輯回歸模型,樹型結(jié)構(gòu)模型和神經(jīng)網(wǎng)絡(luò)模型等眾多機 器學(xué)習(xí)模型已經(jīng)逐漸被證實能夠建立在這個聯(lián)邦體系上。
聯(lián)邦遷移學(xué)習(xí)——在兩個數(shù)據(jù)集的用戶與用戶特征重疊都較少的情況下,我們不對數(shù)據(jù)進行切分,而可以 利用遷移學(xué)習(xí)來克服數(shù)據(jù)或標(biāo)簽不足的情況。
主要基于數(shù)據(jù)集的用戶群體與用戶特征進行分類,進而決定處理方案
以借貸行業(yè)為例,當(dāng)需檢測多方借貸的不良用戶時,(在一個金融機構(gòu)借貸后還錢給另一個借貸機構(gòu)),在聯(lián)邦學(xué)習(xí)的條件下,即可利用聯(lián)邦機制向聯(lián)邦內(nèi)的其他機構(gòu)發(fā)出新用戶的查詢,這樣既能保護已有用戶在各個金融機構(gòu)的隱私和數(shù)據(jù)完整性,也能完成查詢多頭借貸的問題。
我們期待,在不遠(yuǎn)的將來,聯(lián)邦學(xué)習(xí)能夠幫助打破各領(lǐng)域、各行業(yè)的數(shù)據(jù)壁壘,在保護數(shù)據(jù)隱私和安全的前提下形成一個數(shù)據(jù)與知識共享的共同體,并同時解決了獎勵對聯(lián)盟做出貢獻(xiàn)機構(gòu)的共識機制,將人工智能帶來的紅利落實到社會的各個角落。
雷鋒網(wǎng) AI 科技評論 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。