0
本文作者: 叢末 | 2019-03-26 16:47 |
雷鋒網(wǎng) AI 科技評(píng)論按:3 月 24 日,由 CCF 主辦、微眾銀行和深圳大學(xué)微眾金融科技研究院協(xié)辦的第 14 期中國(guó)計(jì)算機(jī)學(xué)會(huì)技術(shù)前線研討會(huì)于深圳大學(xué)科技樓二號(hào)報(bào)告廳圓滿召開,研討會(huì)的主題為「聯(lián)邦學(xué)習(xí)(Federated Machine Learning):技術(shù)及數(shù)據(jù)隱私保護(hù)」。
本次研討會(huì)由微眾銀行首席 AI 官、香港科技大學(xué)楊強(qiáng)教授主持,同時(shí),楊強(qiáng)教授還進(jìn)行了主題為《數(shù)據(jù)孤島,AI 向善與聯(lián)邦遷移學(xué)習(xí)》的開場(chǎng)致辭。
微眾銀行首席 AI 官、香港科技大學(xué)楊強(qiáng)教授
在正式致辭之前,楊強(qiáng)教授就十分謙遜地強(qiáng)調(diào),對(duì)于「聯(lián)邦學(xué)習(xí)」這個(gè)概念,他們這些開創(chuàng)者也還是在一邊摸著石頭過河,一邊在將相關(guān)的知識(shí)傳授給大家,因此對(duì)于本次論壇,他們更多地希望大家一起探索這個(gè)新概念,而不是單方面的教授與聆聽。也正是基于這種考量,他們特地邀請(qǐng)了大學(xué)教授,企業(yè)科研人員、高管以及法律專家等各界人士來一起有針對(duì)性地對(duì)話交流。
致辭伊始,楊強(qiáng)教授表示,對(duì)于 AI,當(dāng)前人們最關(guān)心的議題就是它與社會(huì)的關(guān)系,其中兩個(gè)比較重要的議題,是在兩會(huì)期間由李彥宏提出來的「數(shù)據(jù)孤島」和馬化騰提出來的「AI 向善」問題。
什么是「AI 向善」?楊強(qiáng)教授指出:它是指在傳統(tǒng)的只有少數(shù)人能夠享受的領(lǐng)域,利用 AI 作為工具,讓廣大民眾也能享受到過去 VIP 所享受的特殊服務(wù),例如 AI 與普惠金融、普惠教育、普惠醫(yī)療、智慧城市、災(zāi)難營(yíng)救,AI 扶貧,AI +農(nóng)業(yè)以及人工智能初創(chuàng)公司第四范式提出來的口號(hào)「AI for Everyone」等。而之所以提出 「AI 向善」則是由于:
AI 系統(tǒng)的有偏性。比如說將男性對(duì)電影的評(píng)價(jià)的數(shù)據(jù)給到 AI 系統(tǒng),它得出的結(jié)果就僅是男性的意見,而一旦公開就會(huì)被別人誤以為是全社會(huì)的意見;
AI 系統(tǒng)與人類合作爭(zhēng)奪掌控權(quán)的問題。以波音飛機(jī)為案例,波音飛機(jī)和人類駕駛員爭(zhēng)奪駕駛權(quán),造成飛機(jī)事故,這一事件給我們帶來了很大的啟示:如果不能以人為中心,將會(huì)造成災(zāi)難;
AI 系統(tǒng)的可解釋性。如果監(jiān)管部門不理解系統(tǒng)模型,這一系統(tǒng)就無法通過檢測(cè)并無法得以使用,例如歐盟新提出的 GDPR (《通用數(shù)據(jù)保護(hù)條例》)其中就有一條法律規(guī)定自動(dòng)化模型一定需要是可解釋性的;
AI 系統(tǒng)的可靠性?,F(xiàn)在的 AI 系統(tǒng)還不具備這一能力,這種能力不是說 AI 無法擁有,而是現(xiàn)在社會(huì)還不重視,因此應(yīng)該得到科研人員的重視;
此外,還有 AI 系統(tǒng)的可信性、公平性,都是「AI 向善」的重要主題。
隨后他指出,雖然「AI 向善」是一個(gè)重大的議題,但是當(dāng)天的論壇要聚焦的則是對(duì) AI 系統(tǒng)至關(guān)重要的數(shù)據(jù)治理問題:數(shù)據(jù)越多,AI 系統(tǒng)的表現(xiàn)就越好,而這樣的話就會(huì)造成數(shù)據(jù)和 AI 的寡頭,例如 Google 以及國(guó)內(nèi)的 BAT 等大公司,擁有巨量數(shù)據(jù)。而與之相對(duì)的則是小公司所面臨的小數(shù)據(jù)場(chǎng)景,例如法律、金融、醫(yī)療大部分應(yīng)用場(chǎng)景都存在小數(shù)據(jù)和「數(shù)據(jù)孤島」的問題。
針對(duì)小數(shù)據(jù),楊強(qiáng)教授從技術(shù)上提出了解決方案,包括:
(1)通過遷移學(xué)習(xí)將大數(shù)據(jù)的能力遷移到小數(shù)據(jù)上(現(xiàn)在 Bert 就能夠?qū)Υ髷?shù)據(jù)場(chǎng)景建立大模型);
(2)將(?。?shù)據(jù)進(jìn)行融合,引入隱私和安全的需求,建立一個(gè)聯(lián)邦模型。
那么如何將有效的數(shù)據(jù)孤島聚合起來呢?第一、利用隱私安全的建模工具;第二,需要有好的安全證明,不涉及到隱私;第三,公平利益分配。有了這些工具后,這些小數(shù)據(jù)擁有者就能夠組成一個(gè)跨行業(yè)的聯(lián)邦學(xué)習(xí)聯(lián)盟。
演講最后,他呼吁道,建立聯(lián)邦學(xué)習(xí)聯(lián)盟,應(yīng)該是整個(gè)社會(huì)的事情,希望社會(huì)各界都能夠參與到其中來。
楊強(qiáng)教授的致辭之后,微眾銀行 AI 部門高級(jí)研究員劉洋博士帶來了主題為《聯(lián)邦學(xué)習(xí)的研究及應(yīng)用》的演講,她主要介紹了微眾銀行針對(duì)聯(lián)邦學(xué)習(xí)所做的一些工作以及聯(lián)邦學(xué)習(xí)當(dāng)前的進(jìn)展和未來的發(fā)展方向。
微眾銀行 AI 部門高級(jí)研究員劉洋博士
首先,她介紹了「聯(lián)邦學(xué)習(xí)」這一新概念,即大規(guī)模用戶在保護(hù)數(shù)據(jù)隱私條件下的協(xié)同學(xué)習(xí)。具體而言,「聯(lián)邦學(xué)習(xí)」包括自治和聯(lián)合兩個(gè)方面:自治是指用戶在自己的終端設(shè)備中訓(xùn)練模型,不同的數(shù)據(jù)持有方就會(huì)訓(xùn)練出不同的模型,這些模型就都擁有不同的參數(shù);聯(lián)合則是指將模型的不同參數(shù)上傳到云端從而實(shí)現(xiàn)模型的聚合,之后再將聚合的參數(shù)返回給用戶,這一過程一直重復(fù)持續(xù)到訓(xùn)練完成為止——整個(gè)過程只上傳模型參數(shù)而不上傳數(shù)據(jù),從而在保護(hù)隱私的情況下實(shí)現(xiàn)數(shù)據(jù)共享。
谷歌公司率先提出了基于個(gè)人終端設(shè)備的「橫向聯(lián)邦學(xué)習(xí)」(Horizontal Federated Learning)算法框架,在之后的一年到兩年時(shí)間中,該算法框架也獲得了較多的進(jìn)展:
在系統(tǒng)效率的提高和優(yōu)化上,包括模型壓縮、模型優(yōu)化、參與方的優(yōu)化選取、將聯(lián)邦學(xué)習(xí)與邊緣計(jì)算相結(jié)合;
在模型效果的提升上,包括在數(shù)據(jù)分布不均勻的情況下提高模型表現(xiàn),以及將機(jī)器學(xué)習(xí)、多任務(wù)學(xué)習(xí)等與聯(lián)邦學(xué)習(xí)結(jié)合去實(shí)現(xiàn)用戶終端的個(gè)性化;
在數(shù)據(jù)安全方面,主要考慮的是模型參數(shù)的更新是否能實(shí)現(xiàn)保護(hù)隱私信息,對(duì)此該領(lǐng)域提出了兩種解決方案(梯度):第一個(gè)方法是加混淆,減弱小數(shù)據(jù)對(duì)整個(gè)數(shù)據(jù)的影響;第二個(gè)方法是同態(tài)加密來保護(hù)梯度的更新。此外,谷歌還提出了 Secure Aggregation,在本地訓(xùn)練、秘密共享、穩(wěn)定性、無個(gè)人梯度信息泄露以及半誠(chéng)實(shí)假設(shè)等方面都實(shí)現(xiàn)了較高的表現(xiàn)。
同時(shí),劉洋博士還提到,發(fā)展至今,聯(lián)邦學(xué)習(xí)已延伸出三個(gè)類別:
橫向聯(lián)邦學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少的情況下,我們把數(shù)據(jù)集按照橫向 (即用戶維度) 切分,并取出雙方用戶特征相同而用戶不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。
縱向聯(lián)邦學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶重疊較多而用戶特征重疊較少的情況下,我們把數(shù)據(jù)集按照縱向 (即特征維度) 切分,并取出雙方用戶相同而用戶特征不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。目前,邏輯回歸模型,樹型結(jié)構(gòu)模型和神經(jīng)網(wǎng)絡(luò)模型等眾多機(jī) 器學(xué)習(xí)模型已經(jīng)逐漸被證實(shí)能夠建立在這個(gè)聯(lián)邦體系上。
聯(lián)邦遷移學(xué)習(xí)——在兩個(gè)數(shù)據(jù)集的用戶與用戶特征重疊都較少的情況下,我們不對(duì)數(shù)據(jù)進(jìn)行切分,而可以 利用遷移學(xué)習(xí)來克服數(shù)據(jù)或標(biāo)簽不足的情況。
其中,她對(duì)縱向聯(lián)邦學(xué)習(xí)的具體工作原理進(jìn)行了介紹??v向聯(lián)邦學(xué)習(xí)的目標(biāo)是 A 方與 B 方聯(lián)合建立模型,并且假設(shè)只有一方有標(biāo)簽 Y,兩方均不暴露數(shù)據(jù),但可能遇到的挑戰(zhàn)是只有 X 的一方?jīng)]有辦法建立模型或雙方不能交換共享數(shù)據(jù)。而其最終要達(dá)到的預(yù)期為:雙方均獲得數(shù)據(jù)保護(hù)且模型無損失。
因而在進(jìn)行保護(hù)隱私的機(jī)器學(xué)習(xí)之前,需要先對(duì)安全進(jìn)行定義,其中涉及到三項(xiàng)重要的對(duì)比:半誠(chéng)實(shí)和惡意;零知識(shí)和一些知識(shí);惡意中心和惡意數(shù)據(jù)節(jié)點(diǎn)。之后再利用隱私保護(hù)下的技術(shù)工具來建模,包括多方安全計(jì)算、同態(tài)加密、姚式混淆電路、秘密共享以及差分隱私等。
在介紹聯(lián)邦學(xué)習(xí)當(dāng)前的進(jìn)展之后,劉洋博士也提到聯(lián)邦學(xué)習(xí)當(dāng)前所面臨的挑戰(zhàn)和未來的研究展望。其中,挑戰(zhàn)主要來自兩個(gè)方面,一個(gè)是模型攻擊;另一個(gè)則是數(shù)據(jù)攻擊。而對(duì)于未來的研究展望,劉洋博士認(rèn)為聯(lián)邦學(xué)習(xí)應(yīng)該在安全合規(guī)、防御攻擊、算法效率、技術(shù)應(yīng)用以及聯(lián)盟機(jī)制等方向上進(jìn)行發(fā)展。
最后,劉洋博士也介紹了目前聯(lián)邦學(xué)習(xí)在金融領(lǐng)域(互聯(lián)網(wǎng)公司+銀行)、智慧城市(視覺應(yīng)用+城市管理)等應(yīng)用案例,并指出聯(lián)邦學(xué)習(xí)生態(tài)建設(shè)應(yīng)該是由開源、技術(shù)標(biāo)準(zhǔn)、商業(yè)賦能三大要素構(gòu)建起來的。
劉洋博士演講結(jié)束后,微眾銀行的范濤研究員也上臺(tái)向大家介紹了微眾銀行基于「聯(lián)邦學(xué)習(xí)」開發(fā)了聯(lián)盟 AI 系統(tǒng)并開源聯(lián)盟 AI 解決方案 FATE(Federated AI Technology Enabler)。FATE 是一個(gè)工業(yè)級(jí)聯(lián)邦學(xué)習(xí)框架,提供了一種基于數(shù)據(jù)隱私保護(hù)的安全計(jì)算框架,為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、遷移學(xué)習(xí)算法提供強(qiáng)有力的支撐,能有效幫助多個(gè)機(jī)構(gòu)在滿足用戶隱私保護(hù)、數(shù)據(jù)安全和政府法規(guī)的要求下,進(jìn)行數(shù)據(jù)使用和建模,該項(xiàng)目開啟于 2018 年,目前已在 GitHub 上(http://github.com/WeBankFinTech/FATE )實(shí)現(xiàn)了開源。
微眾銀行聯(lián)盟 AI 解決方案 FATE 負(fù)責(zé)人范濤研究員
前一位演講者從技術(shù)的角度解釋為什么要加入聯(lián)邦學(xué)習(xí)聯(lián)盟,南洋理工大學(xué)南洋助理教授于涵博士則從博弈論的角度講述怎樣激勵(lì)擁有高數(shù)據(jù)的擁有者加入聯(lián)邦學(xué)習(xí)聯(lián)盟,他的演講主題是《聯(lián)邦學(xué)習(xí)中的博弈論》。
南洋理工大學(xué)南洋助理教授于涵博士
于涵博士提到,一個(gè)數(shù)據(jù)聯(lián)盟的可持續(xù)發(fā)展取決于能否持續(xù)吸引高質(zhì)量的個(gè)人或機(jī)構(gòu)數(shù)據(jù)持有人的參與。然而如何吸引高質(zhì)量的個(gè)人或機(jī)構(gòu)數(shù)據(jù)持有人參與進(jìn)來?其中一個(gè)重要的課題就是量化個(gè)人或機(jī)構(gòu)的收益。
在找到解決方案之前,他先為大家介紹了當(dāng)前比較成熟的三類利潤(rùn)分配博弈中的分配方案,包括:
平均主義:數(shù)據(jù)聯(lián)盟產(chǎn)生的收益在參與者中平均分配;
邊際收益:按照某個(gè)參與者加入聯(lián)盟時(shí)帶來的邊際收益確定他所應(yīng)得的收益;
邊際損失:按照某個(gè)參與者退出聯(lián)盟所帶來的邊際損失確定他所應(yīng)得的收益。
而從系統(tǒng)角度考慮,總體的目標(biāo)就是最大化集體效用。
然后,這些分配方案都存在各自的劣勢(shì),對(duì)此,他們提出的是聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制(FLI,F(xiàn)ederated Learning Incentivizer)利益分配,這一分配方案的核心是從貢獻(xiàn)和代價(jià)兩個(gè)層面考慮怎樣公平地對(duì)待參與者,在最大化數(shù)據(jù)聯(lián)盟的整體效用的同時(shí),也最小化參與者之間在「遺憾」和等待時(shí)長(zhǎng)兩個(gè)維度的不均衡。這樣的話,F(xiàn)LI 能夠同時(shí)兼顧對(duì)于每個(gè)數(shù)據(jù)擁有者可同時(shí)加入多個(gè)聯(lián)盟、參與者加入/離開聯(lián)盟的排序重要性、參與者加入聯(lián)盟的代價(jià)、參與者加入聯(lián)盟的「遺憾」以及參與者等待全額補(bǔ)償所消耗的時(shí)間的考量。
演講最后,于涵博士還用基于這套利益分配方案設(shè)計(jì)的 SmartHS 在中國(guó)「智慧民生」中的應(yīng)用案例,來介紹了這套機(jī)制所帶來的實(shí)際效果。他指出現(xiàn)有的電子政務(wù)系統(tǒng)依舊是工具包式的解決方案,未能解決系統(tǒng)層面的低效率問題,效果不明顯,而 SmartHS 則實(shí)現(xiàn)了流程標(biāo)準(zhǔn)化,人員角色定義標(biāo)準(zhǔn)化,流程智能管理(基于聯(lián)邦學(xué)習(xí)機(jī)制設(shè)計(jì)的基礎(chǔ)理論),不僅實(shí)現(xiàn)了 0 排隊(duì),減少了民眾所耗費(fèi)的時(shí)間(辦事流程使用時(shí)長(zhǎng)平均 90% 以上)和精力,政務(wù)工作人員的業(yè)務(wù)水平也大幅提高。據(jù)悉,該項(xiàng)目還獲得了AAAI2018「人工智能創(chuàng)新應(yīng)用獎(jiǎng)」。
作為本次論壇的唯一一位法律從業(yè)者,北京觀韜中茂(上海)律師事務(wù)所合伙人王渝偉律師,從法律的層面強(qiáng)調(diào)了數(shù)據(jù)隱私保護(hù)方面的重要性,他的演講主題為《網(wǎng)絡(luò)安全與數(shù)據(jù)保護(hù)的立法和實(shí)踐》。
北京觀韜中茂(上海)律師事務(wù)所合伙人王渝偉律師
王渝偉律師從今年的 3·15 晚會(huì)中重點(diǎn)關(guān)注的數(shù)據(jù)隱私問題引入,結(jié)合龐理鵬與「去哪兒」、「東航」隱私權(quán)糾紛案,淘寶公司訴美景公司不正當(dāng)競(jìng)爭(zhēng)案,上海晟品非法爬取今日頭條服務(wù)器視頻數(shù)據(jù)案等國(guó)內(nèi)外典型案例講述在日趨嚴(yán)密的立法和頻繁的執(zhí)法下,企業(yè)如何建立數(shù)據(jù)合規(guī)體系并提升自身數(shù)據(jù)安全能力。
以上海晟品非法爬取今日頭條服務(wù)器視頻數(shù)據(jù)案為例,王渝偉律師指出,本案所涉內(nèi)容是當(dāng)今互聯(lián)網(wǎng)企業(yè)所面臨的一個(gè)普遍問題,該案件中的上海晟品網(wǎng)絡(luò)科技有限公司利用爬蟲技術(shù)抓取了字節(jié)跳動(dòng)服務(wù)器視頻數(shù)據(jù),是違法法律規(guī)定的犯罪行為,處罰輕則拘役、重則判處有期徒刑。
對(duì)于這一案例,他也為相關(guān)企業(yè)提出了對(duì)策,一是要評(píng)估想要爬取的數(shù)據(jù)的開放程度和被爬取方的意愿;二是要考察數(shù)據(jù)的類別,判斷數(shù)據(jù)是否為個(gè)人信息、版權(quán)內(nèi)容或商業(yè)秘密。
演講最后,他表示,關(guān)于數(shù)據(jù)隱私問題的解決,一方面是需要政府立法來制約對(duì)隱私數(shù)據(jù)的侵犯;而另一方面,「楊強(qiáng)教授他們提出的聯(lián)邦學(xué)習(xí)或許是一個(gè)不錯(cuò)的思路」。
第四位出場(chǎng)的演講嘉賓是第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)博士,他的演講主題是《聯(lián)邦學(xué)習(xí)——AI For Everyone 的必經(jīng)之路》。
第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)博士
他首先介紹了科學(xué)上的四個(gè)范式:第一范式是實(shí)驗(yàn)科學(xué),強(qiáng)調(diào)發(fā)現(xiàn)現(xiàn)象、記錄現(xiàn)象和重復(fù)現(xiàn)象;第二范式是理論科學(xué),強(qiáng)調(diào)設(shè)計(jì)理論解釋現(xiàn)象;第三范式是計(jì)算科學(xué),即通過計(jì)算模擬現(xiàn)象;第四范式則是數(shù)據(jù)科學(xué),即通過數(shù)據(jù)解釋現(xiàn)象。他強(qiáng)調(diào),第四范式是科學(xué)發(fā)展的未來。
隨后他回歸主題,為大家呈現(xiàn)了 「AI For Everyone」 的所需要經(jīng)歷的階段:
起點(diǎn)是專家系統(tǒng),其以專業(yè)程度決定人類智能程度,難以處理所有邊界,應(yīng)用門檻非常高;第二個(gè)階段是高維學(xué)習(xí),需要構(gòu)建復(fù)雜模型尋找規(guī)律,能夠解決產(chǎn)品化、標(biāo)準(zhǔn)化問題衱智能程度門檻;第三個(gè)階段,即現(xiàn)在,則是 AutoML,能夠解決智能構(gòu)建門檻,即每個(gè)人都能夠構(gòu)建自己的模型了,然而此時(shí)需要解決的是數(shù)據(jù)門檻問題,因而未來的發(fā)展方向則是——能解決所需數(shù)據(jù)門檻的聯(lián)邦學(xué)習(xí)(第四個(gè)階段)。
隨后他從機(jī)器學(xué)習(xí)的工業(yè)落地角度,指出工業(yè)界的機(jī)器學(xué)習(xí)最大的特點(diǎn)應(yīng)該是可擴(kuò)展——包括兩個(gè)層面的可擴(kuò)展:一方面,數(shù)據(jù)處理的吞吐隨著集群、機(jī)器數(shù)的增加而增加;另一方面則是智能水平/體驗(yàn)的壁壘隨著業(yè)務(wù)/數(shù)據(jù)的增加而增加。而工業(yè)大數(shù)據(jù)則需要高 VC 維模型,意味著需要高復(fù)雜度的模型或函數(shù)以及非常強(qiáng)的機(jī)器學(xué)習(xí)能力。
總體而言,工業(yè)界所需要的高 VC 維機(jī)器學(xué)習(xí)系統(tǒng),需要在數(shù)據(jù)、特征和模型三個(gè)方向?qū)で筇岣吆蛢?yōu)化。而由于數(shù)據(jù)門檻較高,一般的做法是沿著特征和模型兩個(gè)方向走。
沿著模型方向走,是由學(xué)術(shù)界(ICML、NIPS、ICLR)在主導(dǎo),其往往利用非線性的三把寶劍——Kernel、Boosting 和神經(jīng)網(wǎng)絡(luò)(目前用得最多的方法),實(shí)現(xiàn)了模型大部分可單機(jī)加載,并解決了數(shù)據(jù)分布式問題,降低系統(tǒng) overhead;而工業(yè)界則針對(duì)應(yīng)用定制模型,其重點(diǎn)考慮的是什么模型更符合場(chǎng)景數(shù)據(jù)、泛化能力以及非線性組合能力更強(qiáng),一般會(huì)基于專家思考或者觀測(cè)得到的假設(shè),加入新的模型、結(jié)構(gòu)以獲得更多參數(shù)來構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)。
沿著特征方向走,則是由工業(yè)界(KDD、WWW)在主導(dǎo),其使用的模型相對(duì)比較簡(jiǎn)單粗暴(是優(yōu)點(diǎn)也是缺點(diǎn)),在分布式計(jì)算和工程特征方面所面臨的挑戰(zhàn)較大,因此重點(diǎn)考量的是實(shí)現(xiàn)高效并行并保證快速收斂。對(duì)此,工業(yè)界一般會(huì)針對(duì)應(yīng)用定制特征,重點(diǎn)探索特征產(chǎn)生的原因、方法并理解特征。
然而目前,工業(yè)界應(yīng)用機(jī)器學(xué)習(xí)依舊存在諸多難題,一方面是對(duì)于 AI 應(yīng)用平臺(tái)的需求巨大;另一方面則是人工智能還沒有真的大規(guī)模應(yīng)用到每個(gè)企業(yè)。以特征工程為例,要求該領(lǐng)域的研究者對(duì)機(jī)器學(xué)習(xí)與業(yè)務(wù)都有非常深的了解,而目前可以用來優(yōu)化特征工程的方法有:隱式特征組合(NN、FM)、半顯式顯示特征組合(GBDT)以及顯式特征組合(特征叉乘)。
最后,他表示,現(xiàn)在他們?cè)趪L試解決的是 「AI For Everyone」的問題,而下一步則是要解決數(shù)據(jù)的問題。第四范式也在楊強(qiáng)教授的指導(dǎo)下,開展聯(lián)邦學(xué)習(xí)的研究,主要的研究思路包括隱私保護(hù)和知識(shí)遷移,并且相關(guān)的成果目前已經(jīng)應(yīng)用到醫(yī)療領(lǐng)域中。
最后一位出場(chǎng)的演講嘉賓是京東智能城市研究院資深研究員、京東城市計(jì)算事業(yè)部 AI 平臺(tái)部負(fù)責(zé)人張鈞波博士,他的演講主題是《城市計(jì)算與跨域?qū)W習(xí)聯(lián)合建模》。他主要從城市計(jì)算的偏應(yīng)用的角度,講述聯(lián)邦學(xué)習(xí)對(duì)于該領(lǐng)域的意義。
京東智能城市研究院資深研究員、京東城市計(jì)算事業(yè)部 AI 平臺(tái)部負(fù)責(zé)人張鈞波博士
首先,他對(duì)「城市計(jì)算」(Urban Computing)的概念進(jìn)行了介紹,即通過城市數(shù)據(jù)的采集、管理、分析挖掘和服務(wù)提供,解決交通、規(guī)劃、環(huán)境等問題。然而由于數(shù)據(jù)異構(gòu)、多源性及時(shí)空動(dòng)態(tài)分布,目前城市計(jì)算面臨著城市感知的數(shù)據(jù)缺失這一重大挑戰(zhàn)。其中時(shí)空大數(shù)據(jù)因其空間上的臨近性、層次性和時(shí)間上的周期性、趨勢(shì)性等特性,更是城市計(jì)算亟需解決的問題。
隨后,他以 AI 預(yù)測(cè)城市區(qū)域人流量及流轉(zhuǎn)、基于大數(shù)據(jù)和 AI 的空氣預(yù)測(cè)預(yù)測(cè)、基于 AI 和城市大數(shù)據(jù)管網(wǎng)水質(zhì)量預(yù)測(cè)等應(yīng)用場(chǎng)景為例,介紹了京東在城市計(jì)算方面所做的一些工作,然而這些工作都尚且無法很好地利用到目前已經(jīng)存在的一些數(shù)據(jù)積累,包括:智慧城市建設(shè)中,各個(gè)政府機(jī)構(gòu)已經(jīng)建立的各種信息系統(tǒng)或數(shù)據(jù)平臺(tái);大型企業(yè)尤其是央企國(guó)企累積收集的各類海量數(shù)。同時(shí),隨著當(dāng)前一些社會(huì)重要發(fā)展項(xiàng)目需要聯(lián)合政府和大型企業(yè)事業(yè)單位數(shù)據(jù)共同完成,打破各機(jī)構(gòu)間的數(shù)據(jù)壁壘成為需要。
而這樣的需求所對(duì)應(yīng)的則是一系列挑戰(zhàn):
一是數(shù)據(jù)安全問題,無論是歐盟的 GDPR,還是《中華人民共和國(guó)網(wǎng)絡(luò)安全法》都對(duì)數(shù)據(jù)隱私提出了嚴(yán)格的規(guī)定;
二是跨平臺(tái)場(chǎng)景復(fù)雜,例如數(shù)據(jù)共享存在數(shù)據(jù)孤島、不同政府機(jī)構(gòu)和企事業(yè)單位平臺(tái)架構(gòu)不同、數(shù)據(jù)加密登記多樣、數(shù)據(jù)類型及標(biāo)準(zhǔn)多樣化等方面的限制;
三是現(xiàn)有模型算法還無法完全實(shí)現(xiàn)保護(hù)原始數(shù)據(jù)隱私不被泄露、保證模型準(zhǔn)確率和效率、網(wǎng)絡(luò)安全、模型可解釋性和置信程度等目標(biāo)。
對(duì)此,京東通過跨域?qū)W習(xí)聯(lián)合建模,建立「聯(lián)邦學(xué)習(xí)+隨機(jī)森林」的聯(lián)邦隨機(jī)森林、「聯(lián)邦學(xué)習(xí)+邏輯回歸模型」的聯(lián)合企業(yè)信用評(píng)級(jí)模型、「聯(lián)邦學(xué)習(xí)+地塊特征學(xué)習(xí)」的智能地塊(區(qū)域)排序模型等,來打通數(shù)據(jù)壁壘,解決數(shù)據(jù)孤島問題。
本次論壇的最后一個(gè)環(huán)節(jié)便是由楊強(qiáng)教授、張鈞波博士、陳雨強(qiáng)博士、于涵博士、王渝偉律師以及特邀嘉賓——微眾銀行人工智能部副總經(jīng)理陳天健先生一同參與的圓桌論壇,主題為《探索聯(lián)邦學(xué)習(xí)之機(jī)遇與挑戰(zhàn)》。
楊強(qiáng)教授、張鈞波博士、陳雨強(qiáng)博士、于涵博士、王渝偉律師、陳天健先生一同參與圓桌論壇
以下為編輯整理的對(duì)話實(shí)錄:
1.
楊強(qiáng)教授:聯(lián)邦學(xué)習(xí)作為一項(xiàng)新的技術(shù),肯定還存在許多大家暫時(shí)還想不到的問題。比如說聯(lián)邦學(xué)習(xí)將數(shù)據(jù)合并后,原本是在合并中心進(jìn)行建模的效果是最好的,但是由于各種原因,同時(shí)需要保護(hù)隱私,要將這些數(shù)據(jù)分布到各個(gè)數(shù)據(jù)持有者的終端,這無疑要損失些東西。我想問大家的是,損失的是什么?以及損失的指標(biāo)對(duì)業(yè)務(wù)的影響有多大?
陳天健先生:這個(gè)問題是有正反兩面性的。一方面聯(lián)邦學(xué)習(xí)給大家?guī)砹撕艽蟮臋C(jī)遇,擁有小數(shù)據(jù)的公司不再需要通過打破大數(shù)據(jù)擁有公司的數(shù)據(jù)壟斷,而可以通過聯(lián)邦學(xué)習(xí)這一技術(shù)享受到大數(shù)據(jù)的好處;另一方面,這也帶來了一些挑戰(zhàn),比如說過去的數(shù)據(jù)在融合以后是完全透明的,可以以非常傳統(tǒng)的方法進(jìn)行加工處理,然而通過聯(lián)邦學(xué)習(xí)融合數(shù)據(jù),數(shù)據(jù)的特征必須通過聯(lián)邦化、加密等協(xié)議進(jìn)行數(shù)據(jù)加工,這樣的話數(shù)據(jù)會(huì)受到一定的限制。
2.
楊強(qiáng)教授:有兩位騰訊的同學(xué)私底下問了我一個(gè)問題:假如兩方合作聯(lián)合建模時(shí),一方有 Y,一方?jīng)]有 Y,那沒有 Y 的那一方就無法進(jìn)行建模,這樣的問題該如何去解決呢?
陳天健先生:實(shí)際上,有 Y 的那一方往往也是有實(shí)際應(yīng)用的一方,由其來主導(dǎo)規(guī)定協(xié)議,也是非常合理和公平的。
陳雨強(qiáng)博士:補(bǔ)充一下。我認(rèn)為可能存在一種情況,例如騰訊旗下的業(yè)務(wù)矩陣是天然擁有很多數(shù)據(jù)的,如果它另開了一個(gè)新產(chǎn)品,而這個(gè)產(chǎn)品可能是沒有 Y 的,實(shí)際上如果存在這樣的場(chǎng)景,現(xiàn)在是已經(jīng)有技術(shù)能夠?qū)⑺械臄?shù)據(jù)共享過來的,而且實(shí)現(xiàn)的效果還挺不錯(cuò)。
3.
楊強(qiáng)教授:現(xiàn)場(chǎng)來了很多大學(xué)生、研究生和博士生,他們也正在尋找新的研究課題,各位對(duì)于他們有什么可以提供的建議嗎?
張均波博士:實(shí)際上,每個(gè)階段的學(xué)生傾向做的課題方向可能不太一樣。一般博士可能會(huì)傾向于去做一些學(xué)術(shù)型的課題,而本科、碩士則可以去選擇一些偏應(yīng)用型的課題。
于涵博士:我從博弈論的角度補(bǔ)充一下。一個(gè)方面是我們學(xué)校的聯(lián)合研究院也有很多面向?qū)W生的研究項(xiàng)目,例如聯(lián)邦學(xué)習(xí)的分配課題;另一方面大家也可以思考一下其他方向的課題,比如說當(dāng)兩方建立聯(lián)邦學(xué)習(xí)聯(lián)盟時(shí)有第三方來?yè)v亂,是否有什么方法來將第三方也融入進(jìn)來呢?立法又會(huì)對(duì) AI 的創(chuàng)新造成什么影響呢?
4.
楊強(qiáng)教授:國(guó)內(nèi)的數(shù)據(jù)法律往往是由一些具體的案例驅(qū)動(dòng)的,稍微有些滯后性,國(guó)內(nèi)立法為什么是這樣的現(xiàn)象?以后是否會(huì)有改變,我們是否能像歐洲一樣提前提出相關(guān)法規(guī),在全世界起到領(lǐng)導(dǎo)性的作用?
王渝偉律師:目前國(guó)內(nèi)的立法確實(shí)存在這樣的問題。但是實(shí)際上,有些立法很早就出來了,只不過國(guó)家體制下的立法周期比較長(zhǎng),最終的明文出臺(tái)會(huì)比較滯后。同時(shí)加上大家對(duì)于這些立法的直觀感受不是很強(qiáng),因此會(huì)產(chǎn)生一種國(guó)內(nèi)立法滯后的印象。不過,國(guó)內(nèi)的立法的水平可能確實(shí)沒有那么高,因此在實(shí)施的過程中,大家也都普遍感覺效果不是很好。我們也希望這種現(xiàn)狀有所改變,但是這個(gè)是跟國(guó)家立法機(jī)構(gòu)本身的制度相關(guān)的,我們律師也會(huì)經(jīng)常去國(guó)外跟其他律師交流,也在做這方面的努力和嘗試,大家可以期待一下。
(完)
雷鋒網(wǎng) AI 科技評(píng)論報(bào)道 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。