丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

本文作者: 叢末 2019-03-26 16:47
導(dǎo)語:建立聯(lián)邦學(xué)習(xí)聯(lián)盟,應(yīng)該是整個社會的事情。

雷鋒網(wǎng) AI 科技評論按:3 月 24 日,由 CCF 主辦、微眾銀行和深圳大學(xué)微眾金融科技研究院協(xié)辦的第 14 期中國計算機學(xué)會技術(shù)前線研討會于深圳大學(xué)科技樓二號報告廳圓滿召開,研討會的主題為「聯(lián)邦學(xué)習(xí)(Federated Machine Learning):技術(shù)及數(shù)據(jù)隱私保護」。

本次研討會由微眾銀行首席 AI 官、香港科技大學(xué)楊強教授主持,同時,楊強教授還進行了主題為《數(shù)據(jù)孤島,AI 向善與聯(lián)邦遷移學(xué)習(xí)》的開場致辭。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

微眾銀行首席 AI 官、香港科技大學(xué)楊強教授

在正式致辭之前,楊強教授就十分謙遜地強調(diào),對于「聯(lián)邦學(xué)習(xí)」這個概念,他們這些開創(chuàng)者也還是在一邊摸著石頭過河,一邊在將相關(guān)的知識傳授給大家,因此對于本次論壇,他們更多地希望大家一起探索這個新概念,而不是單方面的教授與聆聽。也正是基于這種考量,他們特地邀請了大學(xué)教授,企業(yè)科研人員、高管以及法律專家等各界人士來一起有針對性地對話交流。

致辭伊始,楊強教授表示,對于 AI,當(dāng)前人們最關(guān)心的議題就是它與社會的關(guān)系,其中兩個比較重要的議題,是在兩會期間由李彥宏提出來的「數(shù)據(jù)孤島」和馬化騰提出來的「AI 向善」問題。

什么是「AI 向善」?楊強教授指出:它是指在傳統(tǒng)的只有少數(shù)人能夠享受的領(lǐng)域,利用 AI 作為工具,讓廣大民眾也能享受到過去 VIP 所享受的特殊服務(wù),例如 AI 與普惠金融、普惠教育、普惠醫(yī)療、智慧城市、災(zāi)難營救,AI 扶貧,AI +農(nóng)業(yè)以及人工智能初創(chuàng)公司第四范式提出來的口號「AI for Everyone」等。而之所以提出 「AI 向善」則是由于:

  •  AI 系統(tǒng)的有偏性。比如說將男性對電影的評價的數(shù)據(jù)給到 AI 系統(tǒng),它得出的結(jié)果就僅是男性的意見,而一旦公開就會被別人誤以為是全社會的意見;

  • AI 系統(tǒng)與人類合作爭奪掌控權(quán)的問題。以波音飛機為案例,波音飛機和人類駕駛員爭奪駕駛權(quán),造成飛機事故,這一事件給我們帶來了很大的啟示:如果不能以人為中心,將會造成災(zāi)難;

  • AI 系統(tǒng)的可解釋性。如果監(jiān)管部門不理解系統(tǒng)模型,這一系統(tǒng)就無法通過檢測并無法得以使用,例如歐盟新提出的 GDPR (《通用數(shù)據(jù)保護條例》)其中就有一條法律規(guī)定自動化模型一定需要是可解釋性的;

  • AI 系統(tǒng)的可靠性?,F(xiàn)在的 AI 系統(tǒng)還不具備這一能力,這種能力不是說 AI 無法擁有,而是現(xiàn)在社會還不重視,因此應(yīng)該得到科研人員的重視;

  • 此外,還有 AI 系統(tǒng)的可信性、公平性,都是「AI 向善」的重要主題。

隨后他指出,雖然「AI 向善」是一個重大的議題,但是當(dāng)天的論壇要聚焦的則是對 AI 系統(tǒng)至關(guān)重要的數(shù)據(jù)治理問題:數(shù)據(jù)越多,AI 系統(tǒng)的表現(xiàn)就越好,而這樣的話就會造成數(shù)據(jù)和 AI 的寡頭,例如 Google 以及國內(nèi)的 BAT 等大公司,擁有巨量數(shù)據(jù)。而與之相對的則是小公司所面臨的小數(shù)據(jù)場景,例如法律、金融、醫(yī)療大部分應(yīng)用場景都存在小數(shù)據(jù)和「數(shù)據(jù)孤島」的問題。

針對小數(shù)據(jù),楊強教授從技術(shù)上提出了解決方案,包括:

(1)通過遷移學(xué)習(xí)將大數(shù)據(jù)的能力遷移到小數(shù)據(jù)上(現(xiàn)在 Bert 就能夠?qū)Υ髷?shù)據(jù)場景建立大模型);

(2)將(小)數(shù)據(jù)進行融合,引入隱私和安全的需求,建立一個聯(lián)邦模型。

那么如何將有效的數(shù)據(jù)孤島聚合起來呢?第一、利用隱私安全的建模工具;第二,需要有好的安全證明,不涉及到隱私;第三,公平利益分配。有了這些工具后,這些小數(shù)據(jù)擁有者就能夠組成一個跨行業(yè)的聯(lián)邦學(xué)習(xí)聯(lián)盟。

演講最后,他呼吁道,建立聯(lián)邦學(xué)習(xí)聯(lián)盟,應(yīng)該是整個社會的事情,希望社會各界都能夠參與到其中來。

楊強教授的致辭之后,微眾銀行 AI 部門高級研究員劉洋博士帶來了主題為《聯(lián)邦學(xué)習(xí)的研究及應(yīng)用》的演講,她主要介紹了微眾銀行針對聯(lián)邦學(xué)習(xí)所做的一些工作以及聯(lián)邦學(xué)習(xí)當(dāng)前的進展和未來的發(fā)展方向。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

微眾銀行 AI 部門高級研究員劉洋博士

首先,她介紹了「聯(lián)邦學(xué)習(xí)」這一新概念,即大規(guī)模用戶在保護數(shù)據(jù)隱私條件下的協(xié)同學(xué)習(xí)。具體而言,「聯(lián)邦學(xué)習(xí)」包括自治和聯(lián)合兩個方面:自治是指用戶在自己的終端設(shè)備中訓(xùn)練模型,不同的數(shù)據(jù)持有方就會訓(xùn)練出不同的模型,這些模型就都擁有不同的參數(shù);聯(lián)合則是指將模型的不同參數(shù)上傳到云端從而實現(xiàn)模型的聚合,之后再將聚合的參數(shù)返回給用戶,這一過程一直重復(fù)持續(xù)到訓(xùn)練完成為止——整個過程只上傳模型參數(shù)而不上傳數(shù)據(jù),從而在保護隱私的情況下實現(xiàn)數(shù)據(jù)共享。

谷歌公司率先提出了基于個人終端設(shè)備的「橫向聯(lián)邦學(xué)習(xí)」(Horizontal Federated Learning)算法框架,在之后的一年到兩年時間中,該算法框架也獲得了較多的進展:

  • 在系統(tǒng)效率的提高和優(yōu)化上,包括模型壓縮、模型優(yōu)化、參與方的優(yōu)化選取、將聯(lián)邦學(xué)習(xí)與邊緣計算相結(jié)合;

  • 在模型效果的提升上,包括在數(shù)據(jù)分布不均勻的情況下提高模型表現(xiàn),以及將機器學(xué)習(xí)、多任務(wù)學(xué)習(xí)等與聯(lián)邦學(xué)習(xí)結(jié)合去實現(xiàn)用戶終端的個性化;

  • 在數(shù)據(jù)安全方面,主要考慮的是模型參數(shù)的更新是否能實現(xiàn)保護隱私信息,對此該領(lǐng)域提出了兩種解決方案(梯度):第一個方法是加混淆,減弱小數(shù)據(jù)對整個數(shù)據(jù)的影響;第二個方法是同態(tài)加密來保護梯度的更新。此外,谷歌還提出了 Secure Aggregation,在本地訓(xùn)練、秘密共享、穩(wěn)定性、無個人梯度信息泄露以及半誠實假設(shè)等方面都實現(xiàn)了較高的表現(xiàn)。

同時,劉洋博士還提到,發(fā)展至今,聯(lián)邦學(xué)習(xí)已延伸出三個類別:

  • 橫向聯(lián)邦學(xué)習(xí)——在兩個數(shù)據(jù)集的用戶特征重疊較多而用戶重疊較少的情況下,我們把數(shù)據(jù)集按照橫向 (即用戶維度) 切分,并取出雙方用戶特征相同而用戶不完全相同的那部分?jǐn)?shù)據(jù)進行訓(xùn)練。

  • 縱向聯(lián)邦學(xué)習(xí)——在兩個數(shù)據(jù)集的用戶重疊較多而用戶特征重疊較少的情況下,我們把數(shù)據(jù)集按照縱向 (即特征維度) 切分,并取出雙方用戶相同而用戶特征不完全相同的那部分?jǐn)?shù)據(jù)進行訓(xùn)練。目前,邏輯回歸模型,樹型結(jié)構(gòu)模型和神經(jīng)網(wǎng)絡(luò)模型等眾多機 器學(xué)習(xí)模型已經(jīng)逐漸被證實能夠建立在這個聯(lián)邦體系上。

  • 聯(lián)邦遷移學(xué)習(xí)——在兩個數(shù)據(jù)集的用戶與用戶特征重疊都較少的情況下,我們不對數(shù)據(jù)進行切分,而可以 利用遷移學(xué)習(xí)來克服數(shù)據(jù)或標(biāo)簽不足的情況。

其中,她對縱向聯(lián)邦學(xué)習(xí)的具體工作原理進行了介紹??v向聯(lián)邦學(xué)習(xí)的目標(biāo)是 A 方與 B 方聯(lián)合建立模型,并且假設(shè)只有一方有標(biāo)簽 Y,兩方均不暴露數(shù)據(jù),但可能遇到的挑戰(zhàn)是只有 X 的一方?jīng)]有辦法建立模型或雙方不能交換共享數(shù)據(jù)。而其最終要達(dá)到的預(yù)期為:雙方均獲得數(shù)據(jù)保護且模型無損失。

因而在進行保護隱私的機器學(xué)習(xí)之前,需要先對安全進行定義,其中涉及到三項重要的對比:半誠實和惡意;零知識和一些知識;惡意中心和惡意數(shù)據(jù)節(jié)點。之后再利用隱私保護下的技術(shù)工具來建模,包括多方安全計算、同態(tài)加密、姚式混淆電路、秘密共享以及差分隱私等。

在介紹聯(lián)邦學(xué)習(xí)當(dāng)前的進展之后,劉洋博士也提到聯(lián)邦學(xué)習(xí)當(dāng)前所面臨的挑戰(zhàn)和未來的研究展望。其中,挑戰(zhàn)主要來自兩個方面,一個是模型攻擊;另一個則是數(shù)據(jù)攻擊。而對于未來的研究展望,劉洋博士認(rèn)為聯(lián)邦學(xué)習(xí)應(yīng)該在安全合規(guī)、防御攻擊、算法效率、技術(shù)應(yīng)用以及聯(lián)盟機制等方向上進行發(fā)展。

最后,劉洋博士也介紹了目前聯(lián)邦學(xué)習(xí)在金融領(lǐng)域(互聯(lián)網(wǎng)公司+銀行)、智慧城市(視覺應(yīng)用+城市管理)等應(yīng)用案例,并指出聯(lián)邦學(xué)習(xí)生態(tài)建設(shè)應(yīng)該是由開源、技術(shù)標(biāo)準(zhǔn)、商業(yè)賦能三大要素構(gòu)建起來的。

劉洋博士演講結(jié)束后,微眾銀行的范濤研究員也上臺向大家介紹了微眾銀行基于「聯(lián)邦學(xué)習(xí)」開發(fā)了聯(lián)盟 AI 系統(tǒng)并開源聯(lián)盟 AI 解決方案 FATE(Federated AI Technology Enabler)。FATE 是一個工業(yè)級聯(lián)邦學(xué)習(xí)框架,提供了一種基于數(shù)據(jù)隱私保護的安全計算框架,為機器學(xué)習(xí)、深度學(xué)習(xí)、遷移學(xué)習(xí)算法提供強有力的支撐,能有效幫助多個機構(gòu)在滿足用戶隱私保護、數(shù)據(jù)安全和政府法規(guī)的要求下,進行數(shù)據(jù)使用和建模,該項目開啟于 2018 年,目前已在 GitHub 上(http://github.com/WeBankFinTech/FATE )實現(xiàn)了開源。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

微眾銀行聯(lián)盟 AI 解決方案 FATE 負(fù)責(zé)人范濤研究員

前一位演講者從技術(shù)的角度解釋為什么要加入聯(lián)邦學(xué)習(xí)聯(lián)盟,南洋理工大學(xué)南洋助理教授于涵博士則從博弈論的角度講述怎樣激勵擁有高數(shù)據(jù)的擁有者加入聯(lián)邦學(xué)習(xí)聯(lián)盟,他的演講主題是《聯(lián)邦學(xué)習(xí)中的博弈論》。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

南洋理工大學(xué)南洋助理教授于涵博士

于涵博士提到,一個數(shù)據(jù)聯(lián)盟的可持續(xù)發(fā)展取決于能否持續(xù)吸引高質(zhì)量的個人或機構(gòu)數(shù)據(jù)持有人的參與。然而如何吸引高質(zhì)量的個人或機構(gòu)數(shù)據(jù)持有人參與進來?其中一個重要的課題就是量化個人或機構(gòu)的收益。

在找到解決方案之前,他先為大家介紹了當(dāng)前比較成熟的三類利潤分配博弈中的分配方案,包括:

  • 平均主義:數(shù)據(jù)聯(lián)盟產(chǎn)生的收益在參與者中平均分配;

  • 邊際收益:按照某個參與者加入聯(lián)盟時帶來的邊際收益確定他所應(yīng)得的收益;

  • 邊際損失:按照某個參與者退出聯(lián)盟所帶來的邊際損失確定他所應(yīng)得的收益。

而從系統(tǒng)角度考慮,總體的目標(biāo)就是最大化集體效用。

然后,這些分配方案都存在各自的劣勢,對此,他們提出的是聯(lián)邦學(xué)習(xí)激勵機制(FLI,F(xiàn)ederated Learning Incentivizer)利益分配,這一分配方案的核心是從貢獻和代價兩個層面考慮怎樣公平地對待參與者,在最大化數(shù)據(jù)聯(lián)盟的整體效用的同時,也最小化參與者之間在「遺憾」和等待時長兩個維度的不均衡。這樣的話,F(xiàn)LI 能夠同時兼顧對于每個數(shù)據(jù)擁有者可同時加入多個聯(lián)盟、參與者加入/離開聯(lián)盟的排序重要性、參與者加入聯(lián)盟的代價、參與者加入聯(lián)盟的「遺憾」以及參與者等待全額補償所消耗的時間的考量。

演講最后,于涵博士還用基于這套利益分配方案設(shè)計的 SmartHS 在中國「智慧民生」中的應(yīng)用案例,來介紹了這套機制所帶來的實際效果。他指出現(xiàn)有的電子政務(wù)系統(tǒng)依舊是工具包式的解決方案,未能解決系統(tǒng)層面的低效率問題,效果不明顯,而 SmartHS 則實現(xiàn)了流程標(biāo)準(zhǔn)化,人員角色定義標(biāo)準(zhǔn)化,流程智能管理(基于聯(lián)邦學(xué)習(xí)機制設(shè)計的基礎(chǔ)理論),不僅實現(xiàn)了 0 排隊,減少了民眾所耗費的時間(辦事流程使用時長平均 90% 以上)和精力,政務(wù)工作人員的業(yè)務(wù)水平也大幅提高。據(jù)悉,該項目還獲得了AAAI2018「人工智能創(chuàng)新應(yīng)用獎」。

作為本次論壇的唯一一位法律從業(yè)者,北京觀韜中茂(上海)律師事務(wù)所合伙人王渝偉律師,從法律的層面強調(diào)了數(shù)據(jù)隱私保護方面的重要性,他的演講主題為《網(wǎng)絡(luò)安全與數(shù)據(jù)保護的立法和實踐》。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

北京觀韜中茂(上海)律師事務(wù)所合伙人王渝偉律師

王渝偉律師從今年的 3·15 晚會中重點關(guān)注的數(shù)據(jù)隱私問題引入,結(jié)合龐理鵬與「去哪兒」、「東航」隱私權(quán)糾紛案,淘寶公司訴美景公司不正當(dāng)競爭案,上海晟品非法爬取今日頭條服務(wù)器視頻數(shù)據(jù)案等國內(nèi)外典型案例講述在日趨嚴(yán)密的立法和頻繁的執(zhí)法下,企業(yè)如何建立數(shù)據(jù)合規(guī)體系并提升自身數(shù)據(jù)安全能力。

以上海晟品非法爬取今日頭條服務(wù)器視頻數(shù)據(jù)案為例,王渝偉律師指出,本案所涉內(nèi)容是當(dāng)今互聯(lián)網(wǎng)企業(yè)所面臨的一個普遍問題,該案件中的上海晟品網(wǎng)絡(luò)科技有限公司利用爬蟲技術(shù)抓取了字節(jié)跳動服務(wù)器視頻數(shù)據(jù),是違法法律規(guī)定的犯罪行為,處罰輕則拘役、重則判處有期徒刑。

對于這一案例,他也為相關(guān)企業(yè)提出了對策,一是要評估想要爬取的數(shù)據(jù)的開放程度和被爬取方的意愿;二是要考察數(shù)據(jù)的類別,判斷數(shù)據(jù)是否為個人信息、版權(quán)內(nèi)容或商業(yè)秘密。

演講最后,他表示,關(guān)于數(shù)據(jù)隱私問題的解決,一方面是需要政府立法來制約對隱私數(shù)據(jù)的侵犯;而另一方面,「楊強教授他們提出的聯(lián)邦學(xué)習(xí)或許是一個不錯的思路」。

第四位出場的演講嘉賓是第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強博士,他的演講主題是《聯(lián)邦學(xué)習(xí)——AI For Everyone 的必經(jīng)之路》。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強博士

他首先介紹了科學(xué)上的四個范式:第一范式是實驗科學(xué),強調(diào)發(fā)現(xiàn)現(xiàn)象、記錄現(xiàn)象和重復(fù)現(xiàn)象;第二范式是理論科學(xué),強調(diào)設(shè)計理論解釋現(xiàn)象;第三范式是計算科學(xué),即通過計算模擬現(xiàn)象;第四范式則是數(shù)據(jù)科學(xué),即通過數(shù)據(jù)解釋現(xiàn)象。他強調(diào),第四范式是科學(xué)發(fā)展的未來。

隨后他回歸主題,為大家呈現(xiàn)了 「AI For Everyone」 的所需要經(jīng)歷的階段:

起點是專家系統(tǒng),其以專業(yè)程度決定人類智能程度,難以處理所有邊界,應(yīng)用門檻非常高;第二個階段是高維學(xué)習(xí),需要構(gòu)建復(fù)雜模型尋找規(guī)律,能夠解決產(chǎn)品化、標(biāo)準(zhǔn)化問題衱智能程度門檻;第三個階段,即現(xiàn)在,則是 AutoML,能夠解決智能構(gòu)建門檻,即每個人都能夠構(gòu)建自己的模型了,然而此時需要解決的是數(shù)據(jù)門檻問題,因而未來的發(fā)展方向則是——能解決所需數(shù)據(jù)門檻的聯(lián)邦學(xué)習(xí)(第四個階段)。

隨后他從機器學(xué)習(xí)的工業(yè)落地角度,指出工業(yè)界的機器學(xué)習(xí)最大的特點應(yīng)該是可擴展——包括兩個層面的可擴展:一方面,數(shù)據(jù)處理的吞吐隨著集群、機器數(shù)的增加而增加;另一方面則是智能水平/體驗的壁壘隨著業(yè)務(wù)/數(shù)據(jù)的增加而增加。而工業(yè)大數(shù)據(jù)則需要高 VC 維模型,意味著需要高復(fù)雜度的模型或函數(shù)以及非常強的機器學(xué)習(xí)能力。

總體而言,工業(yè)界所需要的高 VC 維機器學(xué)習(xí)系統(tǒng),需要在數(shù)據(jù)、特征和模型三個方向?qū)で筇岣吆蛢?yōu)化。而由于數(shù)據(jù)門檻較高,一般的做法是沿著特征和模型兩個方向走。

  • 沿著模型方向走,是由學(xué)術(shù)界(ICML、NIPS、ICLR)在主導(dǎo),其往往利用非線性的三把寶劍——Kernel、Boosting 和神經(jīng)網(wǎng)絡(luò)(目前用得最多的方法),實現(xiàn)了模型大部分可單機加載,并解決了數(shù)據(jù)分布式問題,降低系統(tǒng) overhead;而工業(yè)界則針對應(yīng)用定制模型,其重點考慮的是什么模型更符合場景數(shù)據(jù)、泛化能力以及非線性組合能力更強,一般會基于專家思考或者觀測得到的假設(shè),加入新的模型、結(jié)構(gòu)以獲得更多參數(shù)來構(gòu)建機器學(xué)習(xí)系統(tǒng)。

  • 沿著特征方向走,則是由工業(yè)界(KDD、WWW)在主導(dǎo),其使用的模型相對比較簡單粗暴(是優(yōu)點也是缺點),在分布式計算和工程特征方面所面臨的挑戰(zhàn)較大,因此重點考量的是實現(xiàn)高效并行并保證快速收斂。對此,工業(yè)界一般會針對應(yīng)用定制特征,重點探索特征產(chǎn)生的原因、方法并理解特征。

然而目前,工業(yè)界應(yīng)用機器學(xué)習(xí)依舊存在諸多難題,一方面是對于 AI 應(yīng)用平臺的需求巨大;另一方面則是人工智能還沒有真的大規(guī)模應(yīng)用到每個企業(yè)。以特征工程為例,要求該領(lǐng)域的研究者對機器學(xué)習(xí)與業(yè)務(wù)都有非常深的了解,而目前可以用來優(yōu)化特征工程的方法有:隱式特征組合(NN、FM)、半顯式顯示特征組合(GBDT)以及顯式特征組合(特征叉乘)。

最后,他表示,現(xiàn)在他們在嘗試解決的是 「AI For Everyone」的問題,而下一步則是要解決數(shù)據(jù)的問題。第四范式也在楊強教授的指導(dǎo)下,開展聯(lián)邦學(xué)習(xí)的研究,主要的研究思路包括隱私保護和知識遷移,并且相關(guān)的成果目前已經(jīng)應(yīng)用到醫(yī)療領(lǐng)域中。

最后一位出場的演講嘉賓是京東智能城市研究院資深研究員、京東城市計算事業(yè)部 AI 平臺部負(fù)責(zé)人張鈞波博士,他的演講主題是《城市計算與跨域?qū)W習(xí)聯(lián)合建?!贰K饕獜?span style="line-height: 1.8;">城市計算的偏應(yīng)用的角度,講述聯(lián)邦學(xué)習(xí)對于該領(lǐng)域的意義。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

京東智能城市研究院資深研究員、京東城市計算事業(yè)部 AI 平臺部負(fù)責(zé)人張鈞波博士

首先,他對「城市計算」(Urban Computing)的概念進行了介紹,即通過城市數(shù)據(jù)的采集、管理、分析挖掘和服務(wù)提供,解決交通、規(guī)劃、環(huán)境等問題。然而由于數(shù)據(jù)異構(gòu)、多源性及時空動態(tài)分布,目前城市計算面臨著城市感知的數(shù)據(jù)缺失這一重大挑戰(zhàn)。其中時空大數(shù)據(jù)因其空間上的臨近性、層次性和時間上的周期性、趨勢性等特性,更是城市計算亟需解決的問題。

隨后,他以 AI 預(yù)測城市區(qū)域人流量及流轉(zhuǎn)、基于大數(shù)據(jù)和 AI 的空氣預(yù)測預(yù)測、基于 AI 和城市大數(shù)據(jù)管網(wǎng)水質(zhì)量預(yù)測等應(yīng)用場景為例,介紹了京東在城市計算方面所做的一些工作,然而這些工作都尚且無法很好地利用到目前已經(jīng)存在的一些數(shù)據(jù)積累,包括:智慧城市建設(shè)中,各個政府機構(gòu)已經(jīng)建立的各種信息系統(tǒng)或數(shù)據(jù)平臺;大型企業(yè)尤其是央企國企累積收集的各類海量數(shù)。同時,隨著當(dāng)前一些社會重要發(fā)展項目需要聯(lián)合政府和大型企業(yè)事業(yè)單位數(shù)據(jù)共同完成,打破各機構(gòu)間的數(shù)據(jù)壁壘成為需要。

而這樣的需求所對應(yīng)的則是一系列挑戰(zhàn):

一是數(shù)據(jù)安全問題,無論是歐盟的 GDPR,還是《中華人民共和國網(wǎng)絡(luò)安全法》都對數(shù)據(jù)隱私提出了嚴(yán)格的規(guī)定;

二是跨平臺場景復(fù)雜,例如數(shù)據(jù)共享存在數(shù)據(jù)孤島、不同政府機構(gòu)和企事業(yè)單位平臺架構(gòu)不同、數(shù)據(jù)加密登記多樣、數(shù)據(jù)類型及標(biāo)準(zhǔn)多樣化等方面的限制;

三是現(xiàn)有模型算法還無法完全實現(xiàn)保護原始數(shù)據(jù)隱私不被泄露、保證模型準(zhǔn)確率和效率、網(wǎng)絡(luò)安全、模型可解釋性和置信程度等目標(biāo)。

對此,京東通過跨域?qū)W習(xí)聯(lián)合建模,建立「聯(lián)邦學(xué)習(xí)+隨機森林」的聯(lián)邦隨機森林、「聯(lián)邦學(xué)習(xí)+邏輯回歸模型」的聯(lián)合企業(yè)信用評級模型、「聯(lián)邦學(xué)習(xí)+地塊特征學(xué)習(xí)」的智能地塊(區(qū)域)排序模型等,來打通數(shù)據(jù)壁壘,解決數(shù)據(jù)孤島問題。

本次論壇的最后一個環(huán)節(jié)便是由楊強教授、張鈞波博士、陳雨強博士、于涵博士、王渝偉律師以及特邀嘉賓——微眾銀行人工智能部副總經(jīng)理陳天健先生一同參與的圓桌論壇,主題為《探索聯(lián)邦學(xué)習(xí)之機遇與挑戰(zhàn)》。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

楊強教授、張鈞波博士、陳雨強博士、于涵博士、王渝偉律師、陳天健先生一同參與圓桌論壇

以下為編輯整理的對話實錄:

1.

楊強教授:聯(lián)邦學(xué)習(xí)作為一項新的技術(shù),肯定還存在許多大家暫時還想不到的問題。比如說聯(lián)邦學(xué)習(xí)將數(shù)據(jù)合并后,原本是在合并中心進行建模的效果是最好的,但是由于各種原因,同時需要保護隱私,要將這些數(shù)據(jù)分布到各個數(shù)據(jù)持有者的終端,這無疑要損失些東西。我想問大家的是,損失的是什么?以及損失的指標(biāo)對業(yè)務(wù)的影響有多大?

陳天健先生:這個問題是有正反兩面性的。一方面聯(lián)邦學(xué)習(xí)給大家?guī)砹撕艽蟮臋C遇,擁有小數(shù)據(jù)的公司不再需要通過打破大數(shù)據(jù)擁有公司的數(shù)據(jù)壟斷,而可以通過聯(lián)邦學(xué)習(xí)這一技術(shù)享受到大數(shù)據(jù)的好處;另一方面,這也帶來了一些挑戰(zhàn),比如說過去的數(shù)據(jù)在融合以后是完全透明的,可以以非常傳統(tǒng)的方法進行加工處理,然而通過聯(lián)邦學(xué)習(xí)融合數(shù)據(jù),數(shù)據(jù)的特征必須通過聯(lián)邦化、加密等協(xié)議進行數(shù)據(jù)加工,這樣的話數(shù)據(jù)會受到一定的限制。

2. 

楊強教授:有兩位騰訊的同學(xué)私底下問了我一個問題:假如兩方合作聯(lián)合建模時,一方有 Y,一方?jīng)]有  Y,那沒有 Y 的那一方就無法進行建模,這樣的問題該如何去解決呢?

陳天健先生:實際上,有 Y 的那一方往往也是有實際應(yīng)用的一方,由其來主導(dǎo)規(guī)定協(xié)議,也是非常合理和公平的。

陳雨強博士:補充一下。我認(rèn)為可能存在一種情況,例如騰訊旗下的業(yè)務(wù)矩陣是天然擁有很多數(shù)據(jù)的,如果它另開了一個新產(chǎn)品,而這個產(chǎn)品可能是沒有 Y 的,實際上如果存在這樣的場景,現(xiàn)在是已經(jīng)有技術(shù)能夠?qū)⑺械臄?shù)據(jù)共享過來的,而且實現(xiàn)的效果還挺不錯。

3. 

楊強教授:現(xiàn)場來了很多大學(xué)生、研究生和博士生,他們也正在尋找新的研究課題,各位對于他們有什么可以提供的建議嗎?

張均波博士:實際上,每個階段的學(xué)生傾向做的課題方向可能不太一樣。一般博士可能會傾向于去做一些學(xué)術(shù)型的課題,而本科、碩士則可以去選擇一些偏應(yīng)用型的課題。

于涵博士:我從博弈論的角度補充一下。一個方面是我們學(xué)校的聯(lián)合研究院也有很多面向?qū)W生的研究項目,例如聯(lián)邦學(xué)習(xí)的分配課題;另一方面大家也可以思考一下其他方向的課題,比如說當(dāng)兩方建立聯(lián)邦學(xué)習(xí)聯(lián)盟時有第三方來搗亂,是否有什么方法來將第三方也融入進來呢?立法又會對 AI 的創(chuàng)新造成什么影響呢?

4. 

楊強教授:國內(nèi)的數(shù)據(jù)法律往往是由一些具體的案例驅(qū)動的,稍微有些滯后性,國內(nèi)立法為什么是這樣的現(xiàn)象?以后是否會有改變,我們是否能像歐洲一樣提前提出相關(guān)法規(guī),在全世界起到領(lǐng)導(dǎo)性的作用?

王渝偉律師:目前國內(nèi)的立法確實存在這樣的問題。但是實際上,有些立法很早就出來了,只不過國家體制下的立法周期比較長,最終的明文出臺會比較滯后。同時加上大家對于這些立法的直觀感受不是很強,因此會產(chǎn)生一種國內(nèi)立法滯后的印象。不過,國內(nèi)的立法的水平可能確實沒有那么高,因此在實施的過程中,大家也都普遍感覺效果不是很好。我們也希望這種現(xiàn)狀有所改變,但是這個是跟國家立法機構(gòu)本身的制度相關(guān)的,我們律師也會經(jīng)常去國外跟其他律師交流,也在做這方面的努力和嘗試,大家可以期待一下。

(完)

雷鋒網(wǎng) AI 科技評論報道    雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

AI 大數(shù)據(jù)在數(shù)據(jù)隱私保護下如何普惠共享?CCF TF「聯(lián)邦學(xué)習(xí)」研討會給出了答案

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說