0
本文作者: camel | 2019-07-23 15:58 |
本文為「 奧卡姆以氣御剪」投稿,如無(wú)雷鋒網(wǎng)授權(quán)禁止轉(zhuǎn)載。
雷鋒網(wǎng)按:隨著信息時(shí)代的不斷發(fā)展,不同部門(mén)、不同地區(qū)間的信息交流逐步增加,而計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展為信息傳輸提供了保障。面對(duì)大量的空間數(shù)據(jù),多樣的數(shù)據(jù)格式,數(shù)據(jù)共享是當(dāng)下最好的解決途徑,它讓在不同地方使用不同計(jì)算機(jī)、不同軟件的用戶能夠讀取他人數(shù)據(jù)并進(jìn)行各種操作運(yùn)算和分析。
實(shí)現(xiàn)數(shù)據(jù)共享,可以使更多的人充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用,而把精力重點(diǎn)放在開(kāi)發(fā)新的應(yīng)用程序及系統(tǒng)集成上。
而共享的數(shù)據(jù)很大程度上已經(jīng)深度涉及到隱私數(shù)據(jù),這些隱私數(shù)據(jù)如果非法使用,將帶來(lái)不可估量的后果。
如何處理數(shù)據(jù)共享和隱私保護(hù)之間的矛盾成為當(dāng)前熱議話題。
7月15日, AI Time舉辦第四期沙龍,邀請(qǐng)了明略集團(tuán)首席科學(xué)家吳信東教授、清華大學(xué)朱小燕教授、清華大學(xué)的徐葳副教授,以及微眾銀行人工智能部的吳海山副總經(jīng)理,一起論道“數(shù)據(jù)共享開(kāi)放與隱私保護(hù)”。分享會(huì)由清華大學(xué)劉洋教授和中科創(chuàng)星投資總監(jiān),CCF YOCSEF學(xué)術(shù)秘書(shū)李文玨共同主持。
本次沙龍圍繞數(shù)據(jù)開(kāi)放共享和數(shù)據(jù)隱私保護(hù)進(jìn)行討論。本文對(duì)分享內(nèi)容進(jìn)行了不影響原意的改編。
問(wèn)題一:國(guó)內(nèi)外有哪些影響力非常大的數(shù)據(jù)開(kāi)放共享的計(jì)劃或者平臺(tái)?
徐葳:學(xué)術(shù)研究和教學(xué)上,我個(gè)人比較推薦kaggle,主要原因是kaggle一般會(huì)介紹數(shù)據(jù)的使用方式,預(yù)處理方式等。另外,美國(guó)聯(lián)邦政府也有個(gè)開(kāi)放數(shù)據(jù)網(wǎng)站data.gov。
吳信東:學(xué)術(shù)界有一個(gè)比較大的開(kāi)放數(shù)據(jù)平臺(tái)DBLP,數(shù)據(jù)挖掘,數(shù)據(jù)庫(kù)等領(lǐng)域的研究者用的比較多。
問(wèn)題二:數(shù)據(jù)開(kāi)放共享主要涉及哪些關(guān)鍵技術(shù)或者說(shuō)挑戰(zhàn)?
吳信東:我個(gè)人認(rèn)為共享平臺(tái)里面的核心技術(shù)是數(shù)據(jù)治理技術(shù)。數(shù)據(jù)治理就是開(kāi)放平臺(tái)需要把碎片化的、零亂的、異構(gòu)的、自治的數(shù)據(jù)整合在一起,讓研究者能夠看到共有的價(jià)值。我們最近發(fā)表了一篇關(guān)于數(shù)據(jù)治理技術(shù)的文章,核心內(nèi)容就是數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)映射、數(shù)據(jù)交換、噪音處理。
徐葳:我認(rèn)為數(shù)據(jù)共享的核心挑戰(zhàn)在于形成數(shù)據(jù)流動(dòng)的閉環(huán)。舉一個(gè)例子,在數(shù)據(jù)量上,BAT這些公司可能比不過(guò)政府或者公安系統(tǒng),但是大家都覺(jué)得這些公司的數(shù)據(jù)很多。這是因?yàn)檫@些公司知道各類(lèi)數(shù)據(jù)分別可以產(chǎn)生何種價(jià)值,同時(shí)也知道想要實(shí)現(xiàn)某些功能需要采集哪些數(shù)據(jù),企業(yè)中數(shù)據(jù)的利用率高才帶來(lái)數(shù)據(jù)量大的印象,數(shù)據(jù)分享此時(shí)能帶來(lái)更大的價(jià)值。只有形成了數(shù)據(jù)流動(dòng)閉環(huán),才能發(fā)揮數(shù)據(jù)的最大價(jià)值。
數(shù)據(jù)開(kāi)發(fā)共享必然要解決隱私保護(hù)的問(wèn)題,接下來(lái)主辦方針對(duì)數(shù)據(jù)分享中的隱私保護(hù)問(wèn)題對(duì)嘉賓進(jìn)行提問(wèn)。
問(wèn)題三:您認(rèn)為哪些數(shù)據(jù)是隱私數(shù)據(jù)?
徐葳:我認(rèn)為數(shù)據(jù)的隱私性不僅僅包含用戶的個(gè)人隱私,還有一些企業(yè)隱私數(shù)據(jù),比如我曾經(jīng)用過(guò)某個(gè)企業(yè)的反欺詐數(shù)據(jù)集,這個(gè)數(shù)據(jù)集也是不能公之于眾的,因?yàn)槠墼p率,用戶流量這種隱私數(shù)據(jù)可能會(huì)涉及企業(yè)運(yùn)營(yíng)機(jī)密。
朱小燕:我個(gè)人認(rèn)為有顯性的隱私,有隱性的隱私。所謂顯性隱私就是大家都比較在意的一些數(shù)據(jù)。隱形隱私就是你分享那些你認(rèn)為無(wú)害的數(shù)據(jù)后,自己都沒(méi)意料到這些數(shù)據(jù)會(huì)被別人利用來(lái)干一些傷害你或他人利益的事。做科研的人開(kāi)放數(shù)據(jù)一定要小心。
吳海山:討論數(shù)據(jù)隱私離不開(kāi)討論數(shù)據(jù)服務(wù)。。舉一個(gè)簡(jiǎn)單的例子,你用打車(chē)軟件時(shí)可以把你的定位服務(wù)關(guān)掉,對(duì)方肯定無(wú)不知道你的位置信息,但是這樣的話司機(jī)也找不到你了。所以我們談任何個(gè)人隱私、企業(yè)隱私,都必須考慮服務(wù)效率和隱私之間的平衡。
問(wèn)題四:數(shù)據(jù)隱私保護(hù)主要涉及哪些技術(shù)?通俗解釋下技術(shù)基本原理。
吳信東:關(guān)于隱私保護(hù),我覺(jué)得現(xiàn)在基本上可以概括為四大類(lèi)。第一類(lèi)是加密,涉及到密碼學(xué)的內(nèi)容。其中清華大學(xué)姚期智院士發(fā)明的多方安全計(jì)算方法,從理論上證明了保護(hù)隱私的計(jì)算的可行性。
k-匿名
第二類(lèi)是各種匿名算法,比如k-匿名。我在美國(guó)遇到有個(gè)同事害怕報(bào)警遭到罪犯報(bào)復(fù)。面對(duì)這種情況警察上庭通常會(huì)講是半徑多大范圍之內(nèi)的人打了電話報(bào)警,從而對(duì)報(bào)警居民達(dá)到匿名效果。
差分隱私
第三類(lèi)是差分隱私,基本方法就是加噪音,使得根據(jù)這一屋子人的數(shù)據(jù)算出來(lái)的模型,和隨便把某個(gè)人踢出去算出來(lái)的模型是一樣的,這時(shí)候某個(gè)人隱私就得到保護(hù)。
聯(lián)邦學(xué)習(xí)
吳海山:第四類(lèi)是聯(lián)邦學(xué)習(xí),也是目前微眾銀行在主推的機(jī)器學(xué)習(xí)技術(shù)。舉個(gè)例子,用戶去過(guò)A醫(yī)院看病,也去過(guò)B醫(yī)院看病,A醫(yī)院主要看肝臟病,B醫(yī)院主要看腦科病,把這些信息綜合起來(lái)可以讓模型訓(xùn)練效果更加準(zhǔn)確。這個(gè)時(shí)候我們采用聯(lián)邦學(xué)習(xí)來(lái)達(dá)到這個(gè)效果,不是用數(shù)據(jù)的共享,數(shù)據(jù)的傳輸,而是把模型的參數(shù),包括梯度和損失函數(shù)以加密的方式進(jìn)行傳輸。我們傳輸了損失函數(shù)和梯度之后就可以更新模型,我們把這種學(xué)習(xí)叫做聯(lián)邦學(xué)習(xí)。
問(wèn)題五:現(xiàn)有的技術(shù)能有效保護(hù)用戶隱私數(shù)據(jù)嗎?
徐葳:我研究這個(gè)方向,可能會(huì)有偏見(jiàn),但是我覺(jué)得能。我說(shuō)能是有條件的,就是為了保護(hù)隱私肯定會(huì)大幅降低模型的運(yùn)算速度。我前幾天做過(guò)一個(gè)實(shí)驗(yàn),運(yùn)算時(shí)考慮保護(hù)隱私比直接明文計(jì)算慢了近100倍。所以這個(gè)技術(shù)可用么?某些場(chǎng)景中肯定可以,而且我認(rèn)為在很多實(shí)際應(yīng)用中這不是一個(gè)問(wèn)題,因?yàn)榧词孤?00倍也還是能忍受,當(dāng)然我們?nèi)匀恢档盟伎既绾卧诒Wo(hù)隱私的情況下提升效率??偟膩?lái)說(shuō),我們能夠在效率合理的范圍內(nèi)充分保護(hù)隱私。
吳海山:我的答案和徐老師一樣,我覺(jué)得這個(gè)答案是非常大的yes。我們現(xiàn)在研發(fā)的聯(lián)邦學(xué)習(xí),無(wú)論是從實(shí)踐的角度還是從理論角度來(lái)看,都是一種非常有效在保護(hù)用戶隱私的情況下實(shí)現(xiàn)機(jī)器學(xué)習(xí)的算法技術(shù)。同時(shí)我們必須去權(quán)衡用戶隱私和算法復(fù)雜度以及運(yùn)算時(shí)間。這個(gè)權(quán)衡的標(biāo)準(zhǔn)是用戶隱私的定價(jià),就是我的用戶隱私到底價(jià)值幾何?需要讓我花費(fèi)更多的計(jì)算資源,排放更多的碳,去實(shí)現(xiàn)隱私保護(hù)算法,這個(gè)是實(shí)踐中值得思考的問(wèn)題。就比如說(shuō)深度學(xué)習(xí),現(xiàn)在大多公司都是拼硬件,我的硬件比別人好,我模型準(zhǔn)確性可以提高一丁點(diǎn),而硬件好的背后意味著數(shù)據(jù)中心的計(jì)算時(shí)要花費(fèi)更多的電,空調(diào)要花費(fèi)更多的錢(qián)來(lái)維護(hù),由此造成的環(huán)境污染以及其他花費(fèi)和用戶隱私的價(jià)值孰輕孰重?這也值得思考。
問(wèn)題六:數(shù)據(jù)價(jià)值與隱私保護(hù)成本之間的平衡?
徐葳:什么樣的數(shù)據(jù)值得保護(hù)?你要是不計(jì)算成本,所有的數(shù)據(jù)都能保護(hù)。但這不是關(guān)鍵點(diǎn),舉一個(gè)例子,數(shù)據(jù)隱私保護(hù)技術(shù),不管是加密,還是聯(lián)邦學(xué)習(xí)等等,你可以把它看作是順豐快遞。值不值得寄要看你寄的東西價(jià)值相對(duì)快遞費(fèi)是什么樣的。你不想垃圾分類(lèi),把垃圾從上海寄到北京再扔,然而這堆垃圾的并不值得花這么多郵費(fèi)以及期間造成的碳排放。所以我們必須評(píng)估數(shù)據(jù)價(jià)值,同時(shí)是我們也要發(fā)展數(shù)據(jù)隱私保護(hù)技術(shù),這兩件事不矛盾。隨著隱私保護(hù)技術(shù)的發(fā)展,越來(lái)越多的數(shù)據(jù)可以得到保護(hù),因?yàn)樗惴▋?yōu)化的越來(lái)越快,技術(shù)越來(lái)越成熟,價(jià)格也越來(lái)越便宜。就像過(guò)去大家寄一個(gè)東西好難,現(xiàn)在十來(lái)塊錢(qián)就可以寄個(gè)快遞。技術(shù)成熟了,大家就習(xí)以為常了。
吳海山:我覺(jué)得今天這些問(wèn)題背后都隱含著同樣的問(wèn)題,就是我們?nèi)绾螌?duì)數(shù)據(jù)進(jìn)行定價(jià)??赡芎芏嗳硕加X(jué)得我的數(shù)據(jù)被監(jiān)控了,我的隱私被侵犯了,那我問(wèn)大家一個(gè)問(wèn)題,如果我花一萬(wàn)塊錢(qián)買(mǎi)你個(gè)人所有的數(shù)據(jù)你愿不愿意?你肯定覺(jué)得不行。如果我給你一個(gè)億?在座的好多人可能會(huì)說(shuō)Yes。這個(gè)問(wèn)題的本質(zhì)就在于我們?cè)趺礃訉?duì)數(shù)據(jù)進(jìn)行定價(jià),然后再討論隱私保護(hù)。離開(kāi)數(shù)據(jù)的定價(jià)以及數(shù)據(jù)流動(dòng)所產(chǎn)生的價(jià)值去討論數(shù)據(jù)隱私,或者離開(kāi)數(shù)據(jù)服務(wù)去討論隱私,都是比較片面的,這是我個(gè)人的觀點(diǎn)。作為AI從業(yè)者,我們認(rèn)為如何開(kāi)發(fā)能夠保護(hù)用戶隱私的機(jī)器學(xué)習(xí)技術(shù)是當(dāng)務(wù)之急。
討論完數(shù)據(jù)共享與隱私保護(hù),接下來(lái)聊一聊現(xiàn)實(shí)情況,即現(xiàn)在的國(guó)內(nèi)外隱私保護(hù)政策。
問(wèn)題七:數(shù)據(jù)隱私保護(hù)在政策制定上的挑戰(zhàn)主要有哪些?
徐葳:我不是政策專(zhuān)家,但是GDPR我很關(guān)注。我覺(jué)得它限制不了像谷歌、facebook這種真正有可能需要你的隱私的互聯(lián)網(wǎng)公司,反正這些巨頭運(yùn)營(yíng)成本相對(duì)低廉,對(duì)他們來(lái)說(shuō)也就多交了4%的稅。但對(duì)傳統(tǒng)企業(yè)來(lái)說(shuō),運(yùn)營(yíng)成本已經(jīng)很高的這些企業(yè),就會(huì)思考這些數(shù)據(jù)能帶來(lái)多少利益價(jià)值,要不要冒這個(gè)風(fēng)險(xiǎn)。所以我認(rèn)為政策必須要有可操作性,不能僅僅說(shuō)要保護(hù)隱私,而是要制定切實(shí)可行的各種數(shù)據(jù)使用標(biāo)準(zhǔn),指導(dǎo)企業(yè)使用數(shù)字資產(chǎn)。
朱小燕:一是我覺(jué)得隱私保護(hù)政策肯定是跟國(guó)情有關(guān),不能照搬歐洲、美國(guó)的政策。二是就像剛才一直在討論的數(shù)據(jù)價(jià)值問(wèn)題,不能所有數(shù)據(jù)用一個(gè)政策一刀切。比如我覺(jué)得金融數(shù)據(jù)和醫(yī)療數(shù)據(jù),保護(hù)的范圍和深度是不一樣。其他的各種行業(yè)的數(shù)據(jù)都有特點(diǎn),所以肯定要根據(jù)中國(guó)國(guó)情去制定更細(xì)致的政策。
吳海山:一是我覺(jué)得這要分國(guó)家看待,我們不能照搬美國(guó)、歐洲。。從經(jīng)濟(jì)學(xué)角度來(lái)講,GDPR會(huì)提高數(shù)據(jù)本身的價(jià)格,以及各大公司在使用數(shù)據(jù)層面上的成本。二是國(guó)外可能覺(jué)得中國(guó)對(duì)隱私重視程度不夠。我覺(jué)得作為一個(gè)AI從業(yè)者有義務(wù)去給大眾普及聯(lián)邦學(xué)習(xí)、數(shù)據(jù)隱私、數(shù)據(jù)資產(chǎn)到底是什么?
問(wèn)題八:各位嘉賓,是支持更嚴(yán)的隱私保護(hù)政策,還是支持更開(kāi)放的數(shù)據(jù)共享?
吳海山:更嚴(yán)的隱私保護(hù)政策無(wú)疑會(huì)增加數(shù)據(jù)成本,會(huì)讓整個(gè)AI行業(yè),尤其是小公司生存更加艱難。創(chuàng)業(yè)公司在歐洲的生存環(huán)境就比以前艱難很多。更開(kāi)放的數(shù)據(jù)共享,可能會(huì)讓大眾和媒體放大數(shù)據(jù)隱私泄露的風(fēng)險(xiǎn),反而忘掉數(shù)據(jù)共享帶來(lái)的價(jià)值。我個(gè)人支持靈活的隱私保護(hù),或者靈活的數(shù)據(jù)共享方案。作為一個(gè)技術(shù)從業(yè)人員,我們更應(yīng)該思考怎么樣通過(guò)新技術(shù)讓隱私保護(hù)和數(shù)據(jù)共享變得更加靈活。
朱小燕:我是教師,從科研的角度來(lái)考慮,我是支持更開(kāi)放的數(shù)據(jù)共享。我回國(guó)二十多年,很多時(shí)候都感覺(jué)到我國(guó)數(shù)據(jù)共享很不開(kāi)放。從研究者的角度來(lái)講,真的是有很多人把數(shù)據(jù)或者一些技術(shù)當(dāng)成自己的私有財(cái)產(chǎn),喜歡把這些東西“鎖在抽屜”里,然而“鎖在抽屜”里不用的數(shù)據(jù)不會(huì)產(chǎn)生任何價(jià)值。正因?yàn)槲覀冇羞@么一個(gè)不太好的習(xí)慣,所以我更加支持尤其是學(xué)術(shù)界的數(shù)據(jù)共享。同時(shí)可能需要政府的管理,因?yàn)槲覀儾荒芷诖巳俗龌罾卒h,數(shù)據(jù)共享不等于無(wú)價(jià)獲取,你應(yīng)該尊重別人的數(shù)據(jù),使用別人的數(shù)據(jù)至少得致謝。
吳信東:我跟吳海山老師剛好相反,我兩個(gè)都支持。我支持更嚴(yán)的隱私保護(hù),也支持更開(kāi)放的數(shù)據(jù)共享。如果兩者必須選一個(gè),我選更嚴(yán)格的隱私保護(hù)。我們?cè)趪?guó)外跟外國(guó)人交流會(huì)面對(duì)一些數(shù)據(jù)隱私的質(zhì)疑,我一般回應(yīng)此一時(shí)彼一時(shí),過(guò)去我們有些地方確實(shí)做的不好,現(xiàn)在我們正在完善自身。國(guó)人隱私保護(hù)的意識(shí)剛剛覺(jué)醒,接下來(lái)要做的工作還有很多。所以如果二選一,我選支持更嚴(yán)格的隱私保護(hù)。
徐葳:我支持?jǐn)?shù)據(jù)共享。首先我認(rèn)為隱私保護(hù)應(yīng)該是數(shù)據(jù)開(kāi)放的必要條件。監(jiān)管和開(kāi)放是不能分開(kāi)的。就像藥品,研發(fā)新藥要保證有效性和安全性,臨床二期做有效性,臨床三期做安全性。如果沒(méi)有安全性,只是有效,這個(gè)藥不會(huì)存在。數(shù)據(jù)共享也是一樣,沒(méi)有隱私保護(hù)策略的數(shù)據(jù)共享就不應(yīng)該存在。然后我覺(jué)得數(shù)據(jù)共享是非常重要的,但是政府必須有擔(dān)當(dāng)。以現(xiàn)在的環(huán)境,法無(wú)禁止的操作,過(guò)兩天禁止了還是算你犯錯(cuò)誤。所以現(xiàn)在是法無(wú)禁止皆不為,大家都不想共享。另一個(gè)原因是大家拿數(shù)據(jù)當(dāng)個(gè)人財(cái)產(chǎn),比如醫(yī)療數(shù)據(jù),就是因?yàn)獒t(yī)生收集數(shù)據(jù)之后,指著這份數(shù)據(jù)發(fā)論文,評(píng)職稱,憑什么給別的醫(yī)生或醫(yī)院呢?再比如VC投資之后,提供數(shù)據(jù)的人并沒(méi)有任何利益,錢(qián)被那些做模型的人拿走了。如果提供數(shù)據(jù)的人沒(méi)得到好處,那么他們憑什么繼續(xù)提供數(shù)據(jù),同時(shí)還擔(dān)風(fēng)險(xiǎn)。所以我覺(jué)得現(xiàn)在的數(shù)據(jù)共享第一缺乏合理規(guī)則,第二缺乏利益協(xié)調(diào),這兩方面做好了,數(shù)據(jù)共享就會(huì)越來(lái)越好。這是一個(gè)過(guò)程,期間需要我們的努力。
雷鋒網(wǎng)報(bào)道!
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。