0
本文為「 奧卡姆以氣御剪」投稿,如無雷鋒網(wǎng)授權(quán)禁止轉(zhuǎn)載。
雷鋒網(wǎng)按:隨著信息時代的不斷發(fā)展,不同部門、不同地區(qū)間的信息交流逐步增加,而計算機網(wǎng)絡(luò)技術(shù)的發(fā)展為信息傳輸提供了保障。面對大量的空間數(shù)據(jù),多樣的數(shù)據(jù)格式,數(shù)據(jù)共享是當(dāng)下最好的解決途徑,它讓在不同地方使用不同計算機、不同軟件的用戶能夠讀取他人數(shù)據(jù)并進行各種操作運算和分析。
實現(xiàn)數(shù)據(jù)共享,可以使更多的人充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動和相應(yīng)費用,而把精力重點放在開發(fā)新的應(yīng)用程序及系統(tǒng)集成上。
而共享的數(shù)據(jù)很大程度上已經(jīng)深度涉及到隱私數(shù)據(jù),這些隱私數(shù)據(jù)如果非法使用,將帶來不可估量的后果。
如何處理數(shù)據(jù)共享和隱私保護之間的矛盾成為當(dāng)前熱議話題。
7月15日, AI Time舉辦第四期沙龍,邀請了明略集團首席科學(xué)家吳信東教授、清華大學(xué)朱小燕教授、清華大學(xué)的徐葳副教授,以及微眾銀行人工智能部的吳海山副總經(jīng)理,一起論道“數(shù)據(jù)共享開放與隱私保護”。分享會由清華大學(xué)劉洋教授和中科創(chuàng)星投資總監(jiān),CCF YOCSEF學(xué)術(shù)秘書李文玨共同主持。
本次沙龍圍繞數(shù)據(jù)開放共享和數(shù)據(jù)隱私保護進行討論。本文對分享內(nèi)容進行了不影響原意的改編。
問題一:國內(nèi)外有哪些影響力非常大的數(shù)據(jù)開放共享的計劃或者平臺?
徐葳:學(xué)術(shù)研究和教學(xué)上,我個人比較推薦kaggle,主要原因是kaggle一般會介紹數(shù)據(jù)的使用方式,預(yù)處理方式等。另外,美國聯(lián)邦政府也有個開放數(shù)據(jù)網(wǎng)站data.gov。
吳信東:學(xué)術(shù)界有一個比較大的開放數(shù)據(jù)平臺DBLP,數(shù)據(jù)挖掘,數(shù)據(jù)庫等領(lǐng)域的研究者用的比較多。
問題二:數(shù)據(jù)開放共享主要涉及哪些關(guān)鍵技術(shù)或者說挑戰(zhàn)?
吳信東:我個人認為共享平臺里面的核心技術(shù)是數(shù)據(jù)治理技術(shù)。數(shù)據(jù)治理就是開放平臺需要把碎片化的、零亂的、異構(gòu)的、自治的數(shù)據(jù)整合在一起,讓研究者能夠看到共有的價值。我們最近發(fā)表了一篇關(guān)于數(shù)據(jù)治理技術(shù)的文章,核心內(nèi)容就是數(shù)據(jù)標(biāo)準化、數(shù)據(jù)映射、數(shù)據(jù)交換、噪音處理。
徐葳:我認為數(shù)據(jù)共享的核心挑戰(zhàn)在于形成數(shù)據(jù)流動的閉環(huán)。舉一個例子,在數(shù)據(jù)量上,BAT這些公司可能比不過政府或者公安系統(tǒng),但是大家都覺得這些公司的數(shù)據(jù)很多。這是因為這些公司知道各類數(shù)據(jù)分別可以產(chǎn)生何種價值,同時也知道想要實現(xiàn)某些功能需要采集哪些數(shù)據(jù),企業(yè)中數(shù)據(jù)的利用率高才帶來數(shù)據(jù)量大的印象,數(shù)據(jù)分享此時能帶來更大的價值。只有形成了數(shù)據(jù)流動閉環(huán),才能發(fā)揮數(shù)據(jù)的最大價值。
數(shù)據(jù)開發(fā)共享必然要解決隱私保護的問題,接下來主辦方針對數(shù)據(jù)分享中的隱私保護問題對嘉賓進行提問。
問題三:您認為哪些數(shù)據(jù)是隱私數(shù)據(jù)?
徐葳:我認為數(shù)據(jù)的隱私性不僅僅包含用戶的個人隱私,還有一些企業(yè)隱私數(shù)據(jù),比如我曾經(jīng)用過某個企業(yè)的反欺詐數(shù)據(jù)集,這個數(shù)據(jù)集也是不能公之于眾的,因為欺詐率,用戶流量這種隱私數(shù)據(jù)可能會涉及企業(yè)運營機密。
朱小燕:我個人認為有顯性的隱私,有隱性的隱私。所謂顯性隱私就是大家都比較在意的一些數(shù)據(jù)。隱形隱私就是你分享那些你認為無害的數(shù)據(jù)后,自己都沒意料到這些數(shù)據(jù)會被別人利用來干一些傷害你或他人利益的事。做科研的人開放數(shù)據(jù)一定要小心。
吳海山:討論數(shù)據(jù)隱私離不開討論數(shù)據(jù)服務(wù)。。舉一個簡單的例子,你用打車軟件時可以把你的定位服務(wù)關(guān)掉,對方肯定無不知道你的位置信息,但是這樣的話司機也找不到你了。所以我們談任何個人隱私、企業(yè)隱私,都必須考慮服務(wù)效率和隱私之間的平衡。
問題四:數(shù)據(jù)隱私保護主要涉及哪些技術(shù)?通俗解釋下技術(shù)基本原理。
吳信東:關(guān)于隱私保護,我覺得現(xiàn)在基本上可以概括為四大類。第一類是加密,涉及到密碼學(xué)的內(nèi)容。其中清華大學(xué)姚期智院士發(fā)明的多方安全計算方法,從理論上證明了保護隱私的計算的可行性。
k-匿名
第二類是各種匿名算法,比如k-匿名。我在美國遇到有個同事害怕報警遭到罪犯報復(fù)。面對這種情況警察上庭通常會講是半徑多大范圍之內(nèi)的人打了電話報警,從而對報警居民達到匿名效果。
差分隱私
第三類是差分隱私,基本方法就是加噪音,使得根據(jù)這一屋子人的數(shù)據(jù)算出來的模型,和隨便把某個人踢出去算出來的模型是一樣的,這時候某個人隱私就得到保護。
聯(lián)邦學(xué)習(xí)
吳海山:第四類是聯(lián)邦學(xué)習(xí),也是目前微眾銀行在主推的機器學(xué)習(xí)技術(shù)。舉個例子,用戶去過A醫(yī)院看病,也去過B醫(yī)院看病,A醫(yī)院主要看肝臟病,B醫(yī)院主要看腦科病,把這些信息綜合起來可以讓模型訓(xùn)練效果更加準確。這個時候我們采用聯(lián)邦學(xué)習(xí)來達到這個效果,不是用數(shù)據(jù)的共享,數(shù)據(jù)的傳輸,而是把模型的參數(shù),包括梯度和損失函數(shù)以加密的方式進行傳輸。我們傳輸了損失函數(shù)和梯度之后就可以更新模型,我們把這種學(xué)習(xí)叫做聯(lián)邦學(xué)習(xí)。
問題五:現(xiàn)有的技術(shù)能有效保護用戶隱私數(shù)據(jù)嗎?
徐葳:我研究這個方向,可能會有偏見,但是我覺得能。我說能是有條件的,就是為了保護隱私肯定會大幅降低模型的運算速度。我前幾天做過一個實驗,運算時考慮保護隱私比直接明文計算慢了近100倍。所以這個技術(shù)可用么?某些場景中肯定可以,而且我認為在很多實際應(yīng)用中這不是一個問題,因為即使慢100倍也還是能忍受,當(dāng)然我們?nèi)匀恢档盟伎既绾卧诒Wo隱私的情況下提升效率??偟膩碚f,我們能夠在效率合理的范圍內(nèi)充分保護隱私。
吳海山:我的答案和徐老師一樣,我覺得這個答案是非常大的yes。我們現(xiàn)在研發(fā)的聯(lián)邦學(xué)習(xí),無論是從實踐的角度還是從理論角度來看,都是一種非常有效在保護用戶隱私的情況下實現(xiàn)機器學(xué)習(xí)的算法技術(shù)。同時我們必須去權(quán)衡用戶隱私和算法復(fù)雜度以及運算時間。這個權(quán)衡的標(biāo)準是用戶隱私的定價,就是我的用戶隱私到底價值幾何?需要讓我花費更多的計算資源,排放更多的碳,去實現(xiàn)隱私保護算法,這個是實踐中值得思考的問題。就比如說深度學(xué)習(xí),現(xiàn)在大多公司都是拼硬件,我的硬件比別人好,我模型準確性可以提高一丁點,而硬件好的背后意味著數(shù)據(jù)中心的計算時要花費更多的電,空調(diào)要花費更多的錢來維護,由此造成的環(huán)境污染以及其他花費和用戶隱私的價值孰輕孰重?這也值得思考。
問題六:數(shù)據(jù)價值與隱私保護成本之間的平衡?
徐葳:什么樣的數(shù)據(jù)值得保護?你要是不計算成本,所有的數(shù)據(jù)都能保護。但這不是關(guān)鍵點,舉一個例子,數(shù)據(jù)隱私保護技術(shù),不管是加密,還是聯(lián)邦學(xué)習(xí)等等,你可以把它看作是順豐快遞。值不值得寄要看你寄的東西價值相對快遞費是什么樣的。你不想垃圾分類,把垃圾從上海寄到北京再扔,然而這堆垃圾的并不值得花這么多郵費以及期間造成的碳排放。所以我們必須評估數(shù)據(jù)價值,同時是我們也要發(fā)展數(shù)據(jù)隱私保護技術(shù),這兩件事不矛盾。隨著隱私保護技術(shù)的發(fā)展,越來越多的數(shù)據(jù)可以得到保護,因為算法優(yōu)化的越來越快,技術(shù)越來越成熟,價格也越來越便宜。就像過去大家寄一個東西好難,現(xiàn)在十來塊錢就可以寄個快遞。技術(shù)成熟了,大家就習(xí)以為常了。
吳海山:我覺得今天這些問題背后都隱含著同樣的問題,就是我們?nèi)绾螌?shù)據(jù)進行定價??赡芎芏嗳硕加X得我的數(shù)據(jù)被監(jiān)控了,我的隱私被侵犯了,那我問大家一個問題,如果我花一萬塊錢買你個人所有的數(shù)據(jù)你愿不愿意?你肯定覺得不行。如果我給你一個億?在座的好多人可能會說Yes。這個問題的本質(zhì)就在于我們怎么樣對數(shù)據(jù)進行定價,然后再討論隱私保護。離開數(shù)據(jù)的定價以及數(shù)據(jù)流動所產(chǎn)生的價值去討論數(shù)據(jù)隱私,或者離開數(shù)據(jù)服務(wù)去討論隱私,都是比較片面的,這是我個人的觀點。作為AI從業(yè)者,我們認為如何開發(fā)能夠保護用戶隱私的機器學(xué)習(xí)技術(shù)是當(dāng)務(wù)之急。
討論完數(shù)據(jù)共享與隱私保護,接下來聊一聊現(xiàn)實情況,即現(xiàn)在的國內(nèi)外隱私保護政策。
問題七:數(shù)據(jù)隱私保護在政策制定上的挑戰(zhàn)主要有哪些?
徐葳:我不是政策專家,但是GDPR我很關(guān)注。我覺得它限制不了像谷歌、facebook這種真正有可能需要你的隱私的互聯(lián)網(wǎng)公司,反正這些巨頭運營成本相對低廉,對他們來說也就多交了4%的稅。但對傳統(tǒng)企業(yè)來說,運營成本已經(jīng)很高的這些企業(yè),就會思考這些數(shù)據(jù)能帶來多少利益價值,要不要冒這個風(fēng)險。所以我認為政策必須要有可操作性,不能僅僅說要保護隱私,而是要制定切實可行的各種數(shù)據(jù)使用標(biāo)準,指導(dǎo)企業(yè)使用數(shù)字資產(chǎn)。
朱小燕:一是我覺得隱私保護政策肯定是跟國情有關(guān),不能照搬歐洲、美國的政策。二是就像剛才一直在討論的數(shù)據(jù)價值問題,不能所有數(shù)據(jù)用一個政策一刀切。比如我覺得金融數(shù)據(jù)和醫(yī)療數(shù)據(jù),保護的范圍和深度是不一樣。其他的各種行業(yè)的數(shù)據(jù)都有特點,所以肯定要根據(jù)中國國情去制定更細致的政策。
吳海山:一是我覺得這要分國家看待,我們不能照搬美國、歐洲。。從經(jīng)濟學(xué)角度來講,GDPR會提高數(shù)據(jù)本身的價格,以及各大公司在使用數(shù)據(jù)層面上的成本。二是國外可能覺得中國對隱私重視程度不夠。我覺得作為一個AI從業(yè)者有義務(wù)去給大眾普及聯(lián)邦學(xué)習(xí)、數(shù)據(jù)隱私、數(shù)據(jù)資產(chǎn)到底是什么?
問題八:各位嘉賓,是支持更嚴的隱私保護政策,還是支持更開放的數(shù)據(jù)共享?
吳海山:更嚴的隱私保護政策無疑會增加數(shù)據(jù)成本,會讓整個AI行業(yè),尤其是小公司生存更加艱難。創(chuàng)業(yè)公司在歐洲的生存環(huán)境就比以前艱難很多。更開放的數(shù)據(jù)共享,可能會讓大眾和媒體放大數(shù)據(jù)隱私泄露的風(fēng)險,反而忘掉數(shù)據(jù)共享帶來的價值。我個人支持靈活的隱私保護,或者靈活的數(shù)據(jù)共享方案。作為一個技術(shù)從業(yè)人員,我們更應(yīng)該思考怎么樣通過新技術(shù)讓隱私保護和數(shù)據(jù)共享變得更加靈活。
朱小燕:我是教師,從科研的角度來考慮,我是支持更開放的數(shù)據(jù)共享。我回國二十多年,很多時候都感覺到我國數(shù)據(jù)共享很不開放。從研究者的角度來講,真的是有很多人把數(shù)據(jù)或者一些技術(shù)當(dāng)成自己的私有財產(chǎn),喜歡把這些東西“鎖在抽屜”里,然而“鎖在抽屜”里不用的數(shù)據(jù)不會產(chǎn)生任何價值。正因為我們有這么一個不太好的習(xí)慣,所以我更加支持尤其是學(xué)術(shù)界的數(shù)據(jù)共享。同時可能需要政府的管理,因為我們不能期待人人做活雷鋒,數(shù)據(jù)共享不等于無價獲取,你應(yīng)該尊重別人的數(shù)據(jù),使用別人的數(shù)據(jù)至少得致謝。
吳信東:我跟吳海山老師剛好相反,我兩個都支持。我支持更嚴的隱私保護,也支持更開放的數(shù)據(jù)共享。如果兩者必須選一個,我選更嚴格的隱私保護。我們在國外跟外國人交流會面對一些數(shù)據(jù)隱私的質(zhì)疑,我一般回應(yīng)此一時彼一時,過去我們有些地方確實做的不好,現(xiàn)在我們正在完善自身。國人隱私保護的意識剛剛覺醒,接下來要做的工作還有很多。所以如果二選一,我選支持更嚴格的隱私保護。
徐葳:我支持數(shù)據(jù)共享。首先我認為隱私保護應(yīng)該是數(shù)據(jù)開放的必要條件。監(jiān)管和開放是不能分開的。就像藥品,研發(fā)新藥要保證有效性和安全性,臨床二期做有效性,臨床三期做安全性。如果沒有安全性,只是有效,這個藥不會存在。數(shù)據(jù)共享也是一樣,沒有隱私保護策略的數(shù)據(jù)共享就不應(yīng)該存在。然后我覺得數(shù)據(jù)共享是非常重要的,但是政府必須有擔(dān)當(dāng)。以現(xiàn)在的環(huán)境,法無禁止的操作,過兩天禁止了還是算你犯錯誤。所以現(xiàn)在是法無禁止皆不為,大家都不想共享。另一個原因是大家拿數(shù)據(jù)當(dāng)個人財產(chǎn),比如醫(yī)療數(shù)據(jù),就是因為醫(yī)生收集數(shù)據(jù)之后,指著這份數(shù)據(jù)發(fā)論文,評職稱,憑什么給別的醫(yī)生或醫(yī)院呢?再比如VC投資之后,提供數(shù)據(jù)的人并沒有任何利益,錢被那些做模型的人拿走了。如果提供數(shù)據(jù)的人沒得到好處,那么他們憑什么繼續(xù)提供數(shù)據(jù),同時還擔(dān)風(fēng)險。所以我覺得現(xiàn)在的數(shù)據(jù)共享第一缺乏合理規(guī)則,第二缺乏利益協(xié)調(diào),這兩方面做好了,數(shù)據(jù)共享就會越來越好。這是一個過程,期間需要我們的努力。
雷鋒網(wǎng)報道!
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。