0
歐洲的那本《通用數(shù)據(jù)保護條例》算是數(shù)據(jù)隱私保護領(lǐng)域的圣經(jīng)了。自2018年5月份實施以來,已經(jīng)開出上億美元的罰單。
據(jù)不完全統(tǒng)計,在近兩年的時間內(nèi),因違法GDPR而被開出的罰單規(guī)模達到了1.26億美元,其中最大的一張罰單是由法國政府對谷歌開出的5000萬歐元的罰單。那么如此嚴格的立法監(jiān)管在保護我們隱私的同時,讓我們損失了什么?
而就在過去十幾年中,我們的社會已經(jīng)習慣了“免費”的網(wǎng)絡服務。免費的搜索引擎,免費的電子郵件以及免費的網(wǎng)上視頻觀看。當數(shù)據(jù)能夠帶來何種價值尚不明確時,這種交易似乎是劃算的。
那時的用戶們毫不猶豫的選擇相信存儲他們信息的公司,并盡情享受公司提供的無縫連接的在線體驗。但是隨著人工智能的崛起和數(shù)據(jù)分析能力的大幅度的提升,一些公司可以將用戶的“隨機軌跡”轉(zhuǎn)換成有價值的見解。定向營銷、基于位置的搜索、個性化促銷逐漸成為數(shù)據(jù)應用的新戰(zhàn)場。
用戶的各種數(shù)據(jù)不斷整合,用戶行為粒度不斷細化,個人健康風險和選舉選擇變得更加預測.......但是,數(shù)據(jù)作為“新石油”在推動增長和創(chuàng)新的同時,也在一定程度上侵犯了用戶的隱私權(quán)。
例如,當年的劍橋分析事件就是一個典型案例。事件起因是一組學者收集了大量用戶數(shù)據(jù),并與劍橋分析公司分享了這些信息,劍橋分析公司是一家商業(yè)數(shù)據(jù)分析公司,據(jù)稱這家公司在2016年總統(tǒng)選舉中用這些方法影響選民?,F(xiàn)在也有事實證明,智能家居也在進一步危害了隱私。
例如2019年的4月份,亞馬遜智能音箱Echo也被曝出隱私問題;同年7月份,比利時廣播公司(VRT)也曝出谷歌聘請的合同工收聽人們與谷歌智能音箱的對話錄音。
這些隱私問題都在意味著大眾對免費數(shù)字服務的熱情,逐漸轉(zhuǎn)向了對大型科技公司及數(shù)據(jù)共享做法厭惡。因此數(shù)據(jù)監(jiān)管一詞應運而生,這也標志著人們對機構(gòu)的信任度處于歷史的最低水平。大眾對立法的呼聲越來越高,那么立法是重新恢復秩序的正確方法么?
(雷鋒網(wǎng))
歐美立法者最早接受了監(jiān)管的挑戰(zhàn),2016年4月27 歐洲通過《通用數(shù)據(jù)保護條例》,并于2018年5月25日正式生效?!稐l例》為歐盟公民帶來了一套新的隱私權(quán)利。
它規(guī)定,歐盟消費者將有權(quán)知道自己的哪些數(shù)據(jù)被社交媒體公司保存了下來,并有權(quán)要求刪除這些數(shù)據(jù)。新規(guī)實施以后,違規(guī)公司最高可能面臨全球年收入4%的巨額罰款。
但是健全的法律體系保護數(shù)據(jù)的隱私固然重要,可是也造成了一些意想不到的后果。隱私法規(guī)的問題在于:它限制了組織對數(shù)據(jù)的處理方式,限制各個領(lǐng)域的協(xié)作,對經(jīng)濟產(chǎn)生了不利影響,畢竟分工和協(xié)作才是人類進步的根源。
另一方面,個人信息保護相關(guān)法律的出臺直接影響與數(shù)據(jù)產(chǎn)業(yè)相關(guān)的公司業(yè)務。例如由于于“通用數(shù)據(jù)保護條例”的提出,QQ國際版于2018年的5月20日后不再為歐洲用戶提供服務,QQ國際版本退出了歐洲市場。
Google也因違反反壟斷法,被歐盟要求課以史上最貴27億美元罰金。當時谷歌CEO Sundar Pichai提出警示稱:由于裁決,安卓可能不再免費,可能分配模式會變成像它的競爭對手蘋果一樣。也就是說,相關(guān)數(shù)據(jù)安全保護措施的出臺,使得有些服務我們沒有辦法享受到了。
所以,歐洲監(jiān)管了,結(jié)果Google被罰,騰訊跑了。法律的出臺必然會在某種程度上促進社會和行業(yè)的發(fā)展,遵守法律和提供更好的服務不是不可兼得的事情。那么除了監(jiān)管,還有別的方式來實現(xiàn)共贏么?
(雷鋒網(wǎng))
當前出臺的法規(guī)顯然沒有考慮到數(shù)字經(jīng)濟環(huán)境下的協(xié)作機會。
2018年5月美國國立衛(wèi)生研究院(National Institutes Of Health)關(guān)于2型糖尿病的研究暫停。原因是這項研究包括芬蘭的健康記錄,根據(jù)GDPR,歐盟的法律不允許再向美國研究人員提供這些記錄。隱私得到了保護,合作者沒有得到分享的數(shù)據(jù),大規(guī)模數(shù)據(jù)集沒有得到有效利用,醫(yī)療技術(shù)無法進步。
最終付出代價的患者有可能等不到新技術(shù)的出現(xiàn),從而喪失生命。如果由于數(shù)據(jù)隱私法規(guī)而無法進行合作,從而阻礙我們進步,那么我們的未來是否會發(fā)生倒退?會不會使得企業(yè)因為監(jiān)管喪失知識交流的能力?如果因為數(shù)據(jù)隱保護,合作、交流受到了限制。那么我們口中的效率、增長、科學發(fā)現(xiàn)以及重大科研創(chuàng)新都可能受到阻礙。
(雷鋒網(wǎng))
幸好,上帝為我們關(guān)閉了一扇窗,就在另一個方向打開了一扇窗。同態(tài)加密(Homomorphic encryption)作為一種新的隱私增強技術(shù)出現(xiàn)了。這種技術(shù)可以使組織者無需信任就可以進行協(xié)作。
同態(tài)加密理論在 1978 年首次推出,被認為是密碼學領(lǐng)域的圣杯之一,自其出生以來就像傳奇一樣遙不可及;直到2009年,IBM的研究人員Gentry才首次設計出一個真正的全同態(tài)加密體制,即可以在不解密的條件下對加密數(shù)據(jù)進行任何可以在明文上進行的運算,使得對加密信息仍能進行深入和無限的分析,而不會影響其保密性。
翻譯成“中文”就是:加密算法可以隔著加密層去進行運算。經(jīng)過這一突破,存儲他人機密電子數(shù)據(jù)的服務提供商就能受用戶委托來充分分析數(shù)據(jù),不用頻繁地與用戶交互,也不必看到任何隱私數(shù)據(jù)。即人們可以委托第三方對數(shù)據(jù)進行處理而不泄露信息。
具體而言,使用同態(tài)加密模型,可以保護隱私不受數(shù)據(jù)處理者身的影響:無法查看正在處理的個人詳細信息,只能看到處理的最終結(jié)果。企業(yè)可以對他們收集的數(shù)據(jù)感到更加安全。特別是云計算可以從同態(tài)加密方案中受益,因為它們可以運行計算而無需訪問原始未加密的數(shù)據(jù)。
在上述提到的糖尿病研究暫停的情況下,同態(tài)加密的使用可以緩解高度敏感數(shù)據(jù)共享的安全問題,并促進重大疾病方面取得寶貴進展。在網(wǎng)絡安全的世界中,可以將“攻擊的數(shù)據(jù)”與相應的組織和政府共享,從而能夠在保護數(shù)據(jù)的機密性的同時,不會違反數(shù)據(jù)保護法規(guī)。
同態(tài)加密的運算效率最近取得了重大提升,所以聯(lián)邦學習就變成可以解決隱私,同時又可以解決小數(shù)據(jù)、數(shù)據(jù)孤島問題的利器。聯(lián)邦學習的概念最初由谷歌在2016年提出,在中國,香港科技大學講席教授、微眾銀行首席人工智能官(CAIO)楊強教授算是聯(lián)邦學習研究第一人。
聯(lián)邦學習可以讓參與各方在不披露底層數(shù)據(jù)的前提下共建模型,之后利用整個數(shù)據(jù)聯(lián)邦內(nèi)的數(shù)據(jù)資源,提高每個成員的模型表現(xiàn)。通俗來說,深度學習時代,每個AI企業(yè)的技術(shù)能力是單打獨斗式的;而聯(lián)邦學習的出現(xiàn),更為緊密、安全地將各個AI企業(yè)聯(lián)系在了一起,聯(lián)邦中的每個成員都可以用最快的速度提升自身能力的同時汲取別人的長處,最終獲得共同成長。
譬如A廠商有校園數(shù)據(jù)、B廠商有工廠數(shù)據(jù)、C廠商有社區(qū)數(shù)據(jù),且這三家廠商都使用了聯(lián)邦學習技術(shù)。從業(yè)務層面出發(fā),A、B、C這三家廠商便直接獲得了兩種能力:1、最快速地優(yōu)化自身業(yè)務;2、最快速地拓展新業(yè)務。
最快速地優(yōu)化自身業(yè)務表現(xiàn)在,平臺每天會有若干個類似A廠商的企業(yè)向平臺輸入加密后的數(shù)據(jù)模型,而這些數(shù)據(jù)模型中有A廠商非常缺乏的其他數(shù)據(jù)信息,而A廠商便可根據(jù)這些數(shù)據(jù)去更新自己的算法模型。
最快速地拓展新業(yè)務表現(xiàn)在,A、B、C每家廠商都有各自構(gòu)建好的模型,通過匯總?cè)サ玫礁蟮臄?shù)據(jù)模型,在不流通數(shù)據(jù)的情況下得到數(shù)據(jù)流通的最好效果,通過資源互補可以在最短時間內(nèi)安全地獲得對方的能力,去拓展新業(yè)務。
從隱私保護層面來看,通常智能攝像頭產(chǎn)生的數(shù)據(jù)會被上傳到后臺服務器中,然后由部署在服務器上的神經(jīng)網(wǎng)絡模型根據(jù)收集到的大量數(shù)據(jù)進行訓練得到一個模型,服務商根據(jù)這個模型來為用戶提供服務。這是一種集中式的模型訓練方法,這種方式很難保證數(shù)據(jù)隱私安全。
而聯(lián)邦學習就不再是讓數(shù)據(jù)發(fā)送到后臺,而是在每個企業(yè)自己的服務器上進行訓練,并加密上傳訓練模型,后臺會綜合成千上萬的用戶模型后再反饋給用戶改進方案。
相較傳統(tǒng)學習模式,聯(lián)邦學習的優(yōu)點是顯而易見的:1、在聯(lián)邦學習的框架下,各參與者地位對等,能夠?qū)崿F(xiàn)公平合作;2、數(shù)據(jù)保留在本地,避免數(shù)據(jù)泄露,滿足用戶隱私保護和數(shù)據(jù)安全的需求;3、能夠保證參與各方在保持獨立性的情況下,進行信息與模型參數(shù)的加密交換,并同時獲得成長;4、建模效果與傳統(tǒng)深度學習算法建模效果相差不大;5、聯(lián)邦學習是一個閉環(huán)的學習機制,模型效果取決于數(shù)據(jù)提供方的貢獻。
在傳統(tǒng)的方法下,用戶只是人工智能的旁觀者——使用,但沒有參與;而在聯(lián)邦學習場景下,每個人都是“馴龍高手”,每個人都是人工智能發(fā)展的參與者。
綜上所述,現(xiàn)在是圍繞信息共享進行范式轉(zhuǎn)變的時候了。當可以不暴露而共享信息,不暴露就可以分析信息時,我們無需為了信任而忍痛放棄協(xié)作。當在數(shù)據(jù)共享下的協(xié)作變的頻繁,我們的想象力可以再次釋放,那么一些重大問題的解決只是時間的問題。
參考來源:
https://www.weforum.org/agenda/2020/01/new-paradigm-data-sharing/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。