0
本文作者: 奕欣 | 2017-01-22 18:53 |
2011 年微軟進行的一項調(diào)查顯示,有 94% 的用戶認為基于地理位置的服務(wù)具有價值。但是調(diào)查中也顯示,52% 的人也關(guān)注與使用地理位置數(shù)據(jù)有關(guān)的隱私問題。
我們在生活中使用 GPS、IP 地址及 Wi-Fi 獲取基于位置的服務(wù),實現(xiàn)實時導(dǎo)航、本地天氣、地理定位的功能,但在無形之中,它也泄露了我們的隱私。
此前數(shù)據(jù)科學(xué)家 Anthony Tockar 在西北大學(xué)讀研究生時,就采用可公開獲取的位置數(shù)據(jù),通過交叉參考公共新聞與照片,跟蹤位于紐約市的名人。
隱私問題已經(jīng)成為了研究界所關(guān)注的焦點,南洋理工大學(xué)的蕭小奎表示,「現(xiàn)在的計算能力與公開數(shù)據(jù)的規(guī)??梢允刮覀兏菀椎貜臄?shù)據(jù)中識別對方?!?/p>
雷鋒網(wǎng)消息,日前蕭教授與微軟亞洲研究院的謝幸博士已經(jīng)發(fā)現(xiàn)了一種可以緩解隱私問題的一種方式。這種名為 PrivTree 的數(shù)據(jù)操作技術(shù)能對地理位置數(shù)據(jù)進行預(yù)處理,以保障個人隱私。隨后,這些已經(jīng)進行過隱私處理的數(shù)據(jù)可以安全地應(yīng)用于任何預(yù)測分析,而不會對隱私造成進一步風(fēng)險。
PrivTree 的原理是通過數(shù)學(xué)方法的「模糊」(blurring) 對地理信息進行處理,但保持整個數(shù)據(jù)集的總體準(zhǔn)確性。以下圖為例,數(shù)據(jù)集里的個體在地圖上呈現(xiàn)各自的坐標(biāo)。
接下來,PrivTree 通過兩個步驟對地理位置信息進行模糊處理。
地圖分區(qū) (Map Partitioning),也就是基于數(shù)據(jù)點的密度,將圖片分割成若干區(qū)域。
位置擾動 (Location Perturbation),即采用統(tǒng)計分析方法,個體受擾動方案隨機被摸除、添加或混洗以保證隱私及統(tǒng)計的準(zhǔn)確性。在對每個子區(qū)域的應(yīng)用位置擾動后,新的地理位置數(shù)據(jù)庫最終形成。
這些新數(shù)據(jù)點遵循與原始數(shù)據(jù)類似分布,但每個個體的真實位置被掩蓋了。這些被處理過的數(shù)據(jù)可以做為 PrivTree 的數(shù)據(jù)釋出。而這個數(shù)據(jù)集能夠拓展為支持各類位置數(shù)據(jù)的應(yīng)用——比如你每天的慢跑路線會上傳到健康應(yīng)用程序。具體論文《PrivTree: A Differentially Private Algorithm for Hierarchical Decompositions》已經(jīng)被 ACM SIGMOD 2016 收錄。
蕭教授表示,「微軟亞洲研究院在管理海量地理位置數(shù)據(jù)上有著豐富經(jīng)驗,比如北京出租車數(shù)據(jù)等。這些數(shù)據(jù)能夠幫助我們開發(fā)測試我們的模型?!顾媱澾M一步將 PrivTree 技術(shù)集成到微軟基于位置的服務(wù)里,為用戶提供隱私保護。
「數(shù)據(jù)隱私是云計算時代所面臨的一個關(guān)鍵挑戰(zhàn),尤其是對于包含大量個人信息的用戶生成的位置數(shù)據(jù)。我們希望這項合作能夠為所有人建立一個更加安全的世界,」謝幸博士表示。
當(dāng)然,雷鋒網(wǎng)也同樣期待這項技術(shù)能早日應(yīng)用于實際領(lǐng)域。
via microsoft,雷鋒網(wǎng)編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。