0
本文作者: 奕欣 | 2017-01-22 18:53 |
2011 年微軟進行的一項調查顯示,有 94% 的用戶認為基于地理位置的服務具有價值。但是調查中也顯示,52% 的人也關注與使用地理位置數據有關的隱私問題。
我們在生活中使用 GPS、IP 地址及 Wi-Fi 獲取基于位置的服務,實現實時導航、本地天氣、地理定位的功能,但在無形之中,它也泄露了我們的隱私。
此前數據科學家 Anthony Tockar 在西北大學讀研究生時,就采用可公開獲取的位置數據,通過交叉參考公共新聞與照片,跟蹤位于紐約市的名人。
隱私問題已經成為了研究界所關注的焦點,南洋理工大學的蕭小奎表示,「現在的計算能力與公開數據的規(guī)模可以使我們更容易地從數據中識別對方?!?/p>
雷鋒網消息,日前蕭教授與微軟亞洲研究院的謝幸博士已經發(fā)現了一種可以緩解隱私問題的一種方式。這種名為 PrivTree 的數據操作技術能對地理位置數據進行預處理,以保障個人隱私。隨后,這些已經進行過隱私處理的數據可以安全地應用于任何預測分析,而不會對隱私造成進一步風險。
PrivTree 的原理是通過數學方法的「模糊」(blurring) 對地理信息進行處理,但保持整個數據集的總體準確性。以下圖為例,數據集里的個體在地圖上呈現各自的坐標。
接下來,PrivTree 通過兩個步驟對地理位置信息進行模糊處理。
地圖分區(qū) (Map Partitioning),也就是基于數據點的密度,將圖片分割成若干區(qū)域。
位置擾動 (Location Perturbation),即采用統(tǒng)計分析方法,個體受擾動方案隨機被摸除、添加或混洗以保證隱私及統(tǒng)計的準確性。在對每個子區(qū)域的應用位置擾動后,新的地理位置數據庫最終形成。
這些新數據點遵循與原始數據類似分布,但每個個體的真實位置被掩蓋了。這些被處理過的數據可以做為 PrivTree 的數據釋出。而這個數據集能夠拓展為支持各類位置數據的應用——比如你每天的慢跑路線會上傳到健康應用程序。具體論文《PrivTree: A Differentially Private Algorithm for Hierarchical Decompositions》已經被 ACM SIGMOD 2016 收錄。
蕭教授表示,「微軟亞洲研究院在管理海量地理位置數據上有著豐富經驗,比如北京出租車數據等。這些數據能夠幫助我們開發(fā)測試我們的模型?!顾媱澾M一步將 PrivTree 技術集成到微軟基于位置的服務里,為用戶提供隱私保護。
「數據隱私是云計算時代所面臨的一個關鍵挑戰(zhàn),尤其是對于包含大量個人信息的用戶生成的位置數據。我們希望這項合作能夠為所有人建立一個更加安全的世界,」謝幸博士表示。
當然,雷鋒網也同樣期待這項技術能早日應用于實際領域。
via microsoft,雷鋒網編譯
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。