0
本文作者: 李雨晨 | 2020-01-02 11:18 |
(圖片來源:venturebeat)
雷鋒網(wǎng)按:本文譯自venturebeat,作者Kyle Wiggers
人工智能有希望改變(事實上已經(jīng)改變了)現(xiàn)有的一些行業(yè),但隱私問題仍是一個懸而未決的挑戰(zhàn)。
此前,英國的NHS基金會被曝出,在沒有經(jīng)過160萬名患者的同意下公布了DeepMind的數(shù)據(jù)。但是,從全世界范圍來看,數(shù)據(jù)隱私尤其是醫(yī)療數(shù)據(jù)的隱私保護(hù)問題,并不是一個新鮮的話題。
去年11月,Google與Ascension的健康數(shù)據(jù)共享合作伙伴關(guān)系成為了審查的對象,該公司放棄了公布胸部X光掃描圖的計劃,原因是擔(dān)心這些掃描圖中含有個人身份信息。
去年夏天,微軟悄悄地刪除了一個擁有超過1000萬張用戶圖片的數(shù)據(jù)集(MS Celeb),此前有消息稱,這些人并不知道他們被包括在內(nèi)。
另外,一些報告揭露了包括蘋果和谷歌在內(nèi)的科技巨頭為改進(jìn)Siri和Google Assistant等可能非法使用收集的錄音。今年4月,Bloomberg披露,亞馬遜雇傭合同工對Alexa供電設(shè)備數(shù)千小時的音頻進(jìn)行注釋,促使亞馬遜推出面向用戶的工具來快速刪除云存儲的數(shù)據(jù)。
隱私不僅僅是一個倫理問題,而且是商業(yè)過程中的博弈。美國的州、地方和聯(lián)邦各級的法律旨在將隱私權(quán)作為法規(guī)管理的強(qiáng)制性內(nèi)容。美國50個州、地區(qū)和哥倫比亞特區(qū),數(shù)百項涉及隱私、網(wǎng)絡(luò)安全和數(shù)據(jù)泄露的法案正在等待或已經(jīng)通過。
可以說,其中最全面的一項——《加州消費者隱私法》——大約在兩年前已成為法律,這還不包括《健康保險可攜帶性和責(zé)任法案》(HIPAA)。該法案要求公司在披露個人健康信息之前必須獲得授權(quán)。而像歐盟一般隱私數(shù)據(jù)保護(hù)條例(GDPR)這樣的國際規(guī)定,其目的在于讓消費者對個人數(shù)據(jù)的收集和使用有更大的控制權(quán)。
回顧人工智能技術(shù)的發(fā)展歷史,我們可以看到,隱私問題并沒有被當(dāng)成一把懸在頭上的“達(dá)摩克利斯之劍”。但是機(jī)器學(xué)習(xí)的一個分支——保護(hù)隱私的機(jī)器學(xué)習(xí)——試圖探索可能防止個人識別數(shù)據(jù)泄露的方法。而聯(lián)邦學(xué)習(xí)、微分隱私和同態(tài)加密被認(rèn)為是最有前景的三種技術(shù)。
大多數(shù)人工智能系統(tǒng)的核心是神經(jīng)網(wǎng)絡(luò),它由層層排列的功能神經(jīng)元組成,神經(jīng)元將信號傳遞給其他神經(jīng)元。這些信號輸入到網(wǎng)絡(luò)中,從一層傳遞到另一層,并緩慢地“調(diào)整”網(wǎng)絡(luò),實際上調(diào)整了每個連接的突觸強(qiáng)度(權(quán)重)。隨著時間的推移,網(wǎng)絡(luò)從數(shù)據(jù)集中提取特征并識別交叉樣本,最終做出預(yù)測。
神經(jīng)網(wǎng)絡(luò)不會直接處理原始圖像、視頻、音頻或文本。訓(xùn)練語料庫中的樣本通過數(shù)學(xué)轉(zhuǎn)換成多維數(shù)組,如標(biāo)量(單個數(shù)字)、向量(標(biāo)量的有序數(shù)組)和矩陣(標(biāo)量排列成一列或多列和一行或多列)。第四種實體類型,封裝標(biāo)量、向量和矩陣形成張量添加到有效線性轉(zhuǎn)換(或關(guān)系)中。
盡管存在這些轉(zhuǎn)換,但通??梢詮纳窠?jīng)網(wǎng)絡(luò)的輸出中識別出敏感信息,數(shù)據(jù)集本身也易受攻擊,因為它們通常不會被打亂,而且存儲在易受數(shù)據(jù)泄露攻擊的集中存儲庫中。
到目前為止,最常見的機(jī)器學(xué)習(xí)逆向工程為成員推斷攻擊,攻擊者使用單個數(shù)據(jù)點或多個數(shù)據(jù)點來確定它是否屬于訓(xùn)練目標(biāo)模型的語料庫。事實證明,從數(shù)據(jù)集中刪除敏感信息并不意味著無法重新推斷,因為人工智能特別擅長重新創(chuàng)建樣本。除非使用隱私保護(hù)技術(shù),訓(xùn)練后的模型包含了所有訓(xùn)練集的信息。
Wisconsin大學(xué)和Marshfield臨床研究學(xué)會的研究人員能夠從一個被訓(xùn)練用于預(yù)測藥物劑量機(jī)器學(xué)習(xí)模型中提取患者的基因組信息。
而在另一項研究中,卡內(nèi)基梅隆大學(xué)和Wisconsin-Madison大學(xué)的研究人員成功地從用來進(jìn)行面部識別的訓(xùn)練模型中重建了頭部拍攝圖像。
一個更復(fù)雜的數(shù)據(jù)提取攻擊方法使用生成性對抗網(wǎng)絡(luò),或GANs,由兩部分人工智能系統(tǒng)組成,分別是生成樣本的生成器和區(qū)分生成樣本和真實樣本的鑒別器組成。他們被訓(xùn)練生成與原始語料庫中的樣本非常相似的樣本,而無需接觸原始樣本,并通過與有辨別力的深層神經(jīng)網(wǎng)絡(luò)交互來學(xué)習(xí)數(shù)據(jù)的分布。
2017年,研究人員證明,GANs可以被訓(xùn)練來產(chǎn)生私有數(shù)據(jù)集集的原始樣本,從中揭示敏感信息。在另一項研究中,一個團(tuán)隊使用GANs來推斷用于訓(xùn)練圖像生成機(jī)器學(xué)習(xí)模型的樣本,在“白盒”設(shè)置中,他們可以訪問目標(biāo)模型的參數(shù)(例如AI技術(shù)用來擬合數(shù)據(jù)的變量),成功率高達(dá)100%。
幸運的是,像聯(lián)邦學(xué)習(xí)和微分隱私這樣的方法是有希望保護(hù)數(shù)據(jù)隱私的。
聯(lián)邦學(xué)習(xí)是今年AI領(lǐng)域的熱詞之一,多位學(xué)術(shù)大咖和企業(yè)界的研究者都對這種方法表示看好。
簡單地說,聯(lián)邦學(xué)習(xí)是一種采用分布式設(shè)備或服務(wù)器(即節(jié)點)訓(xùn)練人工智能算法的技術(shù),這些設(shè)備或服務(wù)器保存數(shù)據(jù)樣本,而不交換這些樣本,使各個節(jié)點能夠在不共享數(shù)據(jù)的情況下構(gòu)建通用的機(jī)器學(xué)習(xí)模型。這與傳統(tǒng)的分布式方法不同,后者假設(shè)本地數(shù)據(jù)樣本分布廣泛。
中央服務(wù)器可用于安排算法的執(zhí)行步驟并充當(dāng)參考時鐘,或者執(zhí)行步驟可能是對等的(在這種情況下,不存在中央服務(wù)器)。不管怎樣,局部模型都是在局部數(shù)據(jù)樣本上訓(xùn)練的,并且在模型之間以一定的頻率交換權(quán)值以生成全局模型。
這是一個迭代過程,被分解成一組聯(lián)合學(xué)習(xí)輪次的交互,其中每輪都將當(dāng)前全局模型狀態(tài)傳輸?shù)絽⑴c節(jié)點。在節(jié)點上訓(xùn)練局部模型,每個節(jié)點上生成一組可能的模型更新,然后將局部更新聚合并處理為單個全局更新,并應(yīng)用于全局模型。
谷歌最早探索了聯(lián)邦學(xué)習(xí)的方法,并且已經(jīng)將其部署到生產(chǎn)中。雷鋒網(wǎng)了解到,谷歌在其“數(shù)千萬”iOS和Android設(shè)備的Gboard預(yù)測鍵盤中使用它進(jìn)行個性化。在Pixel4發(fā)布的同時,谷歌推出了一個改進(jìn)版的“正在播放的音樂識別”功能,該功能以聯(lián)合方式聚合歌曲的播放次數(shù),按地區(qū)識別最受歡迎的歌曲,以提高識別率。
據(jù)雷鋒網(wǎng)了解,谷歌最近推出了一個名為TensorFlow federed的TensorFlow機(jī)器學(xué)習(xí)框架模塊,該模塊旨在更容易在分布式數(shù)據(jù)上進(jìn)行深度學(xué)習(xí)和其他計算。
當(dāng)然,沒有哪種技術(shù)是完美的;聯(lián)邦學(xué)習(xí)需要在學(xué)習(xí)過程中進(jìn)行節(jié)點間頻繁的通信。為了使機(jī)器學(xué)習(xí)模型能夠交換參數(shù),它們需要大量的處理能力和內(nèi)存。其他挑戰(zhàn)包括無法檢查訓(xùn)練示例,以及由于人工智能模型僅在供電和傳輸參數(shù)方法可用時才能訓(xùn)練造成的偏差。
聯(lián)邦學(xué)習(xí)與微分隱私密切相關(guān),微分隱私是一種通過描述語料庫中組的模式而公開共享數(shù)據(jù)集信息的系統(tǒng),同時保留個人的數(shù)據(jù)。它通常需要在原始數(shù)據(jù)輸入到本地機(jī)器學(xué)習(xí)模型之前向其注入少量噪聲,這樣竊取數(shù)據(jù)者就很難從訓(xùn)練模型中提取原始數(shù)據(jù)。
直觀地說,如果一個觀察者看不到某個特定個體的信息是否被用于計算,那么這個算法可以被認(rèn)為是微分隱私的。微分隱私的聯(lián)合學(xué)習(xí)過程允許節(jié)點共同學(xué)習(xí)一個模型,同時隱藏任何節(jié)點所持有的數(shù)據(jù)。
開源的TensorFlow庫TensorFlow Privacy基于微分隱私方法。具體地說,它使用改進(jìn)的隨機(jī)梯度下降方法來調(diào)參,該梯度下降將訓(xùn)練數(shù)據(jù)引起的多個更新平均起來,剪切每個更新,并將噪聲添加到最終平均值。
這就防止了對少數(shù)細(xì)節(jié)的記憶,并更加保險,即兩種機(jī)器學(xué)習(xí)模型無法區(qū)分一個人的數(shù)據(jù)是否用于他們的訓(xùn)練。
自2017年以來,蘋果一直在使用微分隱私來識別流行的表情符號、Safari中的媒體播放偏好等,該公司在最新的移動操作系統(tǒng)版本(iOS 13)中將其與聯(lián)邦學(xué)習(xí)相結(jié)合。這兩種技術(shù)都有助于改善Siri的結(jié)果,以及蘋果QuickType鍵盤和iOS等應(yīng)用程序的apps功能。后者掃描日歷和郵件應(yīng)用程序以查找聯(lián)系人和呼叫者的姓名,這些聯(lián)系人和呼叫者的號碼不存儲在本地。
Nvidia和倫敦國王學(xué)院的研究人員最近利用聯(lián)邦學(xué)習(xí)訓(xùn)練了一種用于腦腫瘤分割的神經(jīng)網(wǎng)絡(luò),Nvidia聲稱這是醫(yī)學(xué)圖像分析的第一個里程碑。他們的模型使用了來自BraTS(多模式腦腫瘤分割)挑戰(zhàn)的285名腦腫瘤患者數(shù)據(jù)集,與Google和Apple采取的方法一樣,該模型利用微分隱私為該數(shù)據(jù)庫添加噪音。
Nvidia高級研究員Nicola Rieke在之前的一次采訪中說到:“通過這樣的方式每個參與節(jié)點存儲更新,并限制我們在機(jī)構(gòu)之間實際共享的信息的粒度?!比绻?0%或60%模型進(jìn)行更新,我們還能以全局模型聚合的方式合并更新嗎?我們發(fā)現(xiàn)“是的,我們可以。”這真是振奮人心的結(jié)果。甚至只共享模型的10%,也可以聚合模型。”
當(dāng)然,微分隱私也不是完美的。注入底層數(shù)據(jù)、輸入、輸出或參數(shù)中的任何噪聲都會影響整個模型的性能。在一項研究中,在訓(xùn)練數(shù)據(jù)集中加入噪聲后,作者注意到預(yù)測精度從94.4%下降到24.7%。另一種保護(hù)隱私的機(jī)器學(xué)習(xí)技術(shù)——同態(tài)加密——沒有這些缺點,但它離完美也還很遠(yuǎn)。
同態(tài)加密并不是什么新鮮事,IBM研究員克雷格·根特里(Craig Gentry)在2009年開發(fā)了第一個方案。
但近年來,隨著計算能力和效率的提高,同態(tài)加密得到了廣泛的應(yīng)用。它本質(zhì)上是一種密碼學(xué)形式,允許對使用算法加密的明文(文件內(nèi)容),也稱為密文,進(jìn)行計算,使生成的加密結(jié)果與對未加密文本執(zhí)行的操作結(jié)果完全匹配。
使用這種技術(shù),一個“加密網(wǎng)”(例如,任何可以應(yīng)用于加密數(shù)據(jù)的學(xué)習(xí)神經(jīng)網(wǎng)絡(luò))可以對數(shù)據(jù)執(zhí)行計算,并將加密結(jié)果返回給某個客戶端,然后客戶端可以使用加密密鑰(不公開共享)來解密返回的數(shù)據(jù)并獲得實際結(jié)果。
英特爾物聯(lián)網(wǎng)集團(tuán)副總裁Jonathan Ballon今年早些時候接受VentureBeat 采訪時說:“如果發(fā)送核磁共振圖像,我希望我的醫(yī)生能夠立即看到,但其他人看不到。“
同態(tài)加密可以做到這一點。此外,模型本身也是加密的。所以公司可以把這個模型放在公共云上,而云提供商不知道他們的模型是什么樣子的?!皩嶋H上,同態(tài)加密庫還沒有充分利用現(xiàn)代硬件,而且至少比傳統(tǒng)模型慢一個數(shù)量級。但是像cuHE這樣的新項目,一個加速的加密庫,聲稱在各種加密任務(wù)上比以前實現(xiàn)快12到50倍的加速。
此外,像PySyft和tf-encrypted這樣的圖書館——它們分別建立在Facebook的PyTorch和TensorFlow機(jī)器學(xué)習(xí)框架上——在最近幾個月取得了長足的進(jìn)步。有像HE Transformer這樣的抽象層,它是nggraph(Intel's neural network compiler)的后端,可以在一些密碼網(wǎng)絡(luò)上提供領(lǐng)先的性能。
事實上,就在幾個月前,英特爾的研究人員提出了nGraph-HE2,它是HE-Transformr 的繼承者,它可以利用自身的激活函數(shù)對標(biāo)準(zhǔn)的、預(yù)先訓(xùn)練的機(jī)器學(xué)習(xí)模型進(jìn)行推理。他們在一篇論文中報告說,其運行時標(biāo)量編碼(將一個數(shù)值編碼成一個比特數(shù)組)的速度要快3倍到88倍,吞吐量要翻一番,此外,額外的乘法和加法優(yōu)化使運行時的速度進(jìn)一步提高了2.6倍至4.2倍。
IBM高級研究科學(xué)家Flavio Bergamaschi研究了使用邊緣硬件實現(xiàn)同態(tài)加密操作的方法。
在最近的一項研究中,他和同事在一個裝備了人工智能攝像頭的設(shè)備上部署了一個本地同態(tài)數(shù)據(jù)庫,使得搜索能夠直接在該攝像頭上進(jìn)行。他們報告說,這是“同態(tài)加速”的性能,每個數(shù)據(jù)庫條目的查找僅需1.28秒,這相當(dāng)于5分鐘內(nèi)查詢200條條目。
他在最近的一次電話采訪中表示:“我們正處于性能轉(zhuǎn)折點。目前完全同態(tài)加密在性能上足夠快,足夠滿足某些用例?!?/p>
在生產(chǎn)方面,Bergamaschi和他的團(tuán)隊與一個美國銀行客戶合作,使用同態(tài)技術(shù)對機(jī)器學(xué)習(xí)過程進(jìn)行加密。這個機(jī)器學(xué)習(xí)過程是一個線性回歸模型,有十幾個變量,分析了24個月當(dāng)前賬戶持有人的交易數(shù)據(jù),以預(yù)測這些賬戶的財務(wù)狀況,部分原因是為了推薦貸款等產(chǎn)品。
出于客戶的隱私和遵從性的考慮,IBM團(tuán)隊加密了現(xiàn)有模型和所使用的事務(wù)數(shù)據(jù),并且他們使用加密和未加密的模型進(jìn)行預(yù)測以比較性能。雖然前者跑得比后者慢,但準(zhǔn)確度是一樣的。
“這是很重要的一點。如果我們沒有任何預(yù)測模型,我們可以獲取交易數(shù)據(jù),并在運營中執(zhí)行新模型的訓(xùn)練?!盉ergamaschi說。
對同態(tài)加密的研究熱情催生了一個將其引入商業(yè)的創(chuàng)業(yè)公司。
總部位于新澤西州紐瓦克的Duality Technologies最近得到了英特爾風(fēng)險投資部門的投資,將其同態(tài)加密平臺定位為“眾多”企業(yè)(尤其是被監(jiān)管行業(yè)中的企業(yè))的隱私保護(hù)解決方案。銀行可以跨機(jī)構(gòu)進(jìn)行隱私保護(hù)的金融犯罪調(diào)查,該公司的銷售宣傳也是如此,而科學(xué)家可以利用它來研究基于患者就醫(yī)記錄的問題。
但是像聯(lián)邦學(xué)習(xí)和微分隱私一樣,同態(tài)加密也不是沒有缺點的。即使是領(lǐng)先的技術(shù)也只能計算多項式函數(shù)——對于機(jī)器學(xué)習(xí)中許多非多項式的激活函數(shù)來說,這是一個非標(biāo)準(zhǔn)函數(shù)。另外,對加密數(shù)據(jù)的操作只能涉及整數(shù)的加法和乘法,這在學(xué)習(xí)算法需要浮點計算的情況下是一個挑戰(zhàn)。
巴倫說:“在你可以用10秒來進(jìn)行推斷的項目里,同態(tài)加密也可以,但是如果你今天只有3毫秒的周轉(zhuǎn)時間,那就沒有辦法了?!薄坝嬎懔刻?,這要追溯到工程領(lǐng)域?!?/p>
自2014年以來,Bergamaschi和他的同事們一直在試驗加速同態(tài)運算的硬件方法。從歷史上看,帶寬一直是最大的絆腳石——雖然加速器單獨產(chǎn)生了強(qiáng)大的基準(zhǔn)性能,但總體上并不能產(chǎn)生強(qiáng)大的系統(tǒng)性能。這是因為執(zhí)行操作所需的數(shù)據(jù)需要處理器和加速器之間的大量帶寬。
解決方案可能在于更有效地利用處理器上存儲的技術(shù)。韓國高級科學(xué)技術(shù)研究所的研究人員發(fā)表的一篇論文主張,對所有正常和安全的數(shù)據(jù)使用組合緩存,并對安全處理器和緩存插入模塊使用內(nèi)存調(diào)度和映射方案。
他們說,綜合起來,在典型的8核和16核安全處理器中,這兩種方法可以將加密性能的下降從25%-34%降低到8%-14%以下,同時將額外的硬件成本降到最低。
新技術(shù)或許可以解決人工智能和機(jī)器學(xué)習(xí)中固有的一些隱私問題,但它們還處于初級階段,并非沒有弱點。
聯(lián)邦學(xué)習(xí)在分布式服務(wù)器上訓(xùn)練算法,而不需要交換數(shù)據(jù)樣本,但是在功率、計算和互聯(lián)網(wǎng)的波動下很難檢查和控制。
微分隱私,在保存?zhèn)€人信息時暴露數(shù)據(jù)集的信息,由于注入噪聲而導(dǎo)致準(zhǔn)確性下降。
至于同態(tài)加密—一種允許對加密數(shù)據(jù)進(jìn)行計算的加密形式——它有點慢,計算量也很高。
不過,像巴倫這樣的人相信,這三種方法都是朝著正確方向邁出的一步。“這與從HTTP到HTTPS非常相似?!盉allon說,“總有一天,我們將擁有使機(jī)器學(xué)習(xí)中的隱私無懈可擊的工具和能力,但我們還沒有完全實現(xiàn)?!?span style="color: #FFFFFF;">雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。