0
雷鋒網(wǎng) AI 科技評論按:歐盟于 2018 年 5 于 25 日出臺數(shù)據(jù)保護條例 GDPR,隨之在數(shù)據(jù)科學(xué)領(lǐng)域引起了廣泛的討論,這是因為嚴格的數(shù)據(jù)條例,將對數(shù)據(jù)科學(xué)項目,尤其是機器學(xué)習(xí)領(lǐng)域產(chǎn)生巨大的影響。
目前,隨著技術(shù)的進步,機器學(xué)習(xí)也在飛速發(fā)展,全球?qū)@一領(lǐng)域的投資也日益增加,機器學(xué)習(xí)正在迅速成為企業(yè)數(shù)據(jù)科學(xué)的趨勢。而隨著嚴格的 GDPR 問世,對機器學(xué)習(xí)究竟會產(chǎn)生哪些影響?如何在 GDPR 的限制下繼續(xù)數(shù)據(jù)科學(xué)及其研發(fā)項目?
剛剛頒布的 GDPR 還沒有全面生效,大家對于如何執(zhí)行這一法規(guī)的認識還是模糊的,仍在不斷摸索中,但GDPR 帶來的關(guān)鍵問題和挑戰(zhàn)已逐漸顯現(xiàn)。數(shù)據(jù)管理平臺 Immutable 的首席隱私官與法律工程師 Andrew Burt 撰寫了一篇文章,一一解釋了自己公司受到的關(guān)于對機器學(xué)習(xí)影響的三大問題。雷鋒網(wǎng) AI 科技評論把相關(guān)內(nèi)容編譯如下。
當(dāng)然不是。即使是 GDPR 生效后,在歐盟,機器學(xué)習(xí)也不會被禁止。但是,不可避免地,此后機器學(xué)習(xí)的應(yīng)用都會涉及沉重的合規(guī)問題。
根據(jù)法規(guī)的要求,GDPR 將全面禁止沒有人為干預(yù)、并會對數(shù)據(jù)主體產(chǎn)生重大影響的自動化決策。值得注意的是,GDPR 適用于所有使用了歐盟數(shù)據(jù)的情況,這些數(shù)據(jù)可能都能夠辨識出一個數(shù)據(jù)主體,而對于使用了大量數(shù)據(jù)的數(shù)據(jù)科學(xué)計劃,這意味著 GDPR 將適用于其所有的活動。
GDPR 對于「自動化決策」的定義是指,在沒有人為直接參與的情況下自動作出決策的模型。這包括了對數(shù)據(jù)主體的自動「用戶畫像分析」,例如將用戶分類為「潛在客戶」或「40-50 歲男性」,以確定貸款申請人是否有資格獲得貸款。
因此,鑒別機器學(xué)習(xí)模型是否是屬于「自動化決策」,首先是看模型是否是在沒有人為干預(yù)的情況下自動部署的,如果是,那么這樣的模型默認為是被禁止的。而事實上,大量的機器學(xué)習(xí)模型都是這種情況。盡管許多律師和數(shù)據(jù)科學(xué)家反對過這一點,但參與起草和解釋 GDPR 的歐盟官方——第 29 工作組對于這一條解釋就是如此。
GDPR 禁止機器學(xué)習(xí)了嗎?,「禁止」這一詞很具誤導(dǎo)性。禁止自動化決策是可以存在特例的,使用「禁止」這一詞太過強硬了。一旦 GDPR 生效,數(shù)據(jù)科學(xué)家應(yīng)該期望的是,機器學(xué)習(xí)的大部分應(yīng)用仍還可以實現(xiàn),只是增加了他們不能忽視的合規(guī)負擔(dān)。
下面會詳述「禁止」以外的特例。
GDPR 法規(guī)明確了使用自主決策合法的三個領(lǐng)域:
在簽訂了合同的情況下,數(shù)據(jù)處理是必要的;
其他法律另行授權(quán)的情況;
數(shù)據(jù)主體明確同意的情況。
事實上,最后一條是較為符合實際的,解決這一禁令的常用方法,就是數(shù)據(jù)主體明確允許他們的數(shù)據(jù)可以被模型使用。但是,讓數(shù)據(jù)主體同意并不容易。數(shù)據(jù)主體可以同意許多不同類型的數(shù)據(jù)處理,并且他們也可以在任何時候撤銷同意,這意味著在數(shù)據(jù)的使用上,需要精細化地管理數(shù)據(jù)主體對于數(shù)據(jù)使用的同意,允許數(shù)據(jù)主體選擇不同類型的同意,動態(tài)(允許數(shù)據(jù)主體撤銷同意)以及要提供足夠的用戶友好性,即讓數(shù)據(jù)主體有能力理解他們的數(shù)據(jù)如何被使用的 ,并且給予用戶控制數(shù)據(jù)使用的權(quán)力。
GDPR 并沒有完全禁止使用機器學(xué)習(xí)模型,但它會使得很多機器學(xué)習(xí)的模型及其輸入數(shù)據(jù)的部署和管理變得越來越困難。
關(guān)于 GDPR 對機器學(xué)習(xí)的影響,我最常聽到的問題之一,就是機器學(xué)習(xí)是否需要「可解釋性」。去年作者特意寫了一篇文章討論這個問題。
這個問題源于 GDPR 本身的條例有些模糊不清。
「可解釋性」這一點帶來的風(fēng)險是非常高的,可能會對企業(yè)數(shù)據(jù)科學(xué)產(chǎn)生巨大的影響。機器學(xué)習(xí)模型的復(fù)雜結(jié)構(gòu)賦予了其神奇的預(yù)測能力,想要把其內(nèi)在構(gòu)成解釋清楚是很困難的。
我們從 GDPR 條例的文本開始說。
在條例的第 13-15 條中,GDPR 一再聲明數(shù)據(jù)主體有權(quán)了解關(guān)于數(shù)據(jù)使用的「有意義的信息」和自動化決策帶來的「重要和可預(yù)見的后果」。然后,第 22 條中,GDPR 規(guī)定,只有在具備了上述影響類型的情況下,用戶才可以對決策提出反對。最后,第 71 條序言是該條例中包含的不具約束力一部分,它指出數(shù)據(jù)主體可以要求自動化決策給出合理的解釋,并且數(shù)據(jù)主體能夠質(zhì)疑這些決策??偠灾@三項規(guī)定給數(shù)據(jù)的使用帶來了更復(fù)雜的場景。
由于文本的模糊不清,歐盟監(jiān)管機構(gòu)可能以最嚴格的方式去解釋這些規(guī)定,例如要求機器學(xué)習(xí)的模型對內(nèi)部結(jié)構(gòu)做出完整解釋,但這樣的做法似乎是不合理的。
這些文本更恰當(dāng)?shù)慕忉尶赡苁?,?dāng)機器學(xué)習(xí)用于沒有人為干預(yù)下做決策時,以及當(dāng)這些決策對數(shù)據(jù)主體產(chǎn)生重大影響時,數(shù)據(jù)主體有權(quán)對正在發(fā)生的事情有基本的了解。 GDPR 中的“有意義的信息”和“可預(yù)見的后果”或許可以這樣解讀。歐盟監(jiān)管機構(gòu)可能會將重點放在數(shù)據(jù)主體有權(quán)就數(shù)據(jù)使用情況作出決策上,而對于數(shù)據(jù)使用的透明度,則可能會依據(jù)于模型及對應(yīng)的情況而定。
這也許是 GDPR 條例下最難回答的問題之一。換句話說,如果一個數(shù)據(jù)科學(xué)家使用某個數(shù)據(jù)主體的數(shù)據(jù)來訓(xùn)練模型,然后在這個模型中融入了新數(shù)據(jù),那么此前的數(shù)據(jù)主體對于之前用他們的數(shù)據(jù)訓(xùn)練出來的模型是否還有一定的權(quán)力?
據(jù)我所知,答案將是否定的,至少在實踐中是這樣的,只有非常少的特例。為了解釋更清楚,我先從這些特例說起。
在 GDPR 下,所有數(shù)據(jù)的使用都需要在法律的允許下進行,GDPR 第 6 條規(guī)定了六項對應(yīng)的法律依據(jù)。其中有兩個最重要的「合法權(quán)益」的依據(jù),并且數(shù)據(jù)主體明確同意使用該數(shù)據(jù)。這種情況下,當(dāng)處理數(shù)據(jù)是依據(jù)于數(shù)據(jù)主體的同意時,數(shù)據(jù)主體將仍保留對該數(shù)據(jù)的重要控制權(quán),這意味著他們可以隨時撤回同意,處理該數(shù)據(jù)的合法性將不再存在。
因此,如果組織從數(shù)據(jù)主體收集數(shù)據(jù),數(shù)據(jù)主體同意將他們的數(shù)據(jù)用于訓(xùn)練特定的模型,但隨后又撤回同意,何時數(shù)據(jù)主體可以強制模型重新訓(xùn)練新數(shù)據(jù)?
答案是只有當(dāng)該模型繼續(xù)使用該數(shù)據(jù)主體的數(shù)據(jù)時才可以。
正如 29 工作組所指出的那樣,即使數(shù)據(jù)主體撤銷了同意,撤銷前所發(fā)生的所有的處理仍然是合法的。因此,如果數(shù)據(jù)被合法地用于創(chuàng)建模型或預(yù)測,那么無論這些數(shù)據(jù)的產(chǎn)出是什么,都是可以被保留的。事實上,一旦用一組訓(xùn)練數(shù)據(jù)創(chuàng)建了模型,那么訓(xùn)練數(shù)據(jù)的刪除和修改都不會影響到之前的模型。
但是,一些研究表明,模型可能會保留關(guān)于訓(xùn)練數(shù)據(jù)的信息,即使在訓(xùn)練數(shù)據(jù)被刪除之后,仍然可以通過模型找到原始數(shù)據(jù),正如研究人員 Nicolas Papernot 等人寫的一樣(模型的隱私性問題,參見這篇文章)。這意味著在某些情況下,保留訓(xùn)練模型而刪除原有數(shù)據(jù),不能保證在以后原有數(shù)據(jù)不會被重現(xiàn),或者說在某些情況下,原有數(shù)據(jù)還是仍可能在使用的。
但是從模型中復(fù)原原有的訓(xùn)練數(shù)據(jù)有多大可能呢?幾乎是不可能的。
目前所知,這種研究只在學(xué)術(shù)環(huán)境中進行,企業(yè)的數(shù)據(jù)科學(xué)與學(xué)術(shù)環(huán)境相差甚遠。正是由于這個原因,作者不認為模型會因為受到數(shù)據(jù)主體的要求而重新訓(xùn)練。雖然這在理論上是可能的,但已經(jīng)是非常邊緣的特例了,只有在特定情況下特例發(fā)生之后,監(jiān)管機構(gòu)和數(shù)據(jù)科學(xué)家才需要去處理。
盡管如此,所有這些問題都存在大量的細微差別,未來這些細微差別一定會出現(xiàn)。GDPR 有 99 條正文和173 條引言,注定是非常長且復(fù)雜的法規(guī),并且隨著時間的推移變得更加復(fù)雜。
但是,至少有一點是明確的:要感謝 GDPR,在未來的大規(guī)模數(shù)據(jù)科學(xué)計劃中,律師和專門負責(zé)處理隱私的工程師將會成為數(shù)據(jù)科學(xué)計劃的核心成員。
via www.oreilly.com,雷鋒網(wǎng) AI 科技評論編譯
相關(guān)文章:
意想不到的盟友:改善隱私問題可以帶來表現(xiàn)更好的機器學(xué)習(xí)模型
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。