解讀歐盟 GDPR，這將是企業(yè)級(jí)數(shù)據(jù)科學(xué)不容忽視的合規(guī)風(fēng)險(xiǎn)

本文作者：這只萌萌

編輯：楊曉凡

2018-06-27 15:24

導(dǎo)語(yǔ)：隨著嚴(yán)格的 GDPR 問(wèn)世，在數(shù)據(jù)科學(xué)領(lǐng)域引起了廣泛的討論，這一數(shù)據(jù)條例，將對(duì)數(shù)據(jù)科學(xué)項(xiàng)目，尤其是機(jī)器學(xué)習(xí)領(lǐng)域產(chǎn)生巨大的影響

雷鋒網(wǎng) AI 科技評(píng)論按：歐盟于 2018 年 5 于 25 日出臺(tái)數(shù)據(jù)保護(hù)條例 GDPR，隨之在數(shù)據(jù)科學(xué)領(lǐng)域引起了廣泛的討論，這是因?yàn)閲?yán)格的數(shù)據(jù)條例，將對(duì)數(shù)據(jù)科學(xué)項(xiàng)目，尤其是機(jī)器學(xué)習(xí)領(lǐng)域產(chǎn)生巨大的影響。

目前，隨著技術(shù)的進(jìn)步，機(jī)器學(xué)習(xí)也在飛速發(fā)展，全球?qū)@一領(lǐng)域的投資也日益增加，機(jī)器學(xué)習(xí)正在迅速成為企業(yè)數(shù)據(jù)科學(xué)的趨勢(shì)。而隨著嚴(yán)格的 GDPR 問(wèn)世，對(duì)機(jī)器學(xué)習(xí)究竟會(huì)產(chǎn)生哪些影響？如何在 GDPR 的限制下繼續(xù)數(shù)據(jù)科學(xué)及其研發(fā)項(xiàng)目？

剛剛頒布的 GDPR 還沒(méi)有全面生效，大家對(duì)于如何執(zhí)行這一法規(guī)的認(rèn)識(shí)還是模糊的，仍在不斷摸索中，但GDPR 帶來(lái)的關(guān)鍵問(wèn)題和挑戰(zhàn)已逐漸顯現(xiàn)。數(shù)據(jù)管理平臺(tái) Immutable 的首席隱私官與法律工程師 Andrew Burt 撰寫(xiě)了一篇文章，一一解釋了自己公司受到的關(guān)于對(duì)機(jī)器學(xué)習(xí)影響的三大問(wèn)題。雷鋒網(wǎng) AI 科技評(píng)論把相關(guān)內(nèi)容編譯如下。

問(wèn)題1：GDPR 是否會(huì)禁止機(jī)器學(xué)習(xí)？

當(dāng)然不是。即使是 GDPR 生效后，在歐盟，機(jī)器學(xué)習(xí)也不會(huì)被禁止。但是，不可避免地，此后機(jī)器學(xué)習(xí)的應(yīng)用都會(huì)涉及沉重的合規(guī)問(wèn)題。

根據(jù)法規(guī)的要求，GDPR 將全面禁止沒(méi)有人為干預(yù)、并會(huì)對(duì)數(shù)據(jù)主體產(chǎn)生重大影響的自動(dòng)化決策。值得注意的是，GDPR 適用于所有使用了歐盟數(shù)據(jù)的情況，這些數(shù)據(jù)可能都能夠辨識(shí)出一個(gè)數(shù)據(jù)主體，而對(duì)于使用了大量數(shù)據(jù)的數(shù)據(jù)科學(xué)計(jì)劃，這意味著 GDPR 將適用于其所有的活動(dòng)。

GDPR 對(duì)于「自動(dòng)化決策」的定義是指，在沒(méi)有人為直接參與的情況下自動(dòng)作出決策的模型。這包括了對(duì)數(shù)據(jù)主體的自動(dòng)「用戶畫(huà)像分析」，例如將用戶分類為「潛在客戶」或「40-50 歲男性」，以確定貸款申請(qǐng)人是否有資格獲得貸款。

因此，鑒別機(jī)器學(xué)習(xí)模型是否是屬于「自動(dòng)化決策」，首先是看模型是否是在沒(méi)有人為干預(yù)的情況下自動(dòng)部署的，如果是，那么這樣的模型默認(rèn)為是被禁止的。而事實(shí)上，大量的機(jī)器學(xué)習(xí)模型都是這種情況。盡管許多律師和數(shù)據(jù)科學(xué)家反對(duì)過(guò)這一點(diǎn)，但參與起草和解釋 GDPR 的歐盟官方——第 29 工作組對(duì)于這一條解釋就是如此。

GDPR 禁止機(jī)器學(xué)習(xí)了嗎？，「禁止」這一詞很具誤導(dǎo)性。禁止自動(dòng)化決策是可以存在特例的，使用「禁止」這一詞太過(guò)強(qiáng)硬了。一旦 GDPR 生效，數(shù)據(jù)科學(xué)家應(yīng)該期望的是，機(jī)器學(xué)習(xí)的大部分應(yīng)用仍還可以實(shí)現(xiàn)，只是增加了他們不能忽視的合規(guī)負(fù)擔(dān)。

下面會(huì)詳述「禁止」以外的特例。

GDPR 法規(guī)明確了使用自主決策合法的三個(gè)領(lǐng)域：

在簽訂了合同的情況下，數(shù)據(jù)處理是必要的；
其他法律另行授權(quán)的情況；
數(shù)據(jù)主體明確同意的情況。

事實(shí)上，最后一條是較為符合實(shí)際的，解決這一禁令的常用方法，就是數(shù)據(jù)主體明確允許他們的數(shù)據(jù)可以被模型使用。但是，讓數(shù)據(jù)主體同意并不容易。數(shù)據(jù)主體可以同意許多不同類型的數(shù)據(jù)處理，并且他們也可以在任何時(shí)候撤銷同意，這意味著在數(shù)據(jù)的使用上，需要精細(xì)化地管理數(shù)據(jù)主體對(duì)于數(shù)據(jù)使用的同意，允許數(shù)據(jù)主體選擇不同類型的同意，動(dòng)態(tài)（允許數(shù)據(jù)主體撤銷同意）以及要提供足夠的用戶友好性，即讓數(shù)據(jù)主體有能力理解他們的數(shù)據(jù)如何被使用的，并且給予用戶控制數(shù)據(jù)使用的權(quán)力。

GDPR 并沒(méi)有完全禁止使用機(jī)器學(xué)習(xí)模型，但它會(huì)使得很多機(jī)器學(xué)習(xí)的模型及其輸入數(shù)據(jù)的部署和管理變得越來(lái)越困難。

問(wèn)題2：機(jī)器學(xué)習(xí)是否需要「可解釋性」？

關(guān)于 GDPR 對(duì)機(jī)器學(xué)習(xí)的影響，我最常聽(tīng)到的問(wèn)題之一，就是機(jī)器學(xué)習(xí)是否需要「可解釋性」。去年作者特意寫(xiě)了一篇文章討論這個(gè)問(wèn)題。

這個(gè)問(wèn)題源于 GDPR 本身的條例有些模糊不清。

「可解釋性」這一點(diǎn)帶來(lái)的風(fēng)險(xiǎn)是非常高的，可能會(huì)對(duì)企業(yè)數(shù)據(jù)科學(xué)產(chǎn)生巨大的影響。機(jī)器學(xué)習(xí)模型的復(fù)雜結(jié)構(gòu)賦予了其神奇的預(yù)測(cè)能力，想要把其內(nèi)在構(gòu)成解釋清楚是很困難的。

我們從 GDPR 條例的文本開(kāi)始說(shuō)。

在條例的第 13-15 條中，GDPR 一再聲明數(shù)據(jù)主體有權(quán)了解關(guān)于數(shù)據(jù)使用的「有意義的信息」和自動(dòng)化決策帶來(lái)的「重要和可預(yù)見(jiàn)的后果」。然后，第 22 條中，GDPR 規(guī)定，只有在具備了上述影響類型的情況下，用戶才可以對(duì)決策提出反對(duì)。最后，第 71 條序言是該條例中包含的不具約束力一部分，它指出數(shù)據(jù)主體可以要求自動(dòng)化決策給出合理的解釋，并且數(shù)據(jù)主體能夠質(zhì)疑這些決策?？偠灾@三項(xiàng)規(guī)定給數(shù)據(jù)的使用帶來(lái)了更復(fù)雜的場(chǎng)景。

由于文本的模糊不清，歐盟監(jiān)管機(jī)構(gòu)可能以最嚴(yán)格的方式去解釋這些規(guī)定，例如要求機(jī)器學(xué)習(xí)的模型對(duì)內(nèi)部結(jié)構(gòu)做出完整解釋，但這樣的做法似乎是不合理的。

這些文本更恰當(dāng)?shù)慕忉尶赡苁牵?dāng)機(jī)器學(xué)習(xí)用于沒(méi)有人為干預(yù)下做決策時(shí)，以及當(dāng)這些決策對(duì)數(shù)據(jù)主體產(chǎn)生重大影響時(shí)，數(shù)據(jù)主體有權(quán)對(duì)正在發(fā)生的事情有基本的了解。 GDPR 中的“有意義的信息”和“可預(yù)見(jiàn)的后果”或許可以這樣解讀。歐盟監(jiān)管機(jī)構(gòu)可能會(huì)將重點(diǎn)放在數(shù)據(jù)主體有權(quán)就數(shù)據(jù)使用情況作出決策上，而對(duì)于數(shù)據(jù)使用的透明度，則可能會(huì)依據(jù)于模型及對(duì)應(yīng)的情況而定。

問(wèn)題3：數(shù)據(jù)主體是否有權(quán)要求刪除他們的信息后重新訓(xùn)練模型？

這也許是 GDPR 條例下最難回答的問(wèn)題之一。換句話說(shuō)，如果一個(gè)數(shù)據(jù)科學(xué)家使用某個(gè)數(shù)據(jù)主體的數(shù)據(jù)來(lái)訓(xùn)練模型，然后在這個(gè)模型中融入了新數(shù)據(jù)，那么此前的數(shù)據(jù)主體對(duì)于之前用他們的數(shù)據(jù)訓(xùn)練出來(lái)的模型是否還有一定的權(quán)力？

據(jù)我所知，答案將是否定的，至少在實(shí)踐中是這樣的，只有非常少的特例。為了解釋更清楚，我先從這些特例說(shuō)起。

在 GDPR 下，所有數(shù)據(jù)的使用都需要在法律的允許下進(jìn)行，GDPR 第 6 條規(guī)定了六項(xiàng)對(duì)應(yīng)的法律依據(jù)。其中有兩個(gè)最重要的「合法權(quán)益」的依據(jù)，并且數(shù)據(jù)主體明確同意使用該數(shù)據(jù)。這種情況下，當(dāng)處理數(shù)據(jù)是依據(jù)于數(shù)據(jù)主體的同意時(shí)，數(shù)據(jù)主體將仍保留對(duì)該數(shù)據(jù)的重要控制權(quán)，這意味著他們可以隨時(shí)撤回同意，處理該數(shù)據(jù)的合法性將不再存在。

因此，如果組織從數(shù)據(jù)主體收集數(shù)據(jù)，數(shù)據(jù)主體同意將他們的數(shù)據(jù)用于訓(xùn)練特定的模型，但隨后又撤回同意，何時(shí)數(shù)據(jù)主體可以強(qiáng)制模型重新訓(xùn)練新數(shù)據(jù)？

答案是只有當(dāng)該模型繼續(xù)使用該數(shù)據(jù)主體的數(shù)據(jù)時(shí)才可以。

正如 29 工作組所指出的那樣，即使數(shù)據(jù)主體撤銷了同意，撤銷前所發(fā)生的所有的處理仍然是合法的。因此，如果數(shù)據(jù)被合法地用于創(chuàng)建模型或預(yù)測(cè)，那么無(wú)論這些數(shù)據(jù)的產(chǎn)出是什么，都是可以被保留的。事實(shí)上，一旦用一組訓(xùn)練數(shù)據(jù)創(chuàng)建了模型，那么訓(xùn)練數(shù)據(jù)的刪除和修改都不會(huì)影響到之前的模型。

但是，一些研究表明，模型可能會(huì)保留關(guān)于訓(xùn)練數(shù)據(jù)的信息，即使在訓(xùn)練數(shù)據(jù)被刪除之后，仍然可以通過(guò)模型找到原始數(shù)據(jù)，正如研究人員 Nicolas Papernot 等人寫(xiě)的一樣（模型的隱私性問(wèn)題，參見(jiàn)這篇文章）。這意味著在某些情況下，保留訓(xùn)練模型而刪除原有數(shù)據(jù)，不能保證在以后原有數(shù)據(jù)不會(huì)被重現(xiàn)，或者說(shuō)在某些情況下，原有數(shù)據(jù)還是仍可能在使用的。

但是從模型中復(fù)原原有的訓(xùn)練數(shù)據(jù)有多大可能呢？幾乎是不可能的。

目前所知，這種研究只在學(xué)術(shù)環(huán)境中進(jìn)行，企業(yè)的數(shù)據(jù)科學(xué)與學(xué)術(shù)環(huán)境相差甚遠(yuǎn)。正是由于這個(gè)原因，作者不認(rèn)為模型會(huì)因?yàn)槭艿綌?shù)據(jù)主體的要求而重新訓(xùn)練。雖然這在理論上是可能的，但已經(jīng)是非常邊緣的特例了，只有在特定情況下特例發(fā)生之后，監(jiān)管機(jī)構(gòu)和數(shù)據(jù)科學(xué)家才需要去處理。

盡管如此，所有這些問(wèn)題都存在大量的細(xì)微差別，未來(lái)這些細(xì)微差別一定會(huì)出現(xiàn)。GDPR 有 99 條正文和173 條引言，注定是非常長(zhǎng)且復(fù)雜的法規(guī)，并且隨著時(shí)間的推移變得更加復(fù)雜。

但是，至少有一點(diǎn)是明確的：要感謝 GDPR，在未來(lái)的大規(guī)模數(shù)據(jù)科學(xué)計(jì)劃中，律師和專門負(fù)責(zé)處理隱私的工程師將會(huì)成為數(shù)據(jù)科學(xué)計(jì)劃的核心成員。

via www.oreilly.com，雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。