公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平

本文作者： MrBear

2020-02-22 22:34

導(dǎo)語(yǔ)：所有方法的共同之處在于，為了降低依賴性，在一定程度上必須犧牲準(zhǔn)確性。

在人工智能發(fā)展的初期，人們對(duì)算法的要求往往停留于「準(zhǔn)」的層面，預(yù)測(cè)結(jié)果越精確似乎越好。然而，隨著人工智能技術(shù)逐漸融入日常生活，人們對(duì)于算法「公平性」的要求與日俱增。在本文中，來(lái)自 CMU 的研究人員 Han Zhao 提出了一種通過(guò)學(xué)習(xí)公平表征來(lái)實(shí)現(xiàn)算法公平的方法。

圖 1：統(tǒng)計(jì)均等（Statistical Parity，又稱群體公平）和最優(yōu)決策之間權(quán)衡的示意圖。在本例中，由于圓形和方形群組之間在群體層面上的還款率不同，為了遵循統(tǒng)計(jì)均等，決策者必須要么拒絕向某些處于還款狀態(tài)（repaying）的圓形申請(qǐng)者貸款（左圖），要么同意向某些違約的方形申請(qǐng)者貸款（右圖）。

所有方法的共同之處在于，為了降低依賴性，在一定程度上必須犧牲準(zhǔn)確性。
——出自于Calders 等人于 2009 年發(fā)表的論文「Building Classifiers with Independency Constraints」。

隨著機(jī)器學(xué)習(xí)應(yīng)用程序在諸如刑事判決，醫(yī)學(xué)檢測(cè)，在線廣告等高風(fēng)險(xiǎn)領(lǐng)域中的盛行，確保自動(dòng)化的決策支持系統(tǒng)不會(huì)傳播歷史數(shù)據(jù)中可能存在的固有偏見(jiàn)或歧視是至關(guān)重要的。從廣義上講，有關(guān)算法公平性的文獻(xiàn)中包含兩個(gè)核心的「公平性」概念：

第一個(gè)概念是「?jìng)€(gè)體公平」。簡(jiǎn)而言之，它要求公平的算法以類似的方式對(duì)待相似的個(gè)體。然而，在實(shí)踐中，通常很難找到或設(shè)計(jì)一種被社會(huì)所認(rèn)可的距離度量標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)用于衡量個(gè)體在面對(duì)特定任務(wù)時(shí)的相似度。
第二個(gè)概念是「群體公平」，這是本文重點(diǎn)討論的問(wèn)題。更具體地說(shuō)，就是所謂的統(tǒng)計(jì)均等，它本質(zhì)上是要求預(yù)測(cè)器對(duì)于不同子群輸出的結(jié)果相同。

舉例而言，我們不妨考慮一下下面的貸款核準(zhǔn)問(wèn)題。假如這個(gè)虛擬設(shè)定的環(huán)境中有通過(guò)圓形和方形代表的兩組貸款申請(qǐng)人。

自動(dòng)貸款核準(zhǔn)系統(tǒng) C 的目標(biāo)是預(yù)測(cè)：如果某位貸款申請(qǐng)人被批準(zhǔn)放貸，在給定對(duì)于申請(qǐng)人的描述信息 X 時(shí)，他是否會(huì)按期還款，C(x)=1 代表會(huì)按期還款，C(x)=0 代表不會(huì)按期還款。

如果我們分別使用 A=0 表示申請(qǐng)人來(lái)自圓形群組，A=1 表示申請(qǐng)人來(lái)自方形群組，這種統(tǒng)計(jì)均等的定義要求如下：

Pr(C(x)=1 | A=0) = Pr(C(x)=1 | A=1)

其中，該概率值是根據(jù) X，A，Y（即申請(qǐng)人的描述信息、申請(qǐng)人所屬群體、申請(qǐng)人實(shí)際是否還款的真實(shí)標(biāo)簽）的聯(lián)合分布 D 得到的。換而言之，統(tǒng)計(jì)均等要求預(yù)測(cè)器 C(x) 與群體屬性 A 無(wú)關(guān)：C(x)⊥A。

一、學(xué)習(xí)公平的表征

在盡可能地保證任務(wù)的效用的同時(shí)，一種構(gòu)建（近似地）滿足統(tǒng)計(jì)均等的分類器的方式是：學(xué)習(xí)公平的表征（詳見(jiàn)論文「Learning Fair Representations」：https://www.cs.toronto.edu/~toni/Papers/icml-final.pdf）。

從宏觀上說(shuō)，這類工作試圖找到一種信息豐富的表征 Z（詳見(jiàn) Richard Zemel 教授的相關(guān)工作：http://www.cs.toronto.edu/~zemel/inquiry/home.php）、一種輸入變量 X 的特征轉(zhuǎn)換方式，從而使 Z（近似地）與 A 無(wú)關(guān)，同時(shí) Z 仍然包含關(guān)于目標(biāo) Y 的豐富信息。這種目標(biāo)可以被形式化定義為下面的優(yōu)化問(wèn)題：

公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平

其中 ? > 0 是一個(gè)預(yù)設(shè)的常數(shù)，我們使用 I(?;?) 表示兩個(gè)隨機(jī)變量之間的互信息。如圖 2 所示，得益于近期深度神經(jīng)網(wǎng)絡(luò)表征學(xué)習(xí)方面的研究進(jìn)展，我們可以通過(guò)對(duì)抗性訓(xùn)練算法實(shí)現(xiàn)上面的優(yōu)化問(wèn)題。這種特殊的方法至少可以追溯到 Edwards 等人的工作：「Censoring Representations with an Adversary」（https://arxiv.org/abs/1511.05897）。

公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平

圖 2：學(xué)習(xí)公平表征的一種算法實(shí)現(xiàn)。中間的表征 Z 試圖騙過(guò)對(duì)抗者 A，A 的目標(biāo)是識(shí)別出輸入變量的群體屬性是「圓形：A=0」還是「方形：A=1」。整體的網(wǎng)絡(luò)架構(gòu)可以使用梯度下降法訓(xùn)練。

現(xiàn)在，我們的目標(biāo)就非常直接了：根據(jù)著名的數(shù)據(jù)處理不等式（DPI），如果我們?cè)噲D訓(xùn)練一種特征轉(zhuǎn)換方式 Z，使其能夠騙過(guò)非常強(qiáng)的對(duì)抗者（判別器），那么任何使用這種表征的預(yù)測(cè)器也會(huì)是公平的（即滿足統(tǒng)計(jì)均等）。

二、公平性和效用間的權(quán)衡

如圖 2 所示的模型包含兩個(gè)目標(biāo)函數(shù)，我們?cè)谟?xùn)練階段同時(shí)優(yōu)化他們。第一個(gè)目標(biāo)是為了通過(guò)騙過(guò)對(duì)抗者確保統(tǒng)計(jì)均等，第二個(gè)目標(biāo)是為了減小預(yù)測(cè) Y 的目標(biāo)任務(wù)的損失函數(shù)。

這兩個(gè)目標(biāo)函數(shù)往往會(huì)通過(guò)一個(gè)調(diào)和超參數(shù) λ 融合在一起。然而，統(tǒng)計(jì)均等的概念并沒(méi)有考慮與真實(shí)標(biāo)簽 Y 相關(guān)的信息。正如你可以想到的，加入某個(gè)人的群體特征 A 與其目標(biāo)標(biāo)簽 Y 高度相關(guān)，那么要想使預(yù)測(cè)器滿足統(tǒng)計(jì)均等就必然會(huì)同時(shí)破壞預(yù)測(cè)器的最佳性能。

例如，在我們圖 1 所示的貸款核準(zhǔn)問(wèn)題中，圓形群體的還款率（90%）要高于方形群體的還款率（80%）。根據(jù)統(tǒng)計(jì)均等的概念，一個(gè)公平的預(yù)測(cè)器必須以相同的比例將貸款發(fā)放給圓形和方形群體。舉例而言，一個(gè)公平的分類器會(huì)將貸款恰好發(fā)放給 80% 會(huì)還款的方形申請(qǐng)者，同時(shí)也會(huì)將貸款發(fā)放給 80% 會(huì)還款的圓形申請(qǐng)者（詳見(jiàn)圖 1 左圖）。但是，這就意味著有 10% 確實(shí)會(huì)還款的圓形申請(qǐng)者會(huì)被拒絕放款。

另一種可能的情況是，一個(gè)公平的分類器會(huì)將貸款恰好發(fā)放給 90% 會(huì)還款的圓形申請(qǐng)者，同時(shí)將貸款發(fā)放給 80% 會(huì)還款和 10% 不會(huì)還款的方形申請(qǐng)者。在我們例子中的這兩種情況下，為了滿足統(tǒng)計(jì)均等的標(biāo)準(zhǔn)，一個(gè)公平的分類器都會(huì)在預(yù)測(cè)準(zhǔn)確率方面有所損失。當(dāng)然，也可能存在其它公平的預(yù)測(cè)器，這些預(yù)測(cè)器可不可能遭受較小的損失呢？

在 NeurIPS 2019 上發(fā)表的論文「Inherent Tradeoffs in Learning Fair Representations」（論文地址：https://arxiv.org/pdf/1906.08386.pdf）中，作者說(shuō)明了上述兩種公平分類器某種程度上說(shuō)都是效用最優(yōu)的。就形式化定義而言，令公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平為由群體屬性為的產(chǎn)生的 0-1 二分類誤差。我們定義：

公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平

為各個(gè)群體之間基準(zhǔn)比率（Base Rate）之差。則下面的定理成立：

定理1. 對(duì)于任意滿足統(tǒng)計(jì)均等的預(yù)測(cè)器公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平，

公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平

在我們貸款核準(zhǔn)的例子中，圓形申請(qǐng)者和方形申請(qǐng)者的還款率之差為 10%，因此公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平。請(qǐng)注意，上述兩種公平分類器針對(duì)圓形申請(qǐng)者和方形申請(qǐng)者的的誤差率都為 0.1。

根據(jù)定理 1，對(duì)于任意公平分類器，它在兩種群體上的誤差率之和必然至少為 10%，所以它們都是最優(yōu)的。定理 1 是非常直觀的，它本質(zhì)上說(shuō)明了：

當(dāng)不同群體的基準(zhǔn)比率有差異時(shí)，所有滿足統(tǒng)計(jì)均等的公平分類器都必然會(huì)至少在其中一個(gè)群體上產(chǎn)生較大的誤差。

具體而言，根據(jù)鴿巢原理，我們很容易發(fā)現(xiàn)任意的公平分類器必然會(huì)至少在其中一個(gè)群體上產(chǎn)生至少公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平的誤差率。此外，該結(jié)論是預(yù)算法無(wú)關(guān)的，它在群體層面上成立（即使用大的訓(xùn)練集并不能有所幫助）。接下來(lái)，讓我們深入分析公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平這個(gè)量：

如果 A⊥Y，那么Pr(Y=1 | A=0) = Pr(Y=1 | A=1)，這意味著。也就是說(shuō)，如果群體屬性與目標(biāo)無(wú)關(guān)，那么上述下界為 0，因此此時(shí)不存在效用和公平性的權(quán)衡。
如果基于可以確定 A=Y 或 A=1-Y，那么將取到其最大值 1。在這種情況下，任何公平分類器都必然會(huì)在至少一個(gè)群體上產(chǎn)生至少為 0.5 的誤差。

通常而言，公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平取介于 0 和 1 之間的值，正是這個(gè)值表示了在二分類情況下對(duì)于公平性和效用的權(quán)衡。

三、公平表征學(xué)習(xí)的權(quán)衡

定理 1 僅僅在某種「精確」的情況下成立：預(yù)測(cè)器需要「精確地」?jié)M足統(tǒng)計(jì)均等。然而，實(shí)際上，由于有限的訓(xùn)練數(shù)據(jù)量或模型容量，這種要求可能是難以實(shí)現(xiàn)的。

我們是否有可能在某種預(yù)測(cè)器只能近似地滿足統(tǒng)計(jì)均等的標(biāo)準(zhǔn)時(shí)，表示這種內(nèi)在的權(quán)衡？如果可能的話，這種表征的特性將會(huì)在何時(shí)、以何種方式發(fā)揮作用？

事實(shí)證明，這種近似有助于減小定理 1 中的下界。具體而言，令公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平為給定 A=a 時(shí)的條件分布 D。對(duì)于特征轉(zhuǎn)換函數(shù) 來(lái)說(shuō)，令為 Da 在使用 g 轉(zhuǎn)換后的前推分布（Pushforward Distribution）。此外，如果我們使用公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平代表兩個(gè)概率分布之間的總變分距離，那么下面的定理成立：

定理 2. 令公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平為一種特征變換。對(duì)于任意（隨機(jī)的）假設(shè) ，令為一種預(yù)測(cè)器，則下面的不等式成立：

公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平

首先，顯然當(dāng) 公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平時(shí)，定理 2 退化到了定理 1 中的下界。

在本例中，同樣根據(jù)數(shù)據(jù)處理不等式（DPI），任何作用于 Z 的假設(shè) h 也會(huì)在不同的群體上以相同的比率輸出結(jié)果，因此是公平的。

其次，要意識(shí)到，公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平越小，則下界越大。因此，當(dāng) 較大時(shí)，針對(duì)不同群體的表征對(duì)齊地越好，則不同群體上的誤差之和也會(huì)越大。

需要指出的是，選擇總變分距離作為分布對(duì)齊質(zhì)量的度量沒(méi)有什么特別之處。在論文「Inherent Tradeoffs in Learning Fair Representations」的 3.2 節(jié)，我們使用 f 散度給出了一種一般性分析，讀者可以也可以使用其它的散度測(cè)度（例如，HS 距離、Hellinger 距離等）對(duì)其進(jìn)行實(shí)例化，從而得到相同的下界。

從積極的一面來(lái)看，在一定的條件下，我們也證明了學(xué)習(xí)公平的表征有助于實(shí)現(xiàn)另一種公平的概念，即準(zhǔn)確率均等，它要求組間的誤差率相等。

四、實(shí)際情況如何？

上述下界意味著在群體間過(guò)度對(duì)齊的特征分布將會(huì)不可避免地導(dǎo)致更大的聯(lián)合誤差。為了證明這種可能性，我們?cè)谡鎸?shí)世界數(shù)據(jù)集（UCI 成人數(shù)據(jù)集）上進(jìn)行了實(shí)驗(yàn)。這里的任務(wù)是收入預(yù)測(cè)（年薪是否高于 50,000），群體屬性則對(duì)應(yīng)于「男性/女性」。對(duì)于該數(shù)據(jù)集而言，公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平，即在 1994 年男性年收入大于 50,000 的比率比女性高 19.7%。

我們實(shí)現(xiàn)了圖 2 所示的模型，將對(duì)抗性損失的權(quán)衡超參數(shù) λ 取了不同的值：0.1，1.0，5.0，以及 50.0。實(shí)驗(yàn)結(jié)果如圖 3 所示：

公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平

圖 3：統(tǒng)計(jì)均等的權(quán)衡，以及在不同這種系數(shù) λ 下群體間的誤差率之和。

在圖 3 中，我們繪制出了三種度量標(biāo)準(zhǔn)以及它們隨著 λ 增大而發(fā)生的變化。第一個(gè)豎條對(duì)應(yīng)于聯(lián)合誤差（即公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平），它是在成人數(shù)據(jù)集上的整體誤差。第二個(gè)紅色的豎條代表群體間誤差率之和，這正是在我們的定理 1 和定理 2 中都出現(xiàn)了的下界。第三個(gè)灰色豎條對(duì)應(yīng)于衡量公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平滿足統(tǒng)計(jì)均等的程度的差異得分（gap score）。具體而言，灰色的豎條代表的是：。簡(jiǎn)而言之，這個(gè)差異得分越小，預(yù)測(cè)器公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平越滿足統(tǒng)計(jì)均等。

正如預(yù)期的那樣，隨著 λ 的增大，差異得分迅速減小。當(dāng) λ=50.0 時(shí)，相應(yīng)的公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平已經(jīng)非常接近于滿足統(tǒng)計(jì)均等。另一方面，我們也可以觀察到，隨著 λ 的增大，紅色的豎條也迅速增大，最終群體間誤差之和達(dá)到了大于 0.36 的水平。

請(qǐng)注意，在圖 3 中，黑色的水平線對(duì)應(yīng)于公平與精確同樣重要！CMU提出學(xué)習(xí)公平表征方法，實(shí)現(xiàn)算法公平，所有的紅色薯?xiàng)l都超過(guò)了這個(gè)水平線，這與我們的理論分析結(jié)果是一致的。實(shí)際上，是非常容易計(jì)算的，它可以在不實(shí)際訓(xùn)練公平分類器的情況下，限制它們所產(chǎn)生的誤差之和。

五、結(jié)語(yǔ)

理解效用和統(tǒng)計(jì)均等之間的基本權(quán)衡既有趣又充滿挑戰(zhàn)。在我們的論文和這篇博文中，我們?cè)诙诸悊?wèn)題的環(huán)境下，給出了對(duì)這種內(nèi)在權(quán)衡的簡(jiǎn)單而直觀的描述：當(dāng)各群體之間的基準(zhǔn)比率不同時(shí)，任何滿足統(tǒng)計(jì)均等的公平分類器都必然至少在其中一個(gè)群體上產(chǎn)生較大的誤差！

而要想在回歸問(wèn)題中找到相應(yīng)的描述方式，仍然是個(gè)有待解決的問(wèn)題，目前尚不明確如何將我們現(xiàn)在的這種證明策略擴(kuò)展到分析回歸問(wèn)題中類似的權(quán)衡上去。

另一方面，我們的實(shí)驗(yàn)結(jié)果說(shuō)明了，將統(tǒng)計(jì)均等定義為公平性是有缺陷的。當(dāng)我們定義公平性的概念時(shí)，還應(yīng)該將目標(biāo)的信息考慮進(jìn)來(lái)。例如，均等幾率和準(zhǔn)確率均等是兩種另外的定義群體公平性的方式，它們都是可以與完美的預(yù)測(cè)器兼容的。

我們最近在 ICLR 2020 上發(fā)表的論文「Conditional Learning of Fair Representations 」（論文地址：https://openreview.net/forum?id=Hkekl0NFPr）也提出了一種算法，在二分類問(wèn)題中，再次通過(guò)學(xué)習(xí)表征近似地實(shí)現(xiàn)這兩種標(biāo)準(zhǔn)。

Via https://blog.ml.cmu.edu/ 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。