0
本文作者: MrBear | 2020-02-22 22:34 |
在人工智能發(fā)展的初期,人們對算法的要求往往停留于「準(zhǔn)」的層面,預(yù)測結(jié)果越精確似乎越好。然而,隨著人工智能技術(shù)逐漸融入日常生活,人們對于算法「公平性」的要求與日俱增。在本文中,來自 CMU 的研究人員 Han Zhao 提出了一種通過學(xué)習(xí)公平表征來實(shí)現(xiàn)算法公平的方法。
圖 1:統(tǒng)計均等(Statistical Parity,又稱群體公平)和最優(yōu)決策之間權(quán)衡的示意圖。在本例中,由于圓形和方形群組之間在群體層面上的還款率不同,為了遵循統(tǒng)計均等,決策者必須要么拒絕向某些處于還款狀態(tài)(repaying)的圓形申請者貸款(左圖),要么同意向某些違約的方形申請者貸款(右圖)。
所有方法的共同之處在于,為了降低依賴性,在一定程度上必須犧牲準(zhǔn)確性。
——出自于Calders 等人于 2009 年發(fā)表的論文「Building Classifiers with Independency Constraints」。
隨著機(jī)器學(xué)習(xí)應(yīng)用程序在諸如刑事判決,醫(yī)學(xué)檢測,在線廣告等高風(fēng)險領(lǐng)域中的盛行,確保自動化的決策支持系統(tǒng)不會傳播歷史數(shù)據(jù)中可能存在的固有偏見或歧視是至關(guān)重要的。從廣義上講, 有關(guān)算法公平性的文獻(xiàn)中包含兩個核心的「公平性」概念:
第一個概念是「個體公平」。簡而言之,它要求公平的算法以類似的方式對待相似的個體。然而,在實(shí)踐中,通常很難找到或設(shè)計一種被社會所認(rèn)可的距離度量標(biāo)準(zhǔn),該標(biāo)準(zhǔn)用于衡量個體在面對特定任務(wù)時的相似度。
第二個概念是「群體公平」,這是本文重點(diǎn)討論的問題。更具體地說,就是所謂的統(tǒng)計均等,它本質(zhì)上是要求預(yù)測器對于不同子群輸出的結(jié)果相同。
舉例而言,我們不妨考慮一下下面的貸款核準(zhǔn)問題。假如這個虛擬設(shè)定的環(huán)境中有通過圓形和方形代表的兩組貸款申請人。
自動貸款核準(zhǔn)系統(tǒng) C 的目標(biāo)是預(yù)測:如果某位貸款申請人被批準(zhǔn)放貸,在給定對于申請人的描述信息 X 時,他是否會按期還款,C(x)=1 代表會按期還款,C(x)=0 代表不會按期還款。
如果我們分別使用 A=0 表示申請人來自圓形群組,A=1 表示申請人來自方形群組,這種統(tǒng)計均等的定義要求如下:
Pr(C(x)=1 | A=0) = Pr(C(x)=1 | A=1)
其中,該概率值是根據(jù) X,A,Y(即申請人的描述信息、申請人所屬群體、申請人實(shí)際是否還款的真實(shí)標(biāo)簽) 的聯(lián)合分布 D 得到的。換而言之,統(tǒng)計均等要求預(yù)測器 C(x) 與群體屬性 A 無關(guān):C(x)⊥A。
在盡可能地保證任務(wù)的效用的同時,一種構(gòu)建(近似地)滿足統(tǒng)計均等的分類器的方式是:學(xué)習(xí)公平的表征(詳見論文「Learning Fair Representations」:https://www.cs.toronto.edu/~toni/Papers/icml-final.pdf)。
從宏觀上說,這類工作試圖找到一種信息豐富的表征 Z(詳見 Richard Zemel 教授的相關(guān)工作:http://www.cs.toronto.edu/~zemel/inquiry/home.php)、一種輸入變量 X 的特征轉(zhuǎn)換方式,從而使 Z(近似地)與 A 無關(guān),同時 Z 仍然包含關(guān)于目標(biāo) Y 的豐富信息。這種目標(biāo)可以被形式化定義為下面的優(yōu)化問題:
其中 ? > 0 是一個預(yù)設(shè)的常數(shù),我們使用 I(?;?) 表示兩個隨機(jī)變量之間的互信息。如圖 2 所示,得益于近期深度神經(jīng)網(wǎng)絡(luò)表征學(xué)習(xí)方面的研究進(jìn)展,我們可以通過對抗性訓(xùn)練算法實(shí)現(xiàn)上面的優(yōu)化問題。這種特殊的方法至少可以追溯到 Edwards 等人的工作:「Censoring Representations with an Adversary」(https://arxiv.org/abs/1511.05897)。
圖 2:學(xué)習(xí)公平表征的一種算法實(shí)現(xiàn)。中間的表征 Z 試圖騙過對抗者 A,A 的目標(biāo)是識別出輸入變量的群體屬性是「圓形:A=0」還是「方形:A=1」。整體的網(wǎng)絡(luò)架構(gòu)可以使用梯度下降法訓(xùn)練。
現(xiàn)在,我們的目標(biāo)就非常直接了:根據(jù)著名的數(shù)據(jù)處理不等式(DPI),如果我們試圖訓(xùn)練一種特征轉(zhuǎn)換方式 Z,使其能夠騙過非常強(qiáng)的對抗者(判別器),那么任何使用這種表征的預(yù)測器也會是公平的(即滿足統(tǒng)計均等)。
如圖 2 所示的模型包含兩個目標(biāo)函數(shù),我們在訓(xùn)練階段同時優(yōu)化他們。第一個目標(biāo)是為了通過騙過對抗者確保統(tǒng)計均等,第二個目標(biāo)是為了減小預(yù)測 Y 的目標(biāo)任務(wù)的損失函數(shù)。
這兩個目標(biāo)函數(shù)往往會通過一個調(diào)和超參數(shù) λ 融合在一起。然而,統(tǒng)計均等的概念并沒有考慮與真實(shí)標(biāo)簽 Y 相關(guān)的信息。正如你可以想到的,加入某個人的群體特征 A 與其目標(biāo)標(biāo)簽 Y 高度相關(guān),那么要想使預(yù)測器滿足統(tǒng)計均等就必然會同時破壞預(yù)測器的最佳性能。
例如,在我們圖 1 所示的貸款核準(zhǔn)問題中,圓形群體的還款率(90%)要高于方形群體的還款率(80%)。根據(jù)統(tǒng)計均等的概念,一個公平的預(yù)測器必須以相同的比例將貸款發(fā)放給圓形和方形群體。舉例而言,一個公平的分類器會將貸款恰好發(fā)放給 80% 會還款的方形申請者,同時也會將貸款發(fā)放給 80% 會還款的圓形申請者(詳見圖 1 左圖)。但是,這就意味著有 10% 確實(shí)會還款的圓形申請者會被拒絕放款。
另一種可能的情況是,一個公平的分類器會將貸款恰好發(fā)放給 90% 會還款的圓形申請者,同時將貸款發(fā)放給 80% 會還款和 10% 不會還款的方形申請者。在我們例子中的這兩種情況下,為了滿足統(tǒng)計均等的標(biāo)準(zhǔn),一個公平的分類器都會在預(yù)測準(zhǔn)確率方面有所損失。當(dāng)然,也可能存在其它公平的預(yù)測器,這些預(yù)測器可不可能遭受較小的損失呢?
在 NeurIPS 2019 上發(fā)表的論文「Inherent Tradeoffs in Learning Fair Representations」(論文地址:https://arxiv.org/pdf/1906.08386.pdf)中,作者說明了上述兩種公平分類器某種程度上說都是效用最優(yōu)的。就形式化定義而言,令為由群體屬性為
的
產(chǎn)生的 0-1 二分類誤差。我們定義:
為各個群體之間基準(zhǔn)比率(Base Rate)之差。則下面的定理成立:
定理1. 對于任意滿足統(tǒng)計均等的預(yù)測器 ,
在我們貸款核準(zhǔn)的例子中,圓形申請者和方形申請者的還款率之差為 10%,因此。請注意,上述兩種公平分類器針對圓形申請者和方形申請者的的誤差率都為 0.1。
根據(jù)定理 1,對于任意公平分類器,它在兩種群體上的誤差率之和必然至少為 10%,所以它們都是最優(yōu)的。定理 1 是非常直觀的,它本質(zhì)上說明了:
當(dāng)不同群體的基準(zhǔn)比率有差異時,所有滿足統(tǒng)計均等的公平分類器都必然會至少在其中一個群體上產(chǎn)生較大的誤差。
具體而言,根據(jù)鴿巢原理,我們很容易發(fā)現(xiàn)任意的公平分類器必然會至少在其中一個群體上產(chǎn)生至少 的誤差率。此外,該結(jié)論是預(yù)算法無關(guān)的,它在群體層面上成立(即使用大的訓(xùn)練集并不能有所幫助)。接下來,讓我們深入分析
這個量:
如果 A⊥Y,那么Pr(Y=1 | A=0) = Pr(Y=1 | A=1),這意味著 。也就是說,如果群體屬性與目標(biāo)無關(guān),那么上述下界為 0,因此此時不存在效用和公平性的權(quán)衡。
如果基于可以確定 A=Y 或 A=1-Y,那么 將取到其最大值 1。在這種情況下,任何公平分類器都必然會在至少一個群體上產(chǎn)生至少為 0.5 的誤差。
通常而言, 取介于 0 和 1 之間的值,正是這個值表示了在二分類情況下對于公平性和效用的權(quán)衡。
定理 1 僅僅在某種「精確」的情況下成立:預(yù)測器需要「精確地」?jié)M足統(tǒng)計均等。然而,實(shí)際上,由于有限的訓(xùn)練數(shù)據(jù)量或模型容量,這種要求可能是難以實(shí)現(xiàn)的。
我們是否有可能在某種預(yù)測器只能近似地滿足統(tǒng)計均等的標(biāo)準(zhǔn)時,表示這種內(nèi)在的權(quán)衡?如果可能的話,這種表征的特性將會在何時、以何種方式發(fā)揮作用?
事實(shí)證明,這種近似有助于減小定理 1 中的下界。具體而言,令 為給定 A=a 時的條件分布 D。對于特征轉(zhuǎn)換函數(shù)
來說,令
為 Da 在使用 g 轉(zhuǎn)換后的前推分布(Pushforward Distribution)。此外,如果我們使用
代表兩個概率分布之間的總變分距離,那么下面的定理成立:
定理 2. 令 為一種特征變換。對于任意(隨機(jī)的)假設(shè)
,令
為一種預(yù)測器,則下面的不等式成立:
首先,顯然當(dāng) 時,定理 2 退化到了定理 1 中的下界。
在本例中,同樣根據(jù)數(shù)據(jù)處理不等式(DPI),任何作用于 Z 的假設(shè) h 也會在不同的群體上以相同的比率輸出結(jié)果,因此是公平的。
其次,要意識到,越小,則下界越大。因此,當(dāng)
較大時,針對不同群體的表征對齊地越好,則不同群體上的誤差之和也會越大。
需要指出的是,選擇總變分距離作為分布對齊質(zhì)量的度量沒有什么特別之處。在論文「Inherent Tradeoffs in Learning Fair Representations」的 3.2 節(jié),我們使用 f 散度給出了一種一般性分析,讀者可以也可以使用其它的散度測度(例如,HS 距離、Hellinger 距離等)對其進(jìn)行實(shí)例化,從而得到相同的下界。
從積極的一面來看,在一定的條件下,我們也證明了學(xué)習(xí)公平的表征有助于實(shí)現(xiàn)另一種公平的概念,即準(zhǔn)確率均等,它要求組間的誤差率相等。
上述下界意味著在群體間過度對齊的特征分布將會不可避免地導(dǎo)致更大的聯(lián)合誤差。為了證明這種可能性,我們在真實(shí)世界數(shù)據(jù)集(UCI 成人數(shù)據(jù)集)上進(jìn)行了實(shí)驗(yàn)。這里的任務(wù)是收入預(yù)測(年薪是否高于 50,000),群體屬性則對應(yīng)于「男性/女性」。對于該數(shù)據(jù)集而言,,即在 1994 年男性年收入大于 50,000 的比率比女性高 19.7%。
我們實(shí)現(xiàn)了圖 2 所示的模型,將對抗性損失的權(quán)衡超參數(shù) λ 取了不同的值:0.1,1.0,5.0,以及 50.0。實(shí)驗(yàn)結(jié)果如圖 3 所示:
圖 3:統(tǒng)計均等的權(quán)衡,以及在不同這種系數(shù) λ 下群體間的誤差率之和。
在圖 3 中,我們繪制出了三種度量標(biāo)準(zhǔn)以及它們隨著 λ 增大而發(fā)生的變化。第一個豎條對應(yīng)于聯(lián)合誤差(即 ),它是在成人數(shù)據(jù)集上的整體誤差。第二個紅色的豎條代表群體間誤差率之和,這正是在我們的定理 1 和定理 2 中都出現(xiàn)了的下界。第三個灰色豎條對應(yīng)于衡量
滿足統(tǒng)計均等的程度的差異得分(gap score)。具體而言,灰色的豎條代表的是:
。簡而言之,這個差異得分越小,預(yù)測器
越滿足統(tǒng)計均等。
正如預(yù)期的那樣,隨著 λ 的增大,差異得分迅速減小。當(dāng) λ=50.0 時,相應(yīng)的 已經(jīng)非常接近于滿足統(tǒng)計均等。另一方面,我們也可以觀察到,隨著 λ 的增大,紅色的豎條也迅速增大,最終群體間誤差之和達(dá)到了大于 0.36 的水平。
請注意,在圖 3 中,黑色的水平線對應(yīng)于 ,所有的紅色薯?xiàng)l都超過了這個水平線,這與我們的理論分析結(jié)果是一致的。實(shí)際上,
是非常容易計算的,它可以在不實(shí)際訓(xùn)練公平分類器的情況下,限制它們所產(chǎn)生的誤差之和。
理解效用和統(tǒng)計均等之間的基本權(quán)衡既有趣又充滿挑戰(zhàn)。在我們的論文和這篇博文中,我們在二元分類問題的環(huán)境下,給出了對這種內(nèi)在權(quán)衡的簡單而直觀的描述:當(dāng)各群體之間的基準(zhǔn)比率不同時,任何滿足統(tǒng)計均等的公平分類器都必然至少在其中一個群體上產(chǎn)生較大的誤差!
而要想在回歸問題中找到相應(yīng)的描述方式,仍然是個有待解決的問題,目前尚不明確如何將我們現(xiàn)在的這種證明策略擴(kuò)展到分析回歸問題中類似的權(quán)衡上去。
另一方面,我們的實(shí)驗(yàn)結(jié)果說明了,將統(tǒng)計均等定義為公平性是有缺陷的。當(dāng)我們定義公平性的概念時,還應(yīng)該將目標(biāo)的信息考慮進(jìn)來。例如,均等幾率和準(zhǔn)確率均等是兩種另外的定義群體公平性的方式,它們都是可以與完美的預(yù)測器兼容的。
我們最近在 ICLR 2020 上發(fā)表的論文「Conditional Learning of Fair Representations 」(論文地址:https://openreview.net/forum?id=Hkekl0NFPr)也提出了一種算法,在二分類問題中,再次通過學(xué)習(xí)表征近似地實(shí)現(xiàn)這兩種標(biāo)準(zhǔn)。
Via https://blog.ml.cmu.edu/ 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。