丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平

本文作者: MrBear 2020-02-22 22:34
導(dǎo)語:所有方法的共同之處在于,為了降低依賴性,在一定程度上必須犧牲準(zhǔn)確性。

在人工智能發(fā)展的初期,人們對算法的要求往往停留于「準(zhǔn)」的層面,預(yù)測結(jié)果越精確似乎越好。然而,隨著人工智能技術(shù)逐漸融入日常生活,人們對于算法「公平性」的要求與日俱增。在本文中,來自 CMU 的研究人員 Han Zhao 提出了一種通過學(xué)習(xí)公平表征來實(shí)現(xiàn)算法公平的方法。

公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平

圖 1:統(tǒng)計均等(Statistical Parity,又稱群體公平)和最優(yōu)決策之間權(quán)衡的示意圖。在本例中,由于圓形和方形群組之間在群體層面上的還款率不同,為了遵循統(tǒng)計均等,決策者必須要么拒絕向某些處于還款狀態(tài)(repaying)的圓形申請者貸款(左圖),要么同意向某些違約的方形申請者貸款(右圖)。

所有方法的共同之處在于,為了降低依賴性,在一定程度上必須犧牲準(zhǔn)確性。

——出自于Calders 等人于 2009 年發(fā)表的論文「Building Classifiers with Independency Constraints」。

隨著機(jī)器學(xué)習(xí)應(yīng)用程序在諸如刑事判決,醫(yī)學(xué)檢測,在線廣告等高風(fēng)險領(lǐng)域中的盛行,確保自動化的決策支持系統(tǒng)不會傳播歷史數(shù)據(jù)中可能存在的固有偏見或歧視是至關(guān)重要的。從廣義上講, 有關(guān)算法公平性的文獻(xiàn)中包含兩個核心的「公平性」概念:

  • 第一個概念是「個體公平」。簡而言之,它要求公平的算法以類似的方式對待相似的個體。然而,在實(shí)踐中,通常很難找到或設(shè)計一種被社會所認(rèn)可的距離度量標(biāo)準(zhǔn),該標(biāo)準(zhǔn)用于衡量個體在面對特定任務(wù)時的相似度。

  • 第二個概念是「群體公平」,這是本文重點(diǎn)討論的問題。更具體地說,就是所謂的統(tǒng)計均等,它本質(zhì)上是要求預(yù)測器對于不同子群輸出的結(jié)果相同。

舉例而言,我們不妨考慮一下下面的貸款核準(zhǔn)問題。假如這個虛擬設(shè)定的環(huán)境中有通過圓形和方形代表的兩組貸款申請人。

自動貸款核準(zhǔn)系統(tǒng) C 的目標(biāo)是預(yù)測:如果某位貸款申請人被批準(zhǔn)放貸,在給定對于申請人的描述信息 X 時,他是否會按期還款,C(x)=1 代表會按期還款,C(x)=0 代表不會按期還款。

如果我們分別使用 A=0 表示申請人來自圓形群組,A=1 表示申請人來自方形群組,這種統(tǒng)計均等的定義要求如下:

Pr(C(x)=1 | A=0) = Pr(C(x)=1 | A=1)

其中,該概率值是根據(jù) X,A,Y(即申請人的描述信息、申請人所屬群體、申請人實(shí)際是否還款的真實(shí)標(biāo)簽) 的聯(lián)合分布 D 得到的。換而言之,統(tǒng)計均等要求預(yù)測器 C(x) 與群體屬性 A 無關(guān):C(x)⊥A。

一、學(xué)習(xí)公平的表征

在盡可能地保證任務(wù)的效用的同時,一種構(gòu)建(近似地)滿足統(tǒng)計均等的分類器的方式是:學(xué)習(xí)公平的表征(詳見論文「Learning Fair Representations」:https://www.cs.toronto.edu/~toni/Papers/icml-final.pdf)。

從宏觀上說,這類工作試圖找到一種信息豐富的表征 Z(詳見 Richard Zemel 教授的相關(guān)工作:http://www.cs.toronto.edu/~zemel/inquiry/home.php)、一種輸入變量 X 的特征轉(zhuǎn)換方式,從而使 Z(近似地)與 A 無關(guān),同時 Z 仍然包含關(guān)于目標(biāo) Y 的豐富信息。這種目標(biāo)可以被形式化定義為下面的優(yōu)化問題:

公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平

 

其中 ? > 0 是一個預(yù)設(shè)的常數(shù),我們使用 I(?;?) 表示兩個隨機(jī)變量之間的互信息。如圖 2 所示,得益于近期深度神經(jīng)網(wǎng)絡(luò)表征學(xué)習(xí)方面的研究進(jìn)展,我們可以通過對抗性訓(xùn)練算法實(shí)現(xiàn)上面的優(yōu)化問題。這種特殊的方法至少可以追溯到 Edwards 等人的工作:「Censoring Representations with an Adversary」(https://arxiv.org/abs/1511.05897)。

公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平

圖 2:學(xué)習(xí)公平表征的一種算法實(shí)現(xiàn)。中間的表征 Z 試圖騙過對抗者 A,A 的目標(biāo)是識別出輸入變量的群體屬性是「圓形:A=0」還是「方形:A=1」。整體的網(wǎng)絡(luò)架構(gòu)可以使用梯度下降法訓(xùn)練。

現(xiàn)在,我們的目標(biāo)就非常直接了:根據(jù)著名的數(shù)據(jù)處理不等式(DPI),如果我們試圖訓(xùn)練一種特征轉(zhuǎn)換方式 Z,使其能夠騙過非常強(qiáng)的對抗者(判別器),那么任何使用這種表征的預(yù)測器也會是公平的(即滿足統(tǒng)計均等)。

二、公平性和效用間的權(quán)衡

如圖 2 所示的模型包含兩個目標(biāo)函數(shù),我們在訓(xùn)練階段同時優(yōu)化他們。第一個目標(biāo)是為了通過騙過對抗者確保統(tǒng)計均等,第二個目標(biāo)是為了減小預(yù)測 Y 的目標(biāo)任務(wù)的損失函數(shù)。

這兩個目標(biāo)函數(shù)往往會通過一個調(diào)和超參數(shù) λ 融合在一起。然而,統(tǒng)計均等的概念并沒有考慮與真實(shí)標(biāo)簽 Y 相關(guān)的信息。正如你可以想到的,加入某個人的群體特征 A 與其目標(biāo)標(biāo)簽 Y 高度相關(guān),那么要想使預(yù)測器滿足統(tǒng)計均等就必然會同時破壞預(yù)測器的最佳性能。

例如,在我們圖 1 所示的貸款核準(zhǔn)問題中,圓形群體的還款率(90%)要高于方形群體的還款率(80%)。根據(jù)統(tǒng)計均等的概念,一個公平的預(yù)測器必須以相同的比例將貸款發(fā)放給圓形和方形群體。舉例而言,一個公平的分類器會將貸款恰好發(fā)放給 80% 會還款的方形申請者,同時也會將貸款發(fā)放給 80% 會還款的圓形申請者(詳見圖 1 左圖)。但是,這就意味著有 10% 確實(shí)會還款的圓形申請者會被拒絕放款。

另一種可能的情況是,一個公平的分類器會將貸款恰好發(fā)放給 90% 會還款的圓形申請者,同時將貸款發(fā)放給 80% 會還款和 10% 不會還款的方形申請者。在我們例子中的這兩種情況下,為了滿足統(tǒng)計均等的標(biāo)準(zhǔn),一個公平的分類器都會在預(yù)測準(zhǔn)確率方面有所損失。當(dāng)然,也可能存在其它公平的預(yù)測器,這些預(yù)測器可不可能遭受較小的損失呢?

在 NeurIPS 2019 上發(fā)表的論文「Inherent Tradeoffs in Learning Fair Representations」(論文地址:https://arxiv.org/pdf/1906.08386.pdf)中,作者說明了上述兩種公平分類器某種程度上說都是效用最優(yōu)的。就形式化定義而言,令公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平為由群體屬性為公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 產(chǎn)生的 0-1 二分類誤差。我們定義:

 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平

為各個群體之間基準(zhǔn)比率(Base Rate)之差。則下面的定理成立:

定理1. 對于任意滿足統(tǒng)計均等的預(yù)測器 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平,

公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 

在我們貸款核準(zhǔn)的例子中,圓形申請者和方形申請者的還款率之差為 10%,因此公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平。請注意,上述兩種公平分類器針對圓形申請者和方形申請者的的誤差率都為 0.1。

根據(jù)定理 1,對于任意公平分類器,它在兩種群體上的誤差率之和必然至少為 10%,所以它們都是最優(yōu)的。定理 1 是非常直觀的,它本質(zhì)上說明了:

當(dāng)不同群體的基準(zhǔn)比率有差異時,所有滿足統(tǒng)計均等的公平分類器都必然會至少在其中一個群體上產(chǎn)生較大的誤差。

具體而言,根據(jù)鴿巢原理,我們很容易發(fā)現(xiàn)任意的公平分類器必然會至少在其中一個群體上產(chǎn)生至少 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 的誤差率。此外,該結(jié)論是預(yù)算法無關(guān)的,它在群體層面上成立(即使用大的訓(xùn)練集并不能有所幫助)。接下來,讓我們深入分析  公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 這個量:

  • 如果 A⊥Y,那么Pr(Y=1 | A=0) = Pr(Y=1 | A=1),這意味著公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 。也就是說,如果群體屬性與目標(biāo)無關(guān),那么上述下界為 0,因此此時不存在效用和公平性的權(quán)衡。

  • 如果基于可以確定 A=Y 或 A=1-Y,那么  公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 將取到其最大值 1。在這種情況下,任何公平分類器都必然會在至少一個群體上產(chǎn)生至少為 0.5 的誤差。

通常而言, 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平取介于 0 和 1 之間的值,正是這個值表示了在二分類情況下對于公平性和效用的權(quán)衡。

三、公平表征學(xué)習(xí)的權(quán)衡

定理 1 僅僅在某種「精確」的情況下成立:預(yù)測器需要「精確地」?jié)M足統(tǒng)計均等。然而,實(shí)際上,由于有限的訓(xùn)練數(shù)據(jù)量或模型容量,這種要求可能是難以實(shí)現(xiàn)的。

我們是否有可能在某種預(yù)測器只能近似地滿足統(tǒng)計均等的標(biāo)準(zhǔn)時,表示這種內(nèi)在的權(quán)衡?如果可能的話,這種表征的特性將會在何時、以何種方式發(fā)揮作用?

事實(shí)證明,這種近似有助于減小定理 1 中的下界。具體而言,令 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 為給定 A=a 時的條件分布 D。對于特征轉(zhuǎn)換函數(shù)  公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 來說,令  公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平為 Da 在使用 g 轉(zhuǎn)換后的前推分布(Pushforward Distribution)。此外,如果我們使用公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 代表兩個概率分布之間的總變分距離,那么下面的定理成立:

定理 2. 令 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 為一種特征變換。對于任意(隨機(jī)的)假設(shè) 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平,令 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 為一種預(yù)測器,則下面的不等式成立:

公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 

首先,顯然當(dāng) 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 時,定理 2 退化到了定理 1 中的下界。

在本例中,同樣根據(jù)數(shù)據(jù)處理不等式(DPI),任何作用于 Z 的假設(shè) h 也會在不同的群體上以相同的比率輸出結(jié)果,因此是公平的。

其次,要意識到,公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平越小,則下界越大。因此,當(dāng) 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 較大時,針對不同群體的表征對齊地越好,則不同群體上的誤差之和也會越大。

需要指出的是,選擇總變分距離作為分布對齊質(zhì)量的度量沒有什么特別之處。在論文「Inherent Tradeoffs in Learning Fair Representations」的 3.2 節(jié),我們使用 f 散度給出了一種一般性分析,讀者可以也可以使用其它的散度測度(例如,HS 距離、Hellinger 距離等)對其進(jìn)行實(shí)例化,從而得到相同的下界。

從積極的一面來看,在一定的條件下,我們也證明了學(xué)習(xí)公平的表征有助于實(shí)現(xiàn)另一種公平的概念,即準(zhǔn)確率均等,它要求組間的誤差率相等。

四、實(shí)際情況如何?

上述下界意味著在群體間過度對齊的特征分布將會不可避免地導(dǎo)致更大的聯(lián)合誤差。為了證明這種可能性,我們在真實(shí)世界數(shù)據(jù)集(UCI 成人數(shù)據(jù)集)上進(jìn)行了實(shí)驗(yàn)。這里的任務(wù)是收入預(yù)測(年薪是否高于 50,000),群體屬性則對應(yīng)于「男性/女性」。對于該數(shù)據(jù)集而言,公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平,即在 1994 年男性年收入大于 50,000 的比率比女性高 19.7%。

我們實(shí)現(xiàn)了圖 2 所示的模型,將對抗性損失的權(quán)衡超參數(shù) λ 取了不同的值:0.1,1.0,5.0,以及 50.0。實(shí)驗(yàn)結(jié)果如圖 3 所示:

公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平

圖 3:統(tǒng)計均等的權(quán)衡,以及在不同這種系數(shù) λ 下群體間的誤差率之和。

在圖 3 中,我們繪制出了三種度量標(biāo)準(zhǔn)以及它們隨著 λ 增大而發(fā)生的變化。第一個豎條對應(yīng)于聯(lián)合誤差(即 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平),它是在成人數(shù)據(jù)集上的整體誤差。第二個紅色的豎條代表群體間誤差率之和,這正是在我們的定理 1 和定理 2 中都出現(xiàn)了的下界。第三個灰色豎條對應(yīng)于衡量 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平滿足統(tǒng)計均等的程度的差異得分(gap score)。具體而言,灰色的豎條代表的是:公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平。簡而言之,這個差異得分越小,預(yù)測器公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平越滿足統(tǒng)計均等。

正如預(yù)期的那樣,隨著 λ 的增大,差異得分迅速減小。當(dāng) λ=50.0 時,相應(yīng)的 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 已經(jīng)非常接近于滿足統(tǒng)計均等。另一方面,我們也可以觀察到,隨著 λ 的增大,紅色的豎條也迅速增大,最終群體間誤差之和達(dá)到了大于 0.36 的水平。

請注意,在圖 3 中,黑色的水平線對應(yīng)于 公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平,所有的紅色薯?xiàng)l都超過了這個水平線,這與我們的理論分析結(jié)果是一致的。實(shí)際上,公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平 是非常容易計算的,它可以在不實(shí)際訓(xùn)練公平分類器的情況下,限制它們所產(chǎn)生的誤差之和。

五、結(jié)語

理解效用和統(tǒng)計均等之間的基本權(quán)衡既有趣又充滿挑戰(zhàn)。在我們的論文和這篇博文中,我們在二元分類問題的環(huán)境下,給出了對這種內(nèi)在權(quán)衡的簡單而直觀的描述:當(dāng)各群體之間的基準(zhǔn)比率不同時,任何滿足統(tǒng)計均等的公平分類器都必然至少在其中一個群體上產(chǎn)生較大的誤差!

而要想在回歸問題中找到相應(yīng)的描述方式,仍然是個有待解決的問題,目前尚不明確如何將我們現(xiàn)在的這種證明策略擴(kuò)展到分析回歸問題中類似的權(quán)衡上去。

另一方面,我們的實(shí)驗(yàn)結(jié)果說明了,將統(tǒng)計均等定義為公平性是有缺陷的。當(dāng)我們定義公平性的概念時,還應(yīng)該將目標(biāo)的信息考慮進(jìn)來。例如,均等幾率和準(zhǔn)確率均等是兩種另外的定義群體公平性的方式,它們都是可以與完美的預(yù)測器兼容的。

我們最近在 ICLR 2020 上發(fā)表的論文「Conditional Learning of Fair Representations 」(論文地址:https://openreview.net/forum?id=Hkekl0NFPr)也提出了一種算法,在二分類問題中,再次通過學(xué)習(xí)表征近似地實(shí)現(xiàn)這兩種標(biāo)準(zhǔn)。

Via https://blog.ml.cmu.edu/ 雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

公平與精確同樣重要!CMU提出學(xué)習(xí)公平表征方法,實(shí)現(xiàn)算法公平

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說