丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給龔倩
發(fā)送

0

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

本文作者: 龔倩 編輯:幸麗娟 2020-07-30 15:49 專(zhuān)題:ACL 2019
導(dǎo)語(yǔ):“雙硬去偏”新方法——通過(guò)消除詞頻的負(fù)面影響提高詞嵌入性別去偏性能!

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

Paper: https://arxiv.org/abs/2005.00965
Github: https://github.com/uvavision/Double-Hard-Debias

研究背景

源自人為生成的語(yǔ)料庫(kù)的詞嵌入,具有很強(qiáng)的性別偏見(jiàn),而且這種性別偏見(jiàn)會(huì)被下游模型進(jìn)一步放大。我們發(fā)現(xiàn)語(yǔ)料庫(kù)的規(guī)律性如詞頻等,會(huì)對(duì)現(xiàn)有的事后比較去偏算法(post-hoc debiasing algorithms)的性能產(chǎn)生負(fù)面影響,于是我們提出在推斷和去除性別子空間之前,根據(jù)語(yǔ)料庫(kù)的規(guī)律性對(duì)詞嵌入進(jìn)行凈化處理。 

1. 詞嵌入中的性別偏見(jiàn)

詞嵌入是指用有意義的數(shù)字向量表示詞匯表中的單詞,它們能夠捕捉單詞的語(yǔ)義和句法意義以及與其他單詞的關(guān)系。盡管詞嵌入向量在自然語(yǔ)言處理任務(wù)中得到了廣泛的應(yīng)用,但它還是被批判:從訓(xùn)練語(yǔ)料庫(kù)中繼承了無(wú)意識(shí)的性別偏見(jiàn)。

正如論文《Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings》中所討論的那樣,當(dāng)一個(gè)詞的語(yǔ)義是中性而學(xué)到的詞嵌入?yún)s更偏向特定的性別時(shí),就暴露出了性別偏見(jiàn)的問(wèn)題。例如,在下圖中,x坐標(biāo)表示的是對(duì)嵌入的單詞“he”(他)和“she”(她)之間的差異,而y坐標(biāo)表示捕獲性別中立的嵌入過(guò)程中學(xué)到的傾向,中性的單詞在x軸之上,而特定性別的單詞在x軸之下。盡管“brilliant”(聰明)和“genius”(天才)在定義上是中性的,但它們的嵌入更接近“he”(他)。同樣,“homemaker”(操持家務(wù)者)和“sewing(”縫紉)與“she”(她)更接近。

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

 2. 為什么性別偏見(jiàn)是一個(gè)嚴(yán)重的問(wèn)題?

詞嵌入中的性別偏見(jiàn)確實(shí)是一個(gè)很?chē)?yán)重的問(wèn)題?想象一下,如果人們訓(xùn)練了一個(gè)基于具有偏見(jiàn)的詞嵌入的簡(jiǎn)歷篩選模型,那么這個(gè)模型就會(huì)針對(duì)程序員等崗位自動(dòng)地過(guò)濾掉女性應(yīng)聘者,也會(huì)針對(duì)理發(fā)師等職位篩除掉男性應(yīng)聘者。同樣,一個(gè)把醫(yī)生全都當(dāng)作男性以及把護(hù)士全都當(dāng)作女性的問(wèn)題應(yīng)答模型,當(dāng)被用來(lái)理解醫(yī)療報(bào)告時(shí),它提供的答案也會(huì)是錯(cuò)誤的。

3. 早期的“硬去偏”方法

之前的方法是通過(guò)后處理方式減少詞嵌入中與性別相關(guān)的部分從而減少性別偏見(jiàn)。具體來(lái)說(shuō),它需要一系列與性別相關(guān)的詞對(duì),并計(jì)算這些詞對(duì)的差分向量的第一主成分作為嵌入空間中的性別方向。然后將有偏詞嵌入映射到與推測(cè)的性別方向正交的子空間中,以消除性別偏見(jiàn)。雖然此方法確實(shí)能夠在單詞類(lèi)比任務(wù)中減輕性別偏見(jiàn),但另一項(xiàng)工作《Lipstick on a pig: Debiasing methods cover up systematic gender biases in word embeddings but do not remove them》認(rèn)為這種方法并不是特別有效,因?yàn)槿テ笄度氲膸缀螆D形中仍然存在性別偏見(jiàn)。

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

4. 詞頻會(huì)對(duì)性別方向產(chǎn)生負(fù)面影響

在這篇論文中,我們假設(shè)現(xiàn)有的“硬去偏”方法很難確定詞嵌入正確的性別方向?!禙rage: Frequency-agnostic word representation》和《All-but-the-top: Simple and effective postprocessing for word representations》兩項(xiàng)工作表明,詞頻會(huì)顯著影響詞嵌入的幾何結(jié)構(gòu)。例如,常用詞和罕見(jiàn)詞會(huì)聚集在嵌入空間的不同子區(qū)域,不過(guò),這些聚集在同一個(gè)子區(qū)域的詞在語(yǔ)義上并不相似。這會(huì)對(duì)性別方向的定義過(guò)程產(chǎn)生負(fù)面影響,從而降低“硬去偏”方法消除性別偏見(jiàn)的能力。通過(guò)經(jīng)驗(yàn)可以證明,某些詞的使用頻率變化,會(huì)導(dǎo)致其對(duì)應(yīng)的差分向量與其他詞的差分向量之間的相似性發(fā)生顯著變化,如下圖所示。 

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

“雙硬去偏”方法

這項(xiàng)工作中,我們通過(guò)消除詞頻對(duì)性別方向的影響來(lái)提高“硬去偏”方法的性能。由于詞頻會(huì)改變性別方向,我們提出運(yùn)用“雙硬去偏”法來(lái)消除詞頻對(duì)性別方向的負(fù)面影響。此方法的關(guān)鍵在于:使用硬去偏之前,將單詞嵌入映射到一個(gè)中間的子空間中。回顧一下,我們前面討論的硬去偏方法就是通過(guò)將嵌入空間轉(zhuǎn)化為無(wú)特定性別的空間來(lái)降低性別偏見(jiàn)。

同樣地,在雙硬去偏方法中,我們首先將所有的單詞嵌入轉(zhuǎn)換成一個(gè)與使用頻率無(wú)關(guān)的子空間,在這樣的子空間中,我們能夠計(jì)算出一個(gè)更加準(zhǔn)確的性別方向。更確切地說(shuō),我們?cè)噲D找到一個(gè)能夠分散性別方向計(jì)算的編碼頻率信息的維度。然后我們從詞嵌入中沿著這個(gè)特定的維度映射出組件,從而獲得修正的嵌入向量,再對(duì)其應(yīng)用硬去偏方法。

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

為了確定這個(gè)維度,我們利用具有高偏見(jiàn)的單詞的聚類(lèi)作為指標(biāo),迭代測(cè)試詞嵌入的主成分。具體步驟如下:

  1. 計(jì)算所有單詞嵌入向量的主成分作為候選的頻率維度。 

  2. 選擇一系列高性別偏見(jiàn)的男性和女性詞匯(如程序員,家務(wù)操持者,游戲,跳舞等)。

  3. 分別對(duì)每個(gè)候選維度ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!重復(fù)步驟4-6。

  4. 將詞嵌入映射到一個(gè)與 ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!正交的中間空間,從而得到修正的詞嵌入。

  5. 對(duì)修正的詞嵌入應(yīng)用"硬去偏"方法。

  6. 高性別偏見(jiàn)的單詞經(jīng)過(guò)步驟5得到去偏嵌入,再聚類(lèi)此去偏嵌入,然后計(jì)算該聚類(lèi)的精度。 

如果步驟6中的聚類(lèi)算法仍然將具有性別偏見(jiàn)的單詞按性別分成兩組,則說(shuō)明去除ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!并不能改善去偏效果。因此,我們可以篩選出導(dǎo)致有偏詞聚類(lèi)精度下降最顯著的那個(gè)ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!,然后將其刪除。

“雙硬去偏”方法效果如何?

我們?cè)趲讉€(gè)偏見(jiàn)消除基準(zhǔn)上評(píng)估“雙硬去偏”法,其中包括一個(gè)重要的下游任務(wù)——共指消解(coreference resolution)。

我們使用WinoBias數(shù)據(jù)集來(lái)量化共指系統(tǒng)中的性別偏見(jiàn)。WinoBias由兩種類(lèi)型的句子組成,每種類(lèi)型的句子都可以劃分為一個(gè)對(duì)性別有刻板印象的子集和一個(gè)反性別刻板印象的子集。性別,是這兩個(gè)子集之間唯一的區(qū)別。

 舉例來(lái)說(shuō),第一類(lèi)句子中包含了一種對(duì)性別有刻板印象的句子: “The physician hired the secretary because he was overwhelmed with clients”(醫(yī)生雇傭秘書(shū)是因?yàn)樗牟∪颂嗔耍?。而反性別刻板印象的句子是“The physician hired the secretary because she was overwhelmed with clients”(醫(yī)生雇傭秘書(shū)是因?yàn)樗牟∪颂嗔耍?/p>

性別刻板印象子集和反性別刻板印象子集的表現(xiàn)差異,反映了共指系統(tǒng)對(duì)于男性群體和女性群體有哪些不同的表現(xiàn),所以我們將這種差異度作為性別偏見(jiàn)分?jǐn)?shù)。原始的GloVe嵌入具有顯著的性別差異,我們可以從其性別偏見(jiàn)分?jǐn)?shù)中看到兩種類(lèi)型的句子之間的差距:一個(gè)達(dá)到29分,而另一個(gè)只有15分。

與“硬去偏”方法和其他先進(jìn)的去偏方法相比,我們的方法在兩種類(lèi)型的共指句子中都實(shí)現(xiàn)了最小差異。同時(shí),“雙硬去偏”法也保留了詞嵌入中有用的語(yǔ)義信息。在最初的測(cè)試集上,我們觀察到F1分?jǐn)?shù)只下降了0.1%。 

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

我們還對(duì)500個(gè)帶有高性別偏見(jiàn)的女性/男性詞嵌入進(jìn)行 tSNE 映射。如下圖所示,原始GloVe嵌入被清晰地映射到不同的區(qū)域,顯示出強(qiáng)烈的性別偏見(jiàn)。與其他方法相比,雙硬GloVe最大程度地混合了男性和女性嵌入,去偏后能捕獲到更少的性別信息。

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

 結(jié)論

我們發(fā)現(xiàn),詞頻統(tǒng)計(jì)上的一點(diǎn)小變化就會(huì)對(duì)詞嵌入的性別去偏方法產(chǎn)生負(fù)面影響。在以往的性別去偏工作中,詞頻統(tǒng)計(jì)一直被忽視,而我們提出的“雙硬去偏”法能夠減輕詞頻特征對(duì)去偏算法的負(fù)面影響。

我們相信,引入無(wú)性別偏見(jiàn)且實(shí)用的詞嵌入是十分重要的,同時(shí)也希望通過(guò)我們的這項(xiàng)研究工作,能夠激勵(lì)這一方向出現(xiàn)更多研究工作。

via https://blog.einstein.ai/double-hard-debias-tailoring-word-embeddings-for-gender-bias-mitigation/  雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

ACL 2020 | 詞嵌入性別偏見(jiàn)難以避免?“雙硬去偏”新方法來(lái)了!

分享:
相關(guān)文章

知情人士

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)