丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

1

EMNLP最佳長論文作者獨家解讀:別讓機器學習放大性別偏見,其實男人也喜歡購物!

本文作者: 奕欣 2017-09-12 16:18
導語:用語料庫級別的限制避免機器學習模型放大性別偏見。

EMNLP最佳長論文作者獨家解讀:別讓機器學習放大性別偏見,其實男人也喜歡購物!

via cheatsheet

近日,自然語言處理領域頂級國際會議 EMNLP 于丹麥哥本哈根舉行。EMNLP是自然語言處理三大頂級會議(ACL, EMNLP, NAACL)之一,已經(jīng)于前段時間公布了錄用論文及最佳論文名單。詳情可參見雷鋒網(wǎng)AI科技評論此前文章:

萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文

EMNLP 2017 最佳論文揭曉,「男人也愛逛商場」獲最佳長論文

其中,弗吉尼亞大學趙潔玉、王天露、Vincente Ordonez、張凱崴及華盛頓大學的 Mark Yatskar 憑借「Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints」摘得最佳長論文。雷鋒網(wǎng)AI科技評論邀請了第一作者趙潔玉對此論文做了獨家解讀。

原文地址:https://arxiv.org/abs/1707.09457

概要

包含語言的視覺識別的任務,例如圖片標題標注,視覺問答系統(tǒng)以及視覺語義角色標注任務已經(jīng)成為從圖片中獲取信息的不同途徑。這些任務通常依賴于大量的數(shù)據(jù)集、結構化的預測方法以及深度學習提取圖片及語言中的豐富信息并以此解決這類問題。其中結構化的預測方法允許機器學習模型用標注之間的關系來提升預測的準確度。例如視覺語義角色標注任務(vSRL),需要對給定圖片中所展示的動詞以及與該動詞相關的幾個角色(工具,地點等)值進行預測。例如在圖1中,考慮到鏟子是一種常見的烹飪工具,結構化的預測模型會有很高的幾率將“tool”預測為“spatula”。

EMNLP最佳長論文作者獨家解讀:別讓機器學習放大性別偏見,其實男人也喜歡購物!

圖1 

盡管結構化的預測方法可以為我們提供較好的預測結果,但是這類方法會學習到數(shù)據(jù)集中存在的偏差 (bias)。如果不對模型進行修改限定,此類模型會做出具有偏見的預測。例如在上圖中,模型從數(shù)據(jù)集中學習到女性與做飯之間的聯(lián)系,即便給定一張描述男性做飯的圖片(1.4),模型仍然會預測其為女性。這種將女性與做飯之間聯(lián)系更緊密的情況,反映了一種社會成見,對不同的性別均有不良的影響。

在本文中,我們針對男女兩個性別進行研究,通過實驗發(fā)現(xiàn),模型不僅會學習到數(shù)據(jù)集中的偏差,并且會放大該偏差。我們提出了RBA算法用于解決被放大的偏差,并且驗證了我們的算法可以有效的減少放大的bias同時幾乎保持了原有的模型性能。

模型對偏差的放大

我們針對以下兩個任務進行研究:基于imSitu數(shù)據(jù)集的視覺語義角色標注(vSRL)任務以及基于COCO數(shù)據(jù)集的多標簽物體識別(MLC)任務。本文中將以vSRL(如上圖1)為例進行解釋。該任務的目標在于預測所給定圖片中的動詞,以及圖片中的其它角色。

在研究模型放大偏差的過程中,我們定義了測量集合以及屬性集合。前者包含了所能預測的動詞,比如cooking,washing等;后者則是一些人口特征,例如性別,年齡等。我們定義針對某動詞的性別比例,該比例取值[0,1],越接近于1,表明該動詞越傾向于男性。

我們也定義了如何計算放大的bias。例如在訓練集中,cooking的性別比例為33%,偏向于女性,但是在預測結果中,該比例變成了16%,表明這種bias被放大了17%。實驗結果如下圖2所示:不同的動詞對不同的性別表現(xiàn)出不同的偏見程度。例如上文所提到的cooking更傾向于女性,此外“購物”,“洗衣”等都更偏向于女性;“駕駛”,“射擊”以及“指導”則更偏向于男性。分析結果表明在vSRL任務中,所有動詞平均放大的bias率為5%,在MLC任務中,該值為3%。  

EMNLP最佳長論文作者獨家解讀:別讓機器學習放大性別偏見,其實男人也喜歡購物!

圖2 

對模型的修訂

驗證了模型對bias的放大作用后,我們提出了RBA算法對模型進行修訂以減少所放大的偏差。我們先從訓練集中獲取每個動詞的性別比例作為參考標準,并以此限制預測的結果,即每個動詞預測的性別比例應當在相應參考標準的特定范圍內。通過引入這些限制條件,我們將原有的模型變成一種具有限制的預測模型。

我們提出利用拉格朗日松弛方法對此類模型求解,該方法的優(yōu)點在于我們可以利用原有的預測方法而不必重新構造算法訓練模型,并且在所有限制條件均滿足的情況下,該算法可以保證達到最優(yōu)解。具體來說,我們對每一個限制條件設置了一個拉格朗日算子,循環(huán)地根據(jù)當前的預測結果更新所有的算子,根據(jù)這些新的拉格朗日算子來更新預測算法所利用的因子值,從而可以得到新的預測結果。當所有的限制條件均滿足或者已經(jīng)循環(huán)了足夠多的次數(shù)后,算法停止。

實驗結果(圖3)表明我們的算法可以有效的減少放大的偏見,并且不失原有模型的準確度。具體來說,在vSRL中,我們減少了40.5%的平均放大bias值,在MLC任務中,該值為47.5%。在準確度上,兩個模型幾乎保留了原有的準確度,應用算法前后只有0.1%的差距。 EMNLP最佳長論文作者獨家解讀:別讓機器學習放大性別偏見,其實男人也喜歡購物!

Bias on vSRL without RBA                                                      Bias on vSRL with RBA

圖3 算法在vSRL數(shù)據(jù)集上的結果

雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉載。詳情見轉載須知。

EMNLP最佳長論文作者獨家解讀:別讓機器學習放大性別偏見,其實男人也喜歡購物!

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說