丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
國際 正文
發(fā)私信給亞萌
發(fā)送

1

計算機系統(tǒng)里的偏見和歧視:除了殺死,還有其他方法

本文作者: 亞萌 2016-07-28 18:28
導(dǎo)語:還記得被殺死的人工智能少女Tay嗎,更微妙的歧視還有很多。。。

也許讀者還能記得,不久前一個人工智能少女之死。她的名字叫“Tay.ai“,是微軟的人工智能研究成果。Tay在推特上有一個自己的賬號,用戶只要發(fā)推艾特她一下,就能收到她的即時回復(fù)。

計算機系統(tǒng)里的偏見和歧視:除了殺死,還有其他方法

Tay初初以一個清新可愛的少女形象出現(xiàn),但是由于她的算法設(shè)定是通過學(xué)習(xí)網(wǎng)友的對話來豐富自己的語料庫,很快她被網(wǎng)友充斥著激烈偏見的話語”帶壞“,變成了一個徹底的仇視少數(shù)族裔、仇視女性、沒有任何同情心的種族主義者。她成了這個社會一切偏見的集合體。

最終,為了平息公眾的憤怒,微軟選擇把她”殺“死。

因為機器學(xué)習(xí)的目的本來就是理解人、模仿人,發(fā)展的過程中必定會帶有人類社會里不那么光明的一面。可以說,在機器學(xué)習(xí)中存在著很多人類社會帶來的偏見影響,然而并不是所有的都像Tay這么明顯罷了。

最近,谷歌的一款數(shù)據(jù)庫中,就被人發(fā)現(xiàn)了其微妙的”性別歧視“現(xiàn)象。

偏見之誕生

事情要回到兩年前,谷歌的幾個研究員啟動了一個神經(jīng)網(wǎng)絡(luò)項目,目標(biāo)是找出單詞相鄰組合的各種模式,而所要使用的語料庫來自谷歌新聞文本中的300萬個單詞。

最終得出的研究結(jié)果很復(fù)雜,但團隊人員發(fā)現(xiàn)可以用向量空間圖來展示這些模式,其中大約有300個維度。

在向量空間中,具有相似意義的單詞會占據(jù)同一塊位置,而單詞間的關(guān)系,可以通過簡單的向量代數(shù)來捕捉。例如,“男人與國王就相當(dāng)于女人與王后”,可以使用符號表示為“男人:國王::女人:王后”。相似的例子有,“姐妹:女人::兄弟:男人”等等。這種單詞之間的關(guān)系被稱為”單詞嵌入“。

最后,蘊含了諸多單詞嵌入的數(shù)據(jù)庫被稱為 Word2vec,非常強大。大量研究人員開始使用它幫助自己的工作,比如機器翻譯和智能網(wǎng)頁搜索。這個數(shù)據(jù)庫就這么被用了好幾年。

但是有一天,波士頓大學(xué)的 Tolga Bolukbasi的和幾位來自微軟研究院的人員發(fā)現(xiàn),這個數(shù)據(jù)庫存在一個很大的問題:露骨的性別歧視。

他們出具了很多證據(jù)。如果你在數(shù)據(jù)庫里詢問”巴黎:法國::東京:x“,那么系統(tǒng)給你的答案是 x=日本。但是,如果問題變?yōu)椤备赣H:醫(yī)生::母親:x“時,給出的答案是 x=護士。再比如問題”男人:程序員::女人:x“,答案為 x=主婦。

這是非??膳碌男詣e歧視了。出現(xiàn)這個現(xiàn)象的原因是Word2vec語料庫里的文本本身帶有性別偏見,之后的向量空間圖隨之也受到影響。 Bolukbasi不無失望地說道:”我們原以為來自谷歌新聞的單詞嵌入會較少有性別偏見,因為這些文章都是由專業(yè)的新聞記者撰寫的。”

有什么影響?

要知道,谷歌的這個數(shù)據(jù)庫已經(jīng)被各行各業(yè)的研究開發(fā)人員使用,比如網(wǎng)頁搜索引擎。在原本的Word2vec 中,“程序員”這個單詞與男人的關(guān)系比女人的關(guān)系更強,那么如果雇主在尋找人才時輸入“程序員簡歷”,搜索結(jié)果里顯示的男性簡歷就要遠(yuǎn)遠(yuǎn)排在女性簡歷的前面,而這顯然極為不公平。而這一切都在不知不覺中發(fā)生。就像Bolukbasi所說的:“單詞嵌入不僅僅反映了現(xiàn)有的偏見現(xiàn)象,而且還進一步放大了偏見?!?/span>

關(guān)鍵是:怎么解決呢?

Bolukbasi 和他的同事們給出了一個方案:理論上,可以把性別歧視看作是這個向量空間的一種彎曲變形,找出導(dǎo)致這種變形的源頭,糾正它,同時保持整個系統(tǒng)的完整性。

在實際操作中,最困難的部分就是找出這種變形,本質(zhì)上指的是哪些單詞嵌入關(guān)系?

他們采取的方法是,在數(shù)據(jù)庫里找出與“她:他 ”這兩個單詞產(chǎn)生關(guān)系的一系列單詞,由此產(chǎn)生一幅巨大的性別類比的列表。比如:助產(chǎn)士:醫(yī)生 、縫紉:木工、 專業(yè)護士:物理學(xué)家、 妓女:懦夫、美發(fā)師:理發(fā)師、裸體:赤膊、 巨乳:屁股、咯咯笑:咧嘴笑、保姆:司機等等。

接下來,他們需要回答的問題是,這些類比是恰當(dāng)?shù)倪€是不恰當(dāng)?shù)摹_@樣海量的判斷任務(wù)擺在面前,研究人員遂采取了“眾包”--在亞馬遜土耳其機器人(Amazon’s Mechanical Turk)的平臺上發(fā)布任務(wù)。亞馬遜土耳其機器人是一個人工智能類的眾包平臺,研究機構(gòu)在上面發(fā)布任務(wù),普通人上這個平臺攬活并賺取一定的報酬,比如調(diào)查問卷這種任務(wù)就比較常見。

Bolukbasi 團隊將每一個類比,比如“她:他 ::助產(chǎn)士:醫(yī)生”交給10個任務(wù)者,讓他們來判定這個關(guān)系是否是恰當(dāng)?shù)?。如果超過半數(shù)的人認(rèn)為該關(guān)系存在偏見,那么就認(rèn)定這個類比關(guān)系不恰當(dāng),需要修改。

由此,研究人員繪制了一個完整的性別偏見單詞關(guān)系數(shù)據(jù)集,他們弄清楚這些數(shù)據(jù)是如何影響了向量空間的形狀,以及通過移除這個變形,最終向量空間的形狀會發(fā)生怎樣的改變。 他們把這個過程稱為“硬去偏”( hard de-biasing)。

至少不放大這些偏見

改善的最終結(jié)果令人滿意。研究人員使用經(jīng)過修繕的向量空間,測試產(chǎn)生了一系列新的跟”她:他“有關(guān)的類比,得出的結(jié)果有母雞:公雞、女孩們:男孩們、女兒:兒子等。這個向量空間的性別偏見大大減少了。

研究結(jié)果如下圖所示,綠色線條顯示經(jīng)過“硬去偏”之后的帶有偏見的單詞關(guān)系數(shù)量顯著減少。

計算機系統(tǒng)里的偏見和歧視:除了殺死,還有其他方法

Bolukbasi 說:”通過實證評估,我們的的算法顯著降低了無論是直接的還是間接的性別偏見,同時保留了單詞嵌入的有效性?!?/span>

有一種觀點認(rèn)為,單詞嵌入僅僅反映了社會中已存的偏見,因此人們應(yīng)該試圖去糾正社會而不是糾正單詞嵌入。 Bolukbasi和他的同事們認(rèn)為自己的行為恰好蘊含在糾正整個社會的過程之中。“如今的計算機系統(tǒng)越來越依賴于單詞嵌入,我們在單詞嵌入上的小小努力最終希望能改善整個社會的性別偏見現(xiàn)象?!?/span>

這是非常可敬的目標(biāo)。就像他們團隊最終總結(jié)的,“至少,機器學(xué)習(xí)不應(yīng)該被用于放大這些偏見,即使是無心的?!?/span>

Via MIT Technology Review

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報道
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說