0
雷鋒網(wǎng)AI科技評(píng)論按:用網(wǎng)絡(luò)上現(xiàn)成的語(yǔ)言資料訓(xùn)練機(jī)器學(xué)習(xí)模型已經(jīng)是現(xiàn)在主流的做法。研究者們希望人工智能從其中學(xué)到對(duì)人類自然語(yǔ)言的理解,但是人工智能所能學(xué)到的內(nèi)容還遠(yuǎn)不止語(yǔ)法規(guī)則和詞語(yǔ)意思。普林斯頓大學(xué)博士Aylin Caliskan等研究者已經(jīng)在這方面做出了一些研究,以下是他們的發(fā)現(xiàn),雷鋒網(wǎng)編譯。
關(guān)于未來(lái)的AI會(huì)是什么樣子的討論從未停止過(guò),有一些專家認(rèn)為這些機(jī)器會(huì)具有很強(qiáng)的邏輯性,而且非常客觀非常理性。但是普林斯頓大學(xué)的研究者們已經(jīng)證實(shí)了,人工智能其實(shí)也會(huì)學(xué)到創(chuàng)造它們的人的壞習(xí)慣。
機(jī)器學(xué)習(xí)程序通常是用網(wǎng)絡(luò)上就能找到的正常人類對(duì)話進(jìn)行訓(xùn)練的,那么它們?cè)趯W(xué)習(xí)語(yǔ)言的過(guò)程中,也能夠同步學(xué)到隱藏在字面意思后面的文化偏見(jiàn)。
4月14日的《科學(xué)》雜志刊登了研究者們的這項(xiàng)發(fā)現(xiàn)。Arvind Narayanan是這篇論文的作者之一。他擔(dān)任著普林斯頓大學(xué)和CITP(信息技術(shù)政策研究所)的副教授職位,同時(shí)他還是斯坦福法學(xué)院網(wǎng)絡(luò)與社會(huì)研究中心合作學(xué)者。在他看來(lái),“機(jī)器學(xué)習(xí)在公平和偏見(jiàn)方面表現(xiàn)出的問(wèn)題會(huì)對(duì)社會(huì)產(chǎn)生極為重要的影響。”
論文的第一作者Aylin Caliskan在普林斯頓大學(xué)的博士后工作站進(jìn)行著研究,他同樣加入了CITP。論文還有一位參與者是英國(guó)巴斯大學(xué)的學(xué)生,也加入了CITP。
Narayanan說(shuō):”我覺(jué)得目前的狀況是,這些人工智能系統(tǒng)正在給這些曾經(jīng)存在過(guò)的偏見(jiàn)一個(gè)持續(xù)下去的機(jī)會(huì)?,F(xiàn)代社會(huì)可能無(wú)法接受這些偏見(jiàn),我們也需要避免出現(xiàn)這些偏見(jiàn)?!?/p>
研究人員用內(nèi)隱聯(lián)想測(cè)驗(yàn)(IAT)的方法來(lái)測(cè)試機(jī)器學(xué)習(xí)程序的偏見(jiàn)程度。自從上世紀(jì)90年代華盛頓大學(xué)開(kāi)發(fā)出了這套測(cè)試以來(lái),它作為人類偏見(jiàn)的試金石,被運(yùn)用在無(wú)數(shù)的社會(huì)心理學(xué)研究中。它的測(cè)試過(guò)程中會(huì)要求人類被測(cè)者把電腦屏幕上的單詞根據(jù)意思進(jìn)行配對(duì),并以毫秒為單位記錄下所花的時(shí)間。這項(xiàng)測(cè)試也反復(fù)證明了,如果被測(cè)者覺(jué)得兩個(gè)單詞的意思越匹配,他所花的時(shí)間就越會(huì)明顯地短。
比如,“玫瑰”、"雛菊" 這樣的單詞就可以和正面的詞匯 "愛(ài)撫"或者“愛(ài)情”配對(duì),而"螞蟻"、"飛蛾"這樣的單詞就會(huì)和“骯臟”、“丑陋”這樣的單詞配對(duì)。人們給描述花的單詞配對(duì)的時(shí)候,會(huì)更快地配對(duì)到正面詞匯上去;同樣地,給描述昆蟲(chóng)的單詞配對(duì)的時(shí)候,就會(huì)更快地配對(duì)到負(fù)面詞匯上去。
普雷斯頓團(tuán)隊(duì)用機(jī)器學(xué)習(xí)版的IAT測(cè)試程序GloVe設(shè)計(jì)了一個(gè)實(shí)驗(yàn)。GloVe是斯坦福大學(xué)的研究者編寫的熱門開(kāi)源程序,單獨(dú)看甚至可以作為一個(gè)初創(chuàng)機(jī)器學(xué)習(xí)公司產(chǎn)品的核心功能。GloVe的算法可以算出一段話中指定的單詞一同出現(xiàn)的概率。那么經(jīng)常一同出現(xiàn)的單詞之間就有更高的相關(guān)性,不經(jīng)常一起出現(xiàn)的單詞的相關(guān)性就較低。
斯坦福大學(xué)的研究者們讓GloVe從網(wǎng)絡(luò)上廣泛獲取了大約8400億詞的內(nèi)容。在這樣的詞匯庫(kù)中,Narayanan和他的同事們查看了很多組目標(biāo)詞匯,比如“程序員、工程師、科學(xué)家”,或者“護(hù)士、老師、圖書(shū)館員”,然后跟兩組屬性詞匯比如“男的、男性”和“女的、女性”進(jìn)行交叉對(duì)比,看看人類在這些事情上會(huì)有怎樣的偏見(jiàn)。
然后結(jié)果展示出,既有“對(duì)花的喜歡多一些、對(duì)昆蟲(chóng)的喜歡少一些”這樣比較單純、無(wú)攻擊性的偏好存在,也有跟性別、種族相關(guān)的嚴(yán)重偏見(jiàn)出現(xiàn)。普林斯頓的機(jī)器學(xué)習(xí)測(cè)試與人類參與對(duì)應(yīng)的IAT測(cè)試體現(xiàn)出了如出一轍的結(jié)果。
具體舉個(gè)例子,這個(gè)機(jī)器學(xué)習(xí)程序會(huì)更多地把帶有家庭屬性的單詞和女性相關(guān)聯(lián),比如“父母”和“婚禮”;跟男性相關(guān)聯(lián)更多的則是與事業(yè)相關(guān)的單詞,比如“專業(yè)性”和“薪水”。當(dāng)然了,這種結(jié)果很大程度上是對(duì)不同性別有著不對(duì)等的社會(huì)職能的真實(shí)、客觀反映,正如現(xiàn)實(shí)世界中確實(shí)有77%的美國(guó)計(jì)算機(jī)程序員都是男性。
這種社會(huì)職能的偏見(jiàn)最終可能會(huì)帶來(lái)有害的男權(quán)主義影響。比如,機(jī)器學(xué)習(xí)程序有可能在對(duì)句子做翻譯的過(guò)程中體現(xiàn)出、甚至加強(qiáng)了對(duì)性別的刻板印象。用到土耳其語(yǔ)中的不區(qū)分性別的第三人稱代詞”o”的時(shí)候,谷歌翻譯卻會(huì)把性別無(wú)關(guān)的”o bir doctor”和”o bir hem?ire”(醫(yī)生和護(hù)士)翻譯成帶有明顯性別區(qū)分的“他是醫(yī)生”和“她是護(hù)士”。
“機(jī)器學(xué)習(xí)并不會(huì)因?yàn)樗鼈兊脑O(shè)計(jì)和運(yùn)行依靠數(shù)學(xué)和算法就變得客觀和公正,這個(gè)觀點(diǎn)在這篇文章中得到了重申;”微軟紐約研究院的高級(jí)研究員Hanna Wallach這樣說(shuō),她雖然沒(méi)有親身參與這項(xiàng)研究,但是她很清楚狀況,”相反地,只要機(jī)器學(xué)習(xí)的程序是通過(guò)社會(huì)中已經(jīng)存在的數(shù)據(jù)進(jìn)行訓(xùn)練的,那么只要這個(gè)社會(huì)還存在偏見(jiàn),機(jī)器學(xué)習(xí)也就會(huì)重現(xiàn)這些偏見(jiàn)。"
研究者們還發(fā)現(xiàn),機(jī)器學(xué)習(xí)程序更容易讓非洲裔美國(guó)人的名字和不愉快的詞語(yǔ)產(chǎn)生關(guān)聯(lián);這種事情就不怎么會(huì)發(fā)生在歐洲裔美國(guó)人名字上。同樣地,這些偏見(jiàn)在人類中也大規(guī)模存在。芝加哥大學(xué)的Marianne Bertrand和哈佛大學(xué)的Sendhil Mullainatha在2004年合作發(fā)表過(guò)一篇著名論文,其中他們向1300個(gè)招聘職位發(fā)送了接近5000封簡(jiǎn)歷,而這些簡(jiǎn)歷間的區(qū)別僅僅在于求職者的名字是傳統(tǒng)歐洲裔美國(guó)人的還是傳統(tǒng)非洲裔美國(guó)人的。結(jié)果是驚人的,前者得到面試邀請(qǐng)的概率要比后者高50%。
通過(guò)給底層的AI系統(tǒng)和機(jī)器學(xué)習(xí)程序開(kāi)發(fā)明確的、數(shù)學(xué)性的指導(dǎo)規(guī)范,有可能可以避免讓電腦程序把人類文化中的刻板性別觀念一直延續(xù)下去。就像爸爸媽媽或者老師們給小孩逐漸灌輸公平公正的觀念一樣,人工智能的設(shè)計(jì)者們也可以努力讓人工智能更多地反映出人性中更好的那一面。
Narayanan最后總結(jié)說(shuō):“我們?cè)谶@篇文章中研究的偏見(jiàn)確實(shí)很容易在人工智能系統(tǒng)的設(shè)計(jì)過(guò)程被忽視,這些社會(huì)中的偏見(jiàn)和刻板印象以復(fù)雜的方式反映在我們語(yǔ)言中,而且難以去除。相比于減少甚至完全消除這些偏見(jiàn),我覺(jué)得更好的方式是先接受這些偏見(jiàn)是我們語(yǔ)言習(xí)慣的一部分,然后在機(jī)器學(xué)習(xí)方面建立明確的標(biāo)準(zhǔn)來(lái)區(qū)分哪些偏見(jiàn)是我們可以接受的,哪些是不允許出現(xiàn)的?!?/p>
via Biased bots: Artificial-intelligence systems echo human prejudices
雷鋒網(wǎng)AI科技評(píng)論翻譯
AI科技評(píng)論招業(yè)界記者啦!
在這里,你可以密切關(guān)注海外會(huì)議的大牛演講;可以采訪國(guó)內(nèi)巨頭實(shí)驗(yàn)室的技術(shù)專家;對(duì)人工智能的動(dòng)態(tài)了如指掌;更能深入剖析AI前沿的技術(shù)與未來(lái)!
如果你:
*對(duì)人工智能有一定的興趣或了解
* 求知欲強(qiáng),具備強(qiáng)大的學(xué)習(xí)能力
* 有AI業(yè)界報(bào)道或者媒體經(jīng)驗(yàn)優(yōu)先
簡(jiǎn)歷投遞:
lizongren@leiphone.com
相關(guān)文章:
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。