丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給青暮
發(fā)送

0

近億級(jí)數(shù)據(jù)集下線,MIT道歉,ImageNet 亦或遭殃

本文作者: 青暮 編輯:劉曉坤 2020-07-02 10:14
導(dǎo)語(yǔ):持續(xù)的沉默只會(huì)在將來(lái)造成更多的傷害

近億級(jí)數(shù)據(jù)集下線,MIT道歉,ImageNet 亦或遭殃

作者 | 青暮、陳大鑫

編輯 | 叢末

麻省理工學(xué)院(MIT)已永久刪除包含8000萬(wàn)張圖像的Tiny Images數(shù)據(jù)集。
此舉是論文《Large image datasets: A pyrrhic win for computer vision?》中的發(fā)現(xiàn)導(dǎo)致的結(jié)果。論文作者在數(shù)據(jù)集中發(fā)現(xiàn)了許多有危害類別,包括種族歧視和性別歧視。這是依賴WordNet名詞來(lái)確定可能的類別而沒(méi)有檢查圖像標(biāo)簽帶來(lái)的結(jié)果。他們還確定ImageNet中也有類似的問(wèn)題,包括非自愿的色情材料等。
在The Register向MIT發(fā)出警示之后,該數(shù)據(jù)集已于本周刪除。MIT還敦促研究人員和開(kāi)發(fā)人員停止使用該數(shù)據(jù)集,并刪除任何副本。CSAIL的電氣工程和計(jì)算機(jī)科學(xué)教授Antonio Torralba表示:“實(shí)驗(yàn)室根本不知道這些令人反感的圖像和標(biāo)簽存在于數(shù)據(jù)集中。”他告訴The Register:“很明顯,我們應(yīng)該手動(dòng)篩選它們。為此,我們深表歉意?!?/span>
由于MIT在采集數(shù)據(jù)集時(shí)使用不當(dāng)?shù)姆椒?,這些系統(tǒng)可能將女性標(biāo)記為“ji女”或“biao子”,而對(duì)黑人和亞裔的描述則帶有貶義。該數(shù)據(jù)庫(kù)還包含標(biāo)有“cunt”的女性生殖器特寫(xiě)圖片,此外還包括帶有“nigger”(黑鬼)標(biāo)記的黑人和猴子的圖片,穿著比基尼或抱著孩子的婦女,被貼上“ji女”的標(biāo)簽,將日常圖像與誹謗、令人反感的語(yǔ)言聯(lián)系起來(lái),并把偏見(jiàn)引入AI模型。      
近億級(jí)數(shù)據(jù)集下線,MIT道歉,ImageNet 亦或遭殃       該圖展示了MIT數(shù)據(jù)集中標(biāo)有問(wèn)題單詞的圖片數(shù)量。
近億級(jí)數(shù)據(jù)集下線,MIT道歉,ImageNet 亦或遭殃
Tiny Images數(shù)據(jù)集可視化下線之前的屏幕快照。它展示了標(biāo)簽“ji女”的數(shù)據(jù)集示例,出于法律原因,已將其像素化。圖片包括母親抱著嬰兒的照片、圣誕老人的爆頭照片、色情女演員和穿著比基尼的女人的照片。
如今,Tiny Images數(shù)據(jù)集與更知名的ImageNet數(shù)據(jù)集都成為了評(píng)估計(jì)算機(jī)視覺(jué)算法的基準(zhǔn)。但是,與ImageNet不同,到目前為止,還沒(méi)有人檢查過(guò)Tiny Images中有問(wèn)題的內(nèi)容。
ImageNet也存在相同的問(wèn)題,因?yàn)樗彩褂肳ordNet進(jìn)行了標(biāo)記。名為ImageNet Roulette的實(shí)驗(yàn)讓人們將照片提交到ImageNet訓(xùn)練的神經(jīng)網(wǎng)絡(luò),一些人上傳了自拍照,但是當(dāng)軟件使用種族主義和冒犯性標(biāo)簽描述他們時(shí),他們感到震驚。
在這些龐大的數(shù)據(jù)集中,有問(wèn)題的圖像和標(biāo)簽所占的比例很小,很容易將它們當(dāng)作異?,F(xiàn)象而忽視掉。這部分?jǐn)?shù)據(jù)集在AI訓(xùn)練過(guò)程中通常不能得到均衡的分配。這就是面部識(shí)別算法難以識(shí)別女性和膚色較深的人的原因。底特律的一個(gè)黑人在今年早些時(shí)候被面部識(shí)別軟件誤認(rèn)為是可疑小偷后,被警察誤捕。近期頗有爭(zhēng)議的圖像翻譯算法PULSE則將奧巴馬的模糊照片變成了白種人。
 
1


禍起WordNet 

Torralba教授介紹了Tiny Images數(shù)據(jù)集的構(gòu)建方式:獲得大量單詞(包括貶義詞),然后編寫(xiě)代碼以使用這些單詞在網(wǎng)絡(luò)上搜索圖像并將其結(jié)合在一起。
Torralba教授說(shuō):“數(shù)據(jù)集包含直接從WordNet復(fù)制的53,464個(gè)不同名詞”然后,這些數(shù)據(jù)被用來(lái)從互聯(lián)網(wǎng)搜索引擎自動(dòng)下載相應(yīng)名詞的圖像,最后使用當(dāng)時(shí)可用的過(guò)濾器來(lái)收集8000萬(wàn)張圖片。”
WordNet于1980年代中期在普林斯頓認(rèn)知科學(xué)實(shí)驗(yàn)室建立,由George Armitage Miller創(chuàng)立,他是認(rèn)知心理學(xué)的創(chuàng)始人之一?!?Miller著迷于單詞之間的關(guān)系,Prabhu說(shuō):“數(shù)據(jù)庫(kù)本質(zhì)上反映了單詞如何相互關(guān)聯(lián)?!?/span>
例如,“貓”和“狗”比“貓”和“傘”更緊密相關(guān)。不幸的是,WordNet中的某些名詞是種族歧視的和侮辱性的。幾十年后的今天,這些術(shù)語(yǔ)困擾著現(xiàn)代機(jī)器學(xué)習(xí)。
“在構(gòu)建龐大的數(shù)據(jù)集時(shí),需要某種結(jié)構(gòu),” Birhane說(shuō):“這就是WordNet有效的原因。它為計(jì)算機(jī)視覺(jué)研究人員提供了一種對(duì)圖像進(jìn)行分類和標(biāo)記的方法。當(dāng)可以使用WordNet時(shí),為什么要自己手動(dòng)做呢?”
 
2


Tiny Images和ImageNet的批判研究

回到這件事的起因上,該論文的兩位作者是來(lái)自硅谷一家隱私初創(chuàng)公司UnifyID的首席科學(xué)家Vinay Prabhu和愛(ài)爾蘭都柏林大學(xué)的博士學(xué)位候選人Abeba Birhane,他們?cè)谘芯苛薓IT數(shù)據(jù)庫(kù)之后發(fā)現(xiàn)了成千上萬(wàn)張帶有針對(duì)黑人和亞洲人的種族主義誹謗和用于描述女性的貶義詞標(biāo)簽的圖像。之后他們以ImageNet-ILSVRC-2012數(shù)據(jù)集為例做了一些研究并發(fā)表了本篇論文。
作者調(diào)查了由于不嚴(yán)格且考慮不周的數(shù)據(jù)集管理做法而導(dǎo)致的整個(gè)社會(huì)以及個(gè)人所面臨的危害和威脅的情況,并且提出可能的糾正方法,并批評(píng)這些方法的利弊。作者適當(dāng)開(kāi)源了在此努力中生成的所有代碼和普查元數(shù)據(jù)集,以使計(jì)算機(jī)視覺(jué)社區(qū)得以建立。通過(guò)揭露威脅的嚴(yán)重性,作者希望激發(fā)大型數(shù)據(jù)集管理流程的強(qiáng)制性機(jī)構(gòu)審查委員會(huì)(IRB)的組成。
作者認(rèn)為在大數(shù)據(jù)時(shí)代,個(gè)人知情同意、隱私權(quán)或代理權(quán)的基本原則已逐漸被侵蝕。機(jī)構(gòu)、學(xué)術(shù)界和工業(yè)界,在未經(jīng)同意的情況下收集了數(shù)以百萬(wàn)計(jì)的人的圖像。如表1所示,在同行評(píng)議的文獻(xiàn)中發(fā)現(xiàn)了數(shù)以千萬(wàn)計(jì)的人物形象。這些圖片是在未經(jīng)個(gè)人同意或知情的情況下獲得的,也未經(jīng)IRB批準(zhǔn)收集。
近億級(jí)數(shù)據(jù)集下線,MIT道歉,ImageNet 亦或遭殃
作者對(duì)ImageNet數(shù)據(jù)集進(jìn)行了批判:
ImageNet數(shù)據(jù)集的出現(xiàn)被廣泛認(rèn)為是深度學(xué)習(xí)革命中的一個(gè)關(guān)鍵時(shí)刻,它改變了計(jì)算機(jī)視覺(jué)和人工智能。從圖像的可疑方式的來(lái)源,到圖像中人物的標(biāo)記,再到使用這些圖像訓(xùn)練人工智能模型的下游效果,ImageNet和大規(guī)模視覺(jué)數(shù)據(jù)集(LSVD)總體上構(gòu)成了計(jì)算機(jī)視覺(jué)的一個(gè)代價(jià)高昂的勝利。這場(chǎng)勝利是以傷害少數(shù)群體為代價(jià)的,并進(jìn)一步助長(zhǎng)了對(duì)個(gè)人和集體的隱私和知情權(quán)的逐漸侵蝕。當(dāng)更廣泛的計(jì)算機(jī)視覺(jué)社區(qū)缺乏對(duì)ImageNet數(shù)據(jù)集的審查,這只會(huì)鼓勵(lì)學(xué)術(shù)和商業(yè)機(jī)構(gòu)在沒(méi)有審查的情況下建立更大的數(shù)據(jù)集。
隨之作者又進(jìn)行了一些反思:
大型圖像數(shù)據(jù)集,如果沒(méi)有仔細(xì)考慮社會(huì)影響,就會(huì)對(duì)個(gè)人的福利和福利構(gòu)成威脅。允許人臉?biāo)阉鞯姆聪驁D像搜索引擎在過(guò)去的一年里取得了顯著而令人擔(dān)憂的效率。只需支付少量費(fèi)用,任何人都可以使用他們的門戶或API來(lái)運(yùn)行一個(gè)自動(dòng)化程序以發(fā)現(xiàn)ImageNet數(shù)據(jù)集中人類的“真實(shí)”身份。例如,在性工作受到社會(huì)譴責(zé)或法律定罪的社會(huì)中,通過(guò)圖像搜索重新識(shí)別性工作者,對(duì)受害者個(gè)人來(lái)說(shuō)確實(shí)是一種危險(xiǎn)。
說(shuō)到這里我們額外提一句,以上事情在中國(guó)也切切實(shí)實(shí)的正在發(fā)生著,國(guó)內(nèi)某家搜索引擎巨頭的老板曾在前年中國(guó)發(fā)展高層論壇現(xiàn)場(chǎng)就人們關(guān)心的數(shù)據(jù)和隱私問(wèn)題談到:“中國(guó)人更加開(kāi)放,對(duì)隱私問(wèn)題沒(méi)有那么敏感,如果他們可以用隱私交換便捷性,很多情況下他們是愿意的?!?/span>
哦,怪不得他之后在自家公司的大會(huì)上被人潑了"宏顏禍水",另外這家公司出品的“百毒”識(shí)圖相信大家也都用過(guò)。
最后作者給了一些解決方案建議:
1、合成真實(shí)和數(shù)據(jù)集蒸餾
這里的基本思想是在模型訓(xùn)練期間使用(或增強(qiáng))合成圖像來(lái)代替真實(shí)圖像。方法包括使用手繪草圖圖像(imagenet sketch),使用GAN生成的圖像和數(shù)據(jù)集蒸餾等技術(shù),其中一個(gè)數(shù)據(jù)集或一個(gè)數(shù)據(jù)集的子集被提煉成幾個(gè)具有代表性的合成樣本。這是一個(gè)新興的領(lǐng)域,在跨視覺(jué)域的無(wú)監(jiān)督域適應(yīng)和通用數(shù)字分類方面有一些有希望的結(jié)果。
2、對(duì)數(shù)據(jù)集強(qiáng)化倫理過(guò)濾
3、定量數(shù)據(jù)集審計(jì):以ImageNet為模板
近億級(jí)數(shù)據(jù)集下線,MIT道歉,ImageNet 亦或遭殃      近億級(jí)數(shù)據(jù)集下線,MIT道歉,ImageNet 亦或遭殃
作者對(duì)ImageNet進(jìn)行了跨范疇的定量分析,以評(píng)估道德違規(guī)的程度和基于模型注釋的方法的可行性。這導(dǎo)致了ImageNet普查,需要對(duì)57個(gè)不同指標(biāo)進(jìn)行圖像級(jí)和類級(jí)分析,這些指標(biāo)包括計(jì)數(shù)、年齡和性別(CAG)、NSFW評(píng)分、類別標(biāo)簽的語(yǔ)義和使用預(yù)先訓(xùn)練的模型分類的準(zhǔn)確性。
 
3


結(jié)論與討論

作者試圖引起機(jī)器學(xué)習(xí)界對(duì)大規(guī)模數(shù)據(jù)集的社會(huì)和倫理影響的關(guān)注,例如非一致同意的圖像問(wèn)題和經(jīng)常隱藏的分類問(wèn)題一直被認(rèn)為是計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域最令人難以置信的突破之一。
ImageNet的成就確實(shí)值得慶祝,并且創(chuàng)造者們?yōu)榻鉀Q一些倫理問(wèn)題所做的努力也值得認(rèn)可。盡管如此,ImageNet以及其他大型圖像數(shù)據(jù)集仍然很麻煩。持續(xù)的沉默只會(huì)在將來(lái)造成更多的傷害而不是帶來(lái)好處。在這方面,作者概述了一些解決辦法,包括審計(jì)卡,可以考慮改善提出的一些關(guān)切。作者還策劃了元數(shù)據(jù)集,并將代碼開(kāi)源,以ILSVRC2012數(shù)據(jù)集為模板進(jìn)行定量審計(jì)。
作者敦促機(jī)器學(xué)習(xí)界密切關(guān)注他們的工作對(duì)社會(huì),特別是對(duì)弱勢(shì)群體的直接和間接影響。在這方面,必須意識(shí)到當(dāng)前工作的歷史前因、背景和政治層面。作者希望這項(xiàng)工作有助于提高人們的意識(shí),并為繼續(xù)討論機(jī)器學(xué)習(xí)中的倫理和正義提供幫助。
 
4


一些其他觀點(diǎn)

1、副本無(wú)處不在
即便MIT主動(dòng)下線了Tiny Images數(shù)據(jù)集,但是數(shù)據(jù)副本無(wú)處不在。很多用戶都下載過(guò)這些副本到本地,如何保證這些副本不會(huì)被再次上傳到網(wǎng)絡(luò)呢?在reddit上有網(wǎng)友表示知道該數(shù)據(jù)集的副本地址。
2、人工智能鑒黃系統(tǒng)的工作還能繼續(xù)嗎?
如果想要訓(xùn)練一個(gè)人工智能鑒黃系統(tǒng),那么必須要先人為的制作數(shù)據(jù)集也就是要對(duì)一些圖片打上標(biāo)簽說(shuō)這是色情圖片。
問(wèn)題是這些圖片從何而來(lái)呢?
如果是用爬蟲(chóng)程序從色情網(wǎng)站上收集,那么怎么保證這些圖片當(dāng)中哪些能用呢?比方說(shuō)有些無(wú)辜受害的情侶被偷拍的照片被不法分子上傳到色情網(wǎng)站,然后爬蟲(chóng)程序又把它們下載下來(lái),我們難道可以哪怕是為了開(kāi)發(fā)鑒黃系統(tǒng)而理所當(dāng)然的使用這樣照片嗎?這難道不是對(duì)無(wú)辜受害者的隱私再一次侵犯嗎?
另外如果說(shuō)收集的是色情從業(yè)者(他們的國(guó)家合法化這項(xiàng)職業(yè))的視頻和圖片,那TA們的肖像權(quán)就不值得尊重和保護(hù)了?
所以說(shuō)一旦考慮到要嚴(yán)格遵守隱私權(quán)和肖像權(quán),人工智能鑒黃系統(tǒng)就難以為繼。
3、利用人工智能程序自動(dòng)判斷種族、性別等歧視是個(gè)矛盾
因?yàn)槿绻覀円紤]制造一個(gè)AI系統(tǒng)來(lái)自動(dòng)幫助我們判別某些圖片是不是存在某種歧視,那么我們同樣需要收集和利用這些有歧視的圖片,可是在得不到本人允許的情況下我們又何以冠冕堂皇的利用這些圖片來(lái)做成“典型"來(lái)告訴人工智能說(shuō):嗨AI,快看!這個(gè)就是XX歧視的圖片,你可得“記住”哈!
那就讓我們“愉快”地拋棄人工智障回到農(nóng)耕(手工)時(shí)代吧!
可是,難道個(gè)人或者企業(yè)私自收集并利用這些包含隱私/歧視的數(shù)據(jù)就合法了嗎???
所以,如何建立一個(gè)公開(kāi)的征得當(dāng)事人同意的令公眾信服的數(shù)據(jù)集就成為了當(dāng)前和未來(lái)的一大難點(diǎn)。
參考內(nèi)容:
https://www.reddit.com/r/MachineLearning/comments/hjelz4/n_mit_permanently_pulls_offline_tiny_images/
https://arxiv.org/abs/2006.16923
https://www.theregister.com/2020/07/01/mit_dataset_removed/

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

近億級(jí)數(shù)據(jù)集下線,MIT道歉,ImageNet 亦或遭殃

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)