丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給青暮
發(fā)送

0

Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

本文作者: 青暮 編輯:劉曉坤 2020-06-28 17:08
導(dǎo)語:爭論的焦點(diǎn)在于:AI產(chǎn)生偏見的原因是否只是數(shù)據(jù)集導(dǎo)致?算法本身的缺陷能不能成為原因?

Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

作者 | 青 暮

編輯 | 叢 末

近期一篇關(guān)于圖像超分辨率的論文引起了不小的爭論,一切都起源于以下這張圖片: 

Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

針對(duì)這張圖,Yann LeCun在推特上發(fā)表了這么一句話:“當(dāng)數(shù)據(jù)有偏見時(shí),機(jī)器學(xué)習(xí)系統(tǒng)就變得有偏見。這個(gè)人臉上采樣系統(tǒng)讓每個(gè)人看起來都像白人,因?yàn)榫W(wǎng)絡(luò)是在FlickFaceHQ數(shù)據(jù)集上預(yù)訓(xùn)練的,而這個(gè)數(shù)據(jù)集主要包含白人圖像?!?/p>

              Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

這為LeCun招來了不少的批評(píng),很多網(wǎng)友認(rèn)為LeCun在提出狹隘甚至錯(cuò)誤的觀點(diǎn)誤導(dǎo)人們,并紛紛提出了自己的質(zhì)疑。LeCun對(duì)這些質(zhì)疑一一回應(yīng),但仍得不到理解。最后LeCun不得不一條一條地解釋自己的觀點(diǎn),才緩和了這場爭論的氣氛。

爭論的焦點(diǎn)在于:AI產(chǎn)生偏見的原因是否只是數(shù)據(jù)集導(dǎo)致?算法本身的缺陷能不能成為原因?

網(wǎng)友們的論點(diǎn)主要包括以下幾點(diǎn): 

1、只要是在有偏見數(shù)據(jù)上進(jìn)行基準(zhǔn)測試,那么這樣的偏見也會(huì)反映在機(jī)器學(xué)習(xí)系統(tǒng)的歸納偏置上。

用有偏見的基準(zhǔn)推進(jìn)機(jī)器學(xué)習(xí)并要求工程師簡單地“使用無偏見的數(shù)據(jù)重新訓(xùn)練模型”是沒有用的。

2、我們不都知道機(jī)器學(xué)習(xí)算法帶有數(shù)據(jù)偏見以外的歸納偏置嗎?

3、當(dāng)數(shù)據(jù)帶有偏見時(shí),機(jī)器學(xué)習(xí)系統(tǒng)就是有偏見的。但某些機(jī)器學(xué)習(xí)系統(tǒng)的偏見不是由于數(shù)據(jù),并且構(gòu)建100%無偏見的數(shù)據(jù)集在實(shí)際上是不可能的。并且我們發(fā)現(xiàn)很多時(shí)候,假如數(shù)據(jù)帶有少量的偏見,系統(tǒng)會(huì)將其放大,并變得更加有偏見。

4、在完整的美國人數(shù)據(jù)集上訓(xùn)練:當(dāng)你使用L2損失,大多數(shù)人都像白人;當(dāng)你使用L1損失,大多數(shù)人都像黑人。別再覺得偏見和算法無關(guān)了。

5、承認(rèn)這個(gè)結(jié)論要求極大地縮小算法的定義范圍。你忽略了表征的選擇、損失函數(shù)的選擇、訓(xùn)練方法的選擇以及超參數(shù)等等。

6、確實(shí),這是個(gè)需要證明的大膽斷言。AI學(xué)習(xí)過程應(yīng)該是架構(gòu)、數(shù)據(jù)、訓(xùn)練算法、損失函數(shù)等等的相互作用。

對(duì)于這些評(píng)論,LeCun澄清道,他只是認(rèn)為,在大多數(shù)現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)中,數(shù)據(jù)是主要的偏見來源。   

     Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?      

LeCun 表示:

在7年前,大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)使用手工特征,這是偏見的主要來源。但是現(xiàn)在,人們開始使用深度學(xué)習(xí)架構(gòu),很大程度上減少了源于特征選擇和架構(gòu)設(shè)計(jì)的偏見。所以我才認(rèn)為現(xiàn)在數(shù)據(jù)是主要的偏見來源。我不是在討論機(jī)器學(xué)習(xí)理論性質(zhì)上的歸納偏置(這是獨(dú)立于數(shù)據(jù)的)。我所討論的是現(xiàn)在在機(jī)器學(xué)習(xí)系統(tǒng)中經(jīng)常見到的偏見,這些偏見可能源于特征或數(shù)據(jù)。但如果特征是用深度學(xué)習(xí)學(xué)到的,那么偏見不應(yīng)該主要存在于數(shù)據(jù)嗎?” 


另外,相比損失函數(shù)的選擇,通過在訓(xùn)練過程中均衡樣本的類別頻率來修正這種偏見會(huì)遠(yuǎn)遠(yuǎn)更加高效。

但是也有學(xué)者認(rèn)為算法和數(shù)據(jù)之間并沒有清晰的分界線,均衡樣本的類別頻率也是一種算法的選擇。偏見并非單純來源于數(shù)據(jù),也可能取決于研究人員本身。 

對(duì)于也可能取決于“研究人員”本身這一觀點(diǎn),LeCun回應(yīng)道:

當(dāng)然。但是在logistic 回歸、全連接網(wǎng)絡(luò)或卷積網(wǎng)絡(luò)之間進(jìn)行選擇,并不會(huì)導(dǎo)致系統(tǒng)固有地偏向某些類型的人。當(dāng)手動(dòng)設(shè)計(jì)特征時(shí),就會(huì)引入偏見。而且,數(shù)據(jù)顯然是可以有偏見的。        

Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

到了這一步,爭論各方似乎都不太清楚對(duì)方在表達(dá)什么了。于是最后,LeCun在一系列的推文中清楚地表達(dá)了自己的觀點(diǎn):

我沒有說“僅當(dāng)數(shù)據(jù)有偏見時(shí)機(jī)器學(xué)習(xí)系統(tǒng)才有偏見”。


我只是表達(dá)了對(duì)PULSE這篇論文的看法。 


機(jī)器學(xué)習(xí)系統(tǒng)中導(dǎo)致社會(huì)偏見的原因很多(這里不談?wù)摳话愕臍w納偏置):


1.如何收集數(shù)據(jù)和格式化 

2.特征設(shè)計(jì)

3.模型的架構(gòu)

4.目標(biāo)函數(shù)

5.部署方式 


當(dāng)使用沒有手工特征的原始輸入時(shí)(如現(xiàn)代深度學(xué)習(xí)系統(tǒng)中常見的那樣),特征設(shè)計(jì)引起的偏差的重要性要小得多。


如果使用別人的預(yù)訓(xùn)練模型作為特征提取器,特征將包含該系統(tǒng)的偏見。 

也就是說,LeCun并非不同意質(zhì)疑他的專家們的觀點(diǎn),只是他當(dāng)時(shí)發(fā)表的觀點(diǎn)建立在特定的條件下,而沒有表述清楚。

爭論的來源:PULSE模型訓(xùn)練的結(jié)果 

最開始那張引起爭議的圖片來源于提出PULSE這一模型的論文。具體而言是有人用作者在論文中開源的代碼進(jìn)行了模型推理:用奧巴馬的打碼圖像進(jìn)行了試驗(yàn),結(jié)果發(fā)現(xiàn)奧巴馬被還原成了白人。   

    Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

論文地址:https://arxiv.org/pdf/2003.03808.pdf

還原成白人這個(gè)結(jié)果實(shí)際上并不奇怪,因?yàn)镻ULSE就是建立在StyleGAN的基礎(chǔ)上實(shí)現(xiàn)的,而StyleGAN所用的數(shù)據(jù)集是FFHQ,這個(gè)數(shù)據(jù)集里包含了90%以上的白人人臉。 

PULSE的特點(diǎn)在于,可以將多個(gè)不同但相似的人臉圖像聚合為同一個(gè)低分辨率圖像。 

      Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?       

論文作者之一、北卡羅來納州達(dá)勒姆市杜克大學(xué)計(jì)算機(jī)科學(xué)教授Cynthia Rudin說:“我們已經(jīng)證明人們無法從模糊的圖像中進(jìn)行人臉識(shí)別,因?yàn)榭赡苄苑浅6?。因此,縮放和增強(qiáng)不可能超過某個(gè)閾值水平。”

Rudin說:“過去,許多算法都試圖從低分辨率恢復(fù)高分辨率圖像?!?這可能是錯(cuò)誤的方法,原始圖像實(shí)際上是信息稀疏的。因此,奧巴馬的打碼圖像還原后也不一定是奧巴馬,我們會(huì)堅(jiān)持認(rèn)為那張圖像的原型必然是奧巴馬,也是由于記憶先驗(yàn)導(dǎo)致的偏見。 

當(dāng)然這也不能否認(rèn)該模型確實(shí)存在偏見,當(dāng)把模型在其他非白人面孔上進(jìn)行實(shí)驗(yàn)時(shí),也會(huì)出現(xiàn)相似的結(jié)果:        

Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?      

Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?        

也就是說,PULSE提供的不是錯(cuò)誤的答案,也不是故意的,但提供了有偏見的答案。

斯坦福大學(xué)研究生:社區(qū)研究者應(yīng)理性爭論,發(fā)言需謹(jǐn)慎

來自斯坦福大學(xué)的一名研究生深度關(guān)注了這次事件,并在Gradient上寫下了他對(duì)此次事件的感悟。他思考的不僅僅是關(guān)于“AI偏見來源”的學(xué)術(shù)性問題,還有關(guān)于社區(qū)研究者該如何發(fā)表言論以及爭論的問題。他表達(dá)的思考和觀點(diǎn)有以下六點(diǎn):

第一,除了簡單的源代碼之外,交互式演示很有用,因?yàn)檫@可以使人們輕松地與模型進(jìn)行交互并指出模型存在的問題。

簡單直觀的演示可以引發(fā)高效的傳播效應(yīng),就像成為這次事件的那張圖片,基本一看就知道發(fā)生了什么事。 

第二,發(fā)現(xiàn)了用于解決應(yīng)用AI研究中的潛在偏見的最佳實(shí)踐,“model card”的想法很有意義。

作為對(duì)質(zhì)疑的回應(yīng),PULSE這篇論文的作者就在原文的第6節(jié)加入了對(duì)模型偏見的討論,并在附錄中加入了一張“model card”,其中寫道,相比于 CelebA HQ(基于公眾人物(名人)的人臉數(shù)據(jù)集),F(xiàn)airFace或許是評(píng)估模型時(shí)的更好選擇。   

 Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

第三,數(shù)據(jù)可能是機(jī)器學(xué)習(xí)系統(tǒng)中偏見的來源,但不是唯一的來源,此類系統(tǒng)可能造成的危害可能不僅僅源于有缺陷的數(shù)據(jù)集。

這是眾多專家在質(zhì)疑LeCun論點(diǎn)時(shí)提出的,同時(shí)也是LeCun在最后澄清的觀點(diǎn),LeCun大概也想不到自己表述不嚴(yán)謹(jǐn)?shù)膸拙湓挄?huì)引起這么大的反響。

第四,重要的是,能夠?qū)?fù)雜的主題進(jìn)行理性的討論。在這樣的討論中,回應(yīng)專家對(duì)有關(guān)話題的批評(píng)時(shí),注意不要情緒化。 

第五,人工智能研究人員的行動(dòng)有助于為學(xué)術(shù)界以外的人們設(shè)定AI使用的規(guī)范。因此,他們應(yīng)該注意應(yīng)該使用哪些數(shù)據(jù)集來測試其模型。并且當(dāng)使用有缺陷的數(shù)據(jù)集時(shí),他們?nèi)钥梢栽谘芯恐胁扇【唧w措施以最大程度地減少這樣做造成的危害。

第六,解決一個(gè)復(fù)雜的主題時(shí),請(qǐng)謹(jǐn)記自己的措辭和信息,尤其是該領(lǐng)域的領(lǐng)導(dǎo)者,其聲明會(huì)被很多人閱讀。模棱兩可的陳述可能導(dǎo)致人們錯(cuò)誤地得出結(jié)論,而不是加深了解。

LeCun作為深度學(xué)習(xí)的領(lǐng)軍者,發(fā)表的言論有很大的影響力,必須嚴(yán)謹(jǐn)自己的措辭。

參考文章:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

https://thegradient.pub/pulse-lessons/

https://spectrum.ieee.org/tech-talk/computing/software/making-blurry-faces-photorealistic-goes-only-so-far

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說