丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能學(xué)術(shù) 正文

發(fā)私信給青暮

發(fā)送

0

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

本文作者：青暮

編輯：劉曉坤

2020-06-28 17:08

導(dǎo)語(yǔ)：爭(zhēng)論的焦點(diǎn)在于：AI產(chǎn)生偏見(jiàn)的原因是否只是數(shù)據(jù)集導(dǎo)致？算法本身的缺陷能不能成為原因？

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

作者 | 青暮

編輯 | 叢末

近期一篇關(guān)于圖像超分辨率的論文引起了不小的爭(zhēng)論，一切都起源于以下這張圖片：

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

針對(duì)這張圖，Yann LeCun在推特上發(fā)表了這么一句話：“當(dāng)數(shù)據(jù)有偏見(jiàn)時(shí)，機(jī)器學(xué)習(xí)系統(tǒng)就變得有偏見(jiàn)。這個(gè)人臉上采樣系統(tǒng)讓每個(gè)人看起來(lái)都像白人，因?yàn)榫W(wǎng)絡(luò)是在FlickFaceHQ數(shù)據(jù)集上預(yù)訓(xùn)練的，而這個(gè)數(shù)據(jù)集主要包含白人圖像。”

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

這為L(zhǎng)eCun招來(lái)了不少的批評(píng)，很多網(wǎng)友認(rèn)為L(zhǎng)eCun在提出狹隘甚至錯(cuò)誤的觀點(diǎn)誤導(dǎo)人們，并紛紛提出了自己的質(zhì)疑。LeCun對(duì)這些質(zhì)疑一一回應(yīng)，但仍得不到理解。最后LeCun不得不一條一條地解釋自己的觀點(diǎn)，才緩和了這場(chǎng)爭(zhēng)論的氣氛。

爭(zhēng)論的焦點(diǎn)在于：AI產(chǎn)生偏見(jiàn)的原因是否只是數(shù)據(jù)集導(dǎo)致？算法本身的缺陷能不能成為原因？

網(wǎng)友們的論點(diǎn)主要包括以下幾點(diǎn)：

1、只要是在有偏見(jiàn)數(shù)據(jù)上進(jìn)行基準(zhǔn)測(cè)試，那么這樣的偏見(jiàn)也會(huì)反映在機(jī)器學(xué)習(xí)系統(tǒng)的歸納偏置上。

用有偏見(jiàn)的基準(zhǔn)推進(jìn)機(jī)器學(xué)習(xí)并要求工程師簡(jiǎn)單地“使用無(wú)偏見(jiàn)的數(shù)據(jù)重新訓(xùn)練模型”是沒(méi)有用的。

2、我們不都知道機(jī)器學(xué)習(xí)算法帶有數(shù)據(jù)偏見(jiàn)以外的歸納偏置嗎？

3、當(dāng)數(shù)據(jù)帶有偏見(jiàn)時(shí)，機(jī)器學(xué)習(xí)系統(tǒng)就是有偏見(jiàn)的。但某些機(jī)器學(xué)習(xí)系統(tǒng)的偏見(jiàn)不是由于數(shù)據(jù)，并且構(gòu)建100%無(wú)偏見(jiàn)的數(shù)據(jù)集在實(shí)際上是不可能的。并且我們發(fā)現(xiàn)很多時(shí)候，假如數(shù)據(jù)帶有少量的偏見(jiàn)，系統(tǒng)會(huì)將其放大，并變得更加有偏見(jiàn)。

4、在完整的美國(guó)人數(shù)據(jù)集上訓(xùn)練：當(dāng)你使用L2損失，大多數(shù)人都像白人；當(dāng)你使用L1損失，大多數(shù)人都像黑人。別再覺(jué)得偏見(jiàn)和算法無(wú)關(guān)了。

5、承認(rèn)這個(gè)結(jié)論要求極大地縮小算法的定義范圍。你忽略了表征的選擇、損失函數(shù)的選擇、訓(xùn)練方法的選擇以及超參數(shù)等等。

6、確實(shí)，這是個(gè)需要證明的大膽斷言。AI學(xué)習(xí)過(guò)程應(yīng)該是架構(gòu)、數(shù)據(jù)、訓(xùn)練算法、損失函數(shù)等等的相互作用。

對(duì)于這些評(píng)論，LeCun澄清道，他只是認(rèn)為，在大多數(shù)現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)中，數(shù)據(jù)是主要的偏見(jiàn)來(lái)源。

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

LeCun 表示：

在7年前，大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)使用手工特征，這是偏見(jiàn)的主要來(lái)源。但是現(xiàn)在，人們開(kāi)始使用深度學(xué)習(xí)架構(gòu)，很大程度上減少了源于特征選擇和架構(gòu)設(shè)計(jì)的偏見(jiàn)。所以我才認(rèn)為現(xiàn)在數(shù)據(jù)是主要的偏見(jiàn)來(lái)源。我不是在討論機(jī)器學(xué)習(xí)理論性質(zhì)上的歸納偏置（這是獨(dú)立于數(shù)據(jù)的）。我所討論的是現(xiàn)在在機(jī)器學(xué)習(xí)系統(tǒng)中經(jīng)常見(jiàn)到的偏見(jiàn)，這些偏見(jiàn)可能源于特征或數(shù)據(jù)。但如果特征是用深度學(xué)習(xí)學(xué)到的，那么偏見(jiàn)不應(yīng)該主要存在于數(shù)據(jù)嗎？”

另外，相比損失函數(shù)的選擇，通過(guò)在訓(xùn)練過(guò)程中均衡樣本的類別頻率來(lái)修正這種偏見(jiàn)會(huì)遠(yuǎn)遠(yuǎn)更加高效。

但是也有學(xué)者認(rèn)為算法和數(shù)據(jù)之間并沒(méi)有清晰的分界線，均衡樣本的類別頻率也是一種算法的選擇。偏見(jiàn)并非單純來(lái)源于數(shù)據(jù)，也可能取決于研究人員本身。

對(duì)于也可能取決于“研究人員”本身這一觀點(diǎn)，LeCun回應(yīng)道：

當(dāng)然。但是在logistic 回歸、全連接網(wǎng)絡(luò)或卷積網(wǎng)絡(luò)之間進(jìn)行選擇，并不會(huì)導(dǎo)致系統(tǒng)固有地偏向某些類型的人。當(dāng)手動(dòng)設(shè)計(jì)特征時(shí)，就會(huì)引入偏見(jiàn)。而且，數(shù)據(jù)顯然是可以有偏見(jiàn)的。

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

到了這一步，爭(zhēng)論各方似乎都不太清楚對(duì)方在表達(dá)什么了。于是最后，LeCun在一系列的推文中清楚地表達(dá)了自己的觀點(diǎn)：

我沒(méi)有說(shuō)“僅當(dāng)數(shù)據(jù)有偏見(jiàn)時(shí)機(jī)器學(xué)習(xí)系統(tǒng)才有偏見(jiàn)”。

我只是表達(dá)了對(duì)PULSE這篇論文的看法。

機(jī)器學(xué)習(xí)系統(tǒng)中導(dǎo)致社會(huì)偏見(jiàn)的原因很多（這里不談?wù)摳话愕臍w納偏置）：

1.如何收集數(shù)據(jù)和格式化
2.特征設(shè)計(jì)
3.模型的架構(gòu)
4.目標(biāo)函數(shù)
5.部署方式

當(dāng)使用沒(méi)有手工特征的原始輸入時(shí)（如現(xiàn)代深度學(xué)習(xí)系統(tǒng)中常見(jiàn)的那樣），特征設(shè)計(jì)引起的偏差的重要性要小得多。

如果使用別人的預(yù)訓(xùn)練模型作為特征提取器，特征將包含該系統(tǒng)的偏見(jiàn)。

也就是說(shuō)，LeCun并非不同意質(zhì)疑他的專家們的觀點(diǎn)，只是他當(dāng)時(shí)發(fā)表的觀點(diǎn)建立在特定的條件下，而沒(méi)有表述清楚。

爭(zhēng)論的來(lái)源：PULSE模型訓(xùn)練的結(jié)果

最開(kāi)始那張引起爭(zhēng)議的圖片來(lái)源于提出PULSE這一模型的論文。具體而言是有人用作者在論文中開(kāi)源的代碼進(jìn)行了模型推理：用奧巴馬的打碼圖像進(jìn)行了試驗(yàn)，結(jié)果發(fā)現(xiàn)奧巴馬被還原成了白人。

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

論文地址：https://arxiv.org/pdf/2003.03808.pdf

還原成白人這個(gè)結(jié)果實(shí)際上并不奇怪，因?yàn)镻ULSE就是建立在StyleGAN的基礎(chǔ)上實(shí)現(xiàn)的，而StyleGAN所用的數(shù)據(jù)集是FFHQ，這個(gè)數(shù)據(jù)集里包含了90%以上的白人人臉。

PULSE的特點(diǎn)在于，可以將多個(gè)不同但相似的人臉圖像聚合為同一個(gè)低分辨率圖像。

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

論文作者之一、北卡羅來(lái)納州達(dá)勒姆市杜克大學(xué)計(jì)算機(jī)科學(xué)教授Cynthia Rudin說(shuō)：“我們已經(jīng)證明人們無(wú)法從模糊的圖像中進(jìn)行人臉識(shí)別，因?yàn)榭赡苄苑浅６?。因此，縮放和增強(qiáng)不可能超過(guò)某個(gè)閾值水平?！?/p>

Rudin說(shuō)：“過(guò)去，許多算法都試圖從低分辨率恢復(fù)高分辨率圖像?！?這可能是錯(cuò)誤的方法，原始圖像實(shí)際上是信息稀疏的。因此，奧巴馬的打碼圖像還原后也不一定是奧巴馬，我們會(huì)堅(jiān)持認(rèn)為那張圖像的原型必然是奧巴馬，也是由于記憶先驗(yàn)導(dǎo)致的偏見(jiàn)。

當(dāng)然這也不能否認(rèn)該模型確實(shí)存在偏見(jiàn)，當(dāng)把模型在其他非白人面孔上進(jìn)行實(shí)驗(yàn)時(shí)，也會(huì)出現(xiàn)相似的結(jié)果：

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

也就是說(shuō)，PULSE提供的不是錯(cuò)誤的答案，也不是故意的，但提供了有偏見(jiàn)的答案。

斯坦福大學(xué)研究生：社區(qū)研究者應(yīng)理性爭(zhēng)論，發(fā)言需謹(jǐn)慎

來(lái)自斯坦福大學(xué)的一名研究生深度關(guān)注了這次事件，并在Gradient上寫下了他對(duì)此次事件的感悟。他思考的不僅僅是關(guān)于“AI偏見(jiàn)來(lái)源”的學(xué)術(shù)性問(wèn)題，還有關(guān)于社區(qū)研究者該如何發(fā)表言論以及爭(zhēng)論的問(wèn)題。他表達(dá)的思考和觀點(diǎn)有以下六點(diǎn)：

第一，除了簡(jiǎn)單的源代碼之外，交互式演示很有用，因?yàn)檫@可以使人們輕松地與模型進(jìn)行交互并指出模型存在的問(wèn)題。

簡(jiǎn)單直觀的演示可以引發(fā)高效的傳播效應(yīng)，就像成為這次事件的那張圖片，基本一看就知道發(fā)生了什么事。

第二，發(fā)現(xiàn)了用于解決應(yīng)用AI研究中的潛在偏見(jiàn)的最佳實(shí)踐，“model card”的想法很有意義。

作為對(duì)質(zhì)疑的回應(yīng)，PULSE這篇論文的作者就在原文的第6節(jié)加入了對(duì)模型偏見(jiàn)的討論，并在附錄中加入了一張“model card”，其中寫道，相比于 CelebA HQ（基于公眾人物（名人）的人臉數(shù)據(jù)集），F(xiàn)airFace或許是評(píng)估模型時(shí)的更好選擇。

Yann LeCun 大戰(zhàn)“鍵盤俠”，除了數(shù)據(jù)，“AI偏見(jiàn)”到底來(lái)自哪里？

第三，數(shù)據(jù)可能是機(jī)器學(xué)習(xí)系統(tǒng)中偏見(jiàn)的來(lái)源，但不是唯一的來(lái)源，此類系統(tǒng)可能造成的危害可能不僅僅源于有缺陷的數(shù)據(jù)集。

這是眾多專家在質(zhì)疑LeCun論點(diǎn)時(shí)提出的，同時(shí)也是LeCun在最后澄清的觀點(diǎn)，LeCun大概也想不到自己表述不嚴(yán)謹(jǐn)?shù)膸拙湓挄?huì)引起這么大的反響。

第四，重要的是，能夠?qū)?fù)雜的主題進(jìn)行理性的討論。在這樣的討論中，回應(yīng)專家對(duì)有關(guān)話題的批評(píng)時(shí)，注意不要情緒化。

第五，人工智能研究人員的行動(dòng)有助于為學(xué)術(shù)界以外的人們?cè)O(shè)定AI使用的規(guī)范。因此，他們應(yīng)該注意應(yīng)該使用哪些數(shù)據(jù)集來(lái)測(cè)試其模型。并且當(dāng)使用有缺陷的數(shù)據(jù)集時(shí)，他們?nèi)钥梢栽谘芯恐胁扇【唧w措施以最大程度地減少這樣做造成的危害。

第六，解決一個(gè)復(fù)雜的主題時(shí)，請(qǐng)謹(jǐn)記自己的措辭和信息，尤其是該領(lǐng)域的領(lǐng)導(dǎo)者，其聲明會(huì)被很多人閱讀。模棱兩可的陳述可能導(dǎo)致人們錯(cuò)誤地得出結(jié)論，而不是加深了解。

LeCun作為深度學(xué)習(xí)的領(lǐng)軍者，發(fā)表的言論有很大的影響力，必須嚴(yán)謹(jǐn)自己的措辭。

參考文章：雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

https://thegradient.pub/pulse-lessons/

https://spectrum.ieee.org/tech-talk/computing/software/making-blurry-faces-photorealistic-goes-only-so-far

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

青暮

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

三星滴滴支付寶雅虎上市特朗普 Airbnb AI教育 Path TC Disrupt 李明

為了您的賬戶安全，請(qǐng)驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請(qǐng)驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說(shuō)