丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!

本文作者: 蔣寶尚 2020-01-19 15:49
導(dǎo)語:道理,不辨析不明朗;學(xué)問,不爭論不清晰

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!

作者 | 雷鋒網(wǎng) AI 科技評(píng)論 

編輯 | 雷鋒網(wǎng) Camel

最近Twitter、Reddit上有一股爭論的熱潮涌動(dòng),先是有 Fran?ois Chollet 、Yann LeCun 等人隔空辨析「到底什么是深度學(xué)習(xí)」,后是有一大批研究者爭論「貝葉斯神經(jīng)網(wǎng)絡(luò)到底有沒有意義」。新的一年,火藥味十足,這是否也意味著深度學(xué)習(xí)的研究正進(jìn)入一個(gè)混亂的時(shí)期?道理,不辨析不明朗;學(xué)問,不爭論不清晰。

所謂貝葉斯神經(jīng)網(wǎng)絡(luò),簡單來說便是將一般神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置由確定的數(shù)值變?yōu)橐粋€(gè)分布。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!

按照一般理解,這種將參數(shù)以概率分布的形式表示,可以為網(wǎng)絡(luò)推理提供不確定性估計(jì);此外,通過使用先驗(yàn)概率分布的形式來表示參數(shù),訓(xùn)練期間在許多模型上計(jì)算平均值,可以給網(wǎng)絡(luò)提供正則化效果,從而防止過度擬合。然后,在大約一個(gè)月前,OpenAI 研究員Carles Gelada發(fā)布了一個(gè)系列Twitter:


貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!

他指出,或許貝葉斯神經(jīng)網(wǎng)絡(luò)并沒有多大用處。大致觀點(diǎn)為:1)只有當(dāng)具有合理的參數(shù)先驗(yàn)時(shí),我們才會(huì)去使用貝葉斯規(guī)則,但沒有人知道先驗(yàn)對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)重的編碼會(huì)是什么,那么為什么我們還要使用這種先驗(yàn)?zāi)兀?)許多正則化都可以用貝葉斯解釋,但事實(shí)上每個(gè)人都能夠?qū)φ齽t化給出一個(gè)解釋。那么我們用貝葉斯理論來解釋正則化,有什么意義呢?3)或許有人會(huì)說BNNs可以讓我們直接用經(jīng)驗(yàn)來找到正則化。但誰來保證BNNs找到的這種正則化空間就是最優(yōu)的呢?4)BNNs可以用在貝葉斯元學(xué)習(xí)框架當(dāng)中。但沒有理由相信這種應(yīng)用會(huì)比其他元學(xué)習(xí)框架更好。針對(duì)Carles提出的這些反對(duì)意見,在Twitter上迅速吸引了大批的研究人員加入討論。多數(shù)引經(jīng)據(jù)典,從歷史發(fā)展、當(dāng)前研究、實(shí)踐經(jīng)驗(yàn)等各種角度進(jìn)行辯論,或贊同,或反對(duì),不一而足。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!

一、貝葉斯神經(jīng)網(wǎng)絡(luò)有用嗎?

為了更加明晰“貝葉斯網(wǎng)絡(luò)沒啥用”的立場(chǎng),近期Carles Gelada 和 Jacob Buckman重新梳理了他們的思路,專門寫了一篇博客,從貝葉斯網(wǎng)絡(luò)的原理入手,詳細(xì)闡述了“BNNs需要先驗(yàn)信息豐富的先驗(yàn)知識(shí)才能處理不確定性”的觀點(diǎn),并指出泛化的代價(jià)不容忽視。

1、貝葉斯神經(jīng)網(wǎng)絡(luò)具有不確定性的原因:泛化不可知先驗(yàn)

為了說明先驗(yàn)在貝葉斯網(wǎng)絡(luò)中的重要意義,Buckman在博客中引入了泛化不可知先驗(yàn)(generalization-agnostic priors),用這種“不可知的先驗(yàn)”進(jìn)行貝葉斯推理并不能減少模型的不確定性。Carles和Buckman認(rèn)為,要想在深度學(xué)習(xí)中使用貝葉斯框架,只有讓先驗(yàn)與神經(jīng)網(wǎng)絡(luò)的泛化特性相聯(lián)系,才能達(dá)到好的效果,方法是給泛化能力良好的函數(shù)以更高的概率。但是目前學(xué)術(shù)界還沒有足夠的能力(作者猜測(cè))來證明哪種先驗(yàn)的情況能夠滿足條件。另外,Buckman在博客中作者舉了一個(gè)具體的例子:當(dāng)一個(gè)數(shù)據(jù)集C

里面包含兩種數(shù)據(jù)對(duì):一種是給定輸入,輸出正確;另一種是給定輸入,輸出錯(cuò)誤。訓(xùn)練神經(jīng)網(wǎng)絡(luò)所得到的參數(shù) 貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!必須讓神經(jīng)網(wǎng)絡(luò)既能夠表達(dá)正確輸出,也能夠表達(dá)錯(cuò)誤的輸出。即使模型在數(shù)據(jù)集上訓(xùn)練后,能夠得到條件概率p(f|c)=1,但在測(cè)試集上模型也可能表現(xiàn)很差。另外,定義一種先驗(yàn)概率Q,可以讓 Q(f*)=Q(fθ)這意味著如果泛化良好的函數(shù)與泛化不好的函數(shù)得到的分配概率是相同的。但這種先驗(yàn)是有問題的:由于f*和fθ的數(shù)據(jù)的可能性為1,并且由于先驗(yàn)概率相似,這意味著后驗(yàn)概率也是相似的(如下公式)。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!

注:實(shí)際上對(duì)于某些數(shù)據(jù),fθ可以產(chǎn)生錯(cuò)誤的輸出,即Q(f*)不等于Q(fθ)

綜上,Carles和Buckman認(rèn)為在泛化不可知的先驗(yàn)條件下,無論數(shù)據(jù)集如何,都無法降低模型的不確定性。即貝葉斯神經(jīng)網(wǎng)絡(luò)起作用的關(guān)鍵因素是:先驗(yàn)?zāi)軌騾^(qū)分泛化良好的函數(shù)和泛化不好的函數(shù)。

2、當(dāng)前貝葉斯網(wǎng)絡(luò)的泛化能力不可知

在構(gòu)建貝葉斯神經(jīng)網(wǎng)絡(luò)時(shí),大家的共識(shí)是用比較簡單的概率先驗(yàn),即假設(shè)參數(shù)服從獨(dú)立的高斯分布。但是高斯先驗(yàn)顯然會(huì)導(dǎo)致結(jié)構(gòu)先驗(yàn),而這些先驗(yàn)并無泛化能力,原因有兩點(diǎn):1.高斯先驗(yàn)平滑分配概率。2.在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候,無論數(shù)據(jù)集如何,最合理的策略似乎是給不同的泛化函數(shù)以相同的權(quán)重。還有一點(diǎn)是計(jì)算問題也不容忽視,實(shí)際上如何對(duì)貝葉斯推理q(F|D)進(jìn)行計(jì)算可能是貝葉斯神經(jīng)網(wǎng)絡(luò)(具有先驗(yàn)泛化不可知)能夠有合理效果的關(guān)鍵因素。

3、理性批判BNNs

Carles和Buckman也在博客中表示上面的理由有猜測(cè)的成分,因?yàn)闊o法得知何種因素決定神經(jīng)網(wǎng)絡(luò)泛化能力,所以定義執(zhí)行貝葉斯推理的先驗(yàn)具有不確定性。貝葉斯神經(jīng)網(wǎng)絡(luò)只是一個(gè)神經(jīng)網(wǎng)絡(luò),先驗(yàn)只是里面的一個(gè)超參數(shù)。Carles和Buckman認(rèn)為當(dāng)前在網(wǎng)絡(luò)中加入貝葉斯不會(huì)帶來任何好處,只有當(dāng)能夠找到一個(gè)好的先驗(yàn),并且能夠驗(yàn)證推理的準(zhǔn)確性才能有所幫助。另外,他們還提到:作為一個(gè)領(lǐng)域,先驗(yàn)在貝葉斯框架里扮演著重要的角色,這一點(diǎn)毋容置疑,所以對(duì)于貝葉斯網(wǎng)絡(luò)需要理性的批判,不能讓“不具信息性的先驗(yàn)在不確定性下表現(xiàn)良好”(uninformative priors are good under uncertainty)這種無腦觀點(diǎn)所左右。

二、反駁與批評(píng):Twitter、Reddit雙戰(zhàn)場(chǎng)

這篇博客同步發(fā)在了推特和 Reddit 上,自然也就在兩個(gè)平臺(tái)上都引來了反駁的聲音。

1、Twitter 戰(zhàn)場(chǎng):存在技術(shù)錯(cuò)誤

在Twitter上,紐約大學(xué)數(shù)學(xué)和數(shù)據(jù)科學(xué)教授Andrew Gordon Wilson就表示他們的觀點(diǎn)存在錯(cuò)誤:這篇博客中存在錯(cuò)誤。

1,如果數(shù)據(jù)是來自我們想要擬合的分布的,那么隨著我們使用的數(shù)據(jù)的規(guī)模增大,似然性會(huì)收縮到那個(gè)“好的函數(shù)”上,因?yàn)椴缓玫暮瘮?shù)會(huì)越來越少出現(xiàn),這也和我們的觀測(cè)值一致。

2,能擬合噪聲的模型并沒有什么出奇之處,而且也和“存在歸納偏倚,更傾向于選擇有噪聲的解”是兩碼事。在函數(shù)上簡單增加一個(gè)標(biāo)準(zhǔn)的GP-RBF先驗(yàn)就可以支持噪聲了,但它仍然更善于建模有結(jié)構(gòu)的解。

3,對(duì)于通常會(huì)使用神經(jīng)網(wǎng)絡(luò)來解決的問題,好的解的數(shù)量通常都會(huì)比不好的解的數(shù)量更多。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中就含有幫助帶來更好的泛化性的歸納偏倚。神經(jīng)網(wǎng)絡(luò)函數(shù)“與泛化性無關(guān)”的說法有點(diǎn)不負(fù)責(zé)任。

4,實(shí)際上,想要在函數(shù)空間創(chuàng)造許多不同的“泛化性無關(guān)”的先驗(yàn)是很簡單的事,而它們的行為會(huì)和神經(jīng)網(wǎng)絡(luò)非常不同。它們可以由平凡的結(jié)構(gòu)組成,而且也肯定不會(huì)具有任何泛化能力。

5,缺少理想的后驗(yàn)收縮會(huì)在這么幾種情況下發(fā)生:

  • 假想空間中并不包含好的解;

  • 先驗(yàn)對(duì)某個(gè)壞的解太過自信(比如給任意的 x 都分配同一個(gè)標(biāo)簽 p)。

但神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的表達(dá)能力,這里的b情況根本就和“有模糊的權(quán)重先驗(yàn)”完全相反!除了技術(shù)討論之外,我建議兩位可以多提問、多學(xué)習(xí),以及對(duì)貝葉斯深度學(xué)習(xí)抱有開放的心態(tài)。

也許是你們的“貝葉斯神經(jīng)網(wǎng)絡(luò)不合理”的先驗(yàn)太強(qiáng)了才覺得理解不了(微笑)。

Carles Gelada 對(duì)這份質(zhì)疑的回應(yīng)是:

如果情況是像你說的這樣,那么證明這件事是貝葉斯支持的責(zé)任(而不是我們質(zhì)疑者的),尤其是當(dāng)他們聲稱模型可以提供好的不確定性的時(shí)候。實(shí)際上我們提出質(zhì)疑的理由就是,每個(gè)初始值附近都同時(shí)有好的和壞的泛化函數(shù),那么他們聲稱的東西也就值得懷疑了。

另外,關(guān)于“擬合損壞的樣本”的討論不應(yīng)該和“擬合噪聲”混為一談。我們?cè)谟懻撝屑僭O(shè)了分類任務(wù)中不存在噪聲,但即便是有噪聲的分類任務(wù),我們的觀點(diǎn)也是成立的。用簡單的測(cè)試就可以說明目前使用的先驗(yàn)不是泛化無關(guān)的:訓(xùn)練一個(gè)好的函數(shù)、訓(xùn)練一個(gè)壞的函數(shù),然后看看先驗(yàn)是否會(huì)給好的函數(shù)更高的概率。我懷疑狀況不是這樣的,但這里需要貝葉斯的支持者向我證明他們的先驗(yàn)是好的。

2、Reddit 回帖:水平不足+雙重標(biāo)準(zhǔn)

Reddit上網(wǎng)友們的回應(yīng)更激烈、更情緒性一些,甚至得到最多贊同意見的帖子就含有辛辣的批評(píng)和嘲諷。

adversary_argument:

由于博客作者們對(duì)貝葉斯推理中的真正的先驗(yàn)缺乏了解,所以我覺得這個(gè)討論很沒意思,甚至有一股雙重標(biāo)準(zhǔn)的味道。

全體深度學(xué)習(xí)研究人員(以及作者們自己)都已經(jīng)接受了神經(jīng)網(wǎng)絡(luò)的大規(guī)模使用,即便我們還沒有找到明確的泛化邊界,也對(duì)神經(jīng)網(wǎng)絡(luò)的理論理解甚少。但是既然神經(jīng)網(wǎng)絡(luò)運(yùn)行起來令人滿意,這些問題就一股腦地被視而不見 —— 神經(jīng)網(wǎng)絡(luò)就是好的、正義的。然而,現(xiàn)在作者們要求貝葉斯神經(jīng)網(wǎng)絡(luò)必須在先驗(yàn)方面提供很強(qiáng)的理論保證,雖然他們同時(shí)也承認(rèn)貝葉斯神經(jīng)網(wǎng)絡(luò)是有效的…… emmm,你們覺得這像不像賊喊捉賊?

做深度學(xué)習(xí)的人挺能散布負(fù)面言論的啊……尤其是,我覺得他們的討論方式,針對(duì)某個(gè)任意的、損壞的測(cè)試集 C 的討論,只不過是在攻擊他們自己造出來的一個(gè)靶子而已。

我解釋給你們看看:他們沒有給出被損壞的數(shù)據(jù)的數(shù)量,但是他們就聲稱 f_theta 肯定在 D_test 上會(huì)有糟糕的表現(xiàn)?他們的依據(jù)是什么?那比如 D 是一百萬個(gè)好的數(shù)據(jù)點(diǎn)組成的數(shù)據(jù)集,C 是 D 加上一個(gè)損壞的數(shù)據(jù)點(diǎn),所以按照他們的理論,D_test 上的測(cè)試誤差肯定會(huì)特別糟糕?

他們洋洋灑灑了一大堆,最后只證明了損壞訓(xùn)練數(shù)據(jù)會(huì)降低貝葉斯神經(jīng)網(wǎng)絡(luò)的測(cè)試準(zhǔn)確率而已…… 呃…… 所以這有什么好奇怪的嗎……

博客作者回應(yīng):

可能我們?cè)诓┛屠飳懙貌粔蚯宄N覀兛紤]含有損壞數(shù)據(jù)的數(shù)據(jù)集,不是為了說明只要有損壞數(shù)據(jù)就會(huì)有糟糕的預(yù)測(cè)表現(xiàn)(尤其對(duì)于一百萬比一這種情況),而是想說明有損壞數(shù)據(jù)的、神經(jīng)網(wǎng)絡(luò)擬合之后會(huì)有糟糕的泛化表現(xiàn)的數(shù)據(jù)集是存在的。我們是為了說明存在性。如果先驗(yàn)對(duì)這樣的網(wǎng)絡(luò)分配很高的概率,那么貝葉斯推理就沒有什么好處。我們的博客也不是為了表達(dá)貝葉斯神經(jīng)網(wǎng)絡(luò)沒用,而是想表示“如果沒有好的先驗(yàn),貝葉斯神經(jīng)網(wǎng)絡(luò)就無法帶來好的不確定性估計(jì)”,“關(guān)于非信息性的先驗(yàn)的標(biāo)準(zhǔn)討論方式是有問題的”,以及“想要有好的不確定性估計(jì),我們需要先理解神經(jīng)網(wǎng)絡(luò)的泛化性”。除此之外,其它多篇Reddit 的網(wǎng)友回帖也認(rèn)為原博客兩人的討論態(tài)度有問題,立場(chǎng)很難稱得上是“冷靜看待”,有些簡單的實(shí)驗(yàn)也完全可以自己先嘗試。

雷鋒網(wǎng)報(bào)道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場(chǎng)辯論,火藥味十足!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說