丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習(xí)社
發(fā)送

0

禪與奶罩識(shí)別藝術(shù)(下)

本文作者: AI研習(xí)社 2017-05-06 17:51
導(dǎo)語(yǔ):福利!

雷鋒網(wǎng)按:本文作者 Kaiser,景略集智總經(jīng)理,原文載于集智網(wǎng)專欄,雷鋒網(wǎng)已獲授權(quán)。

  過擬合/欠擬合

之前介紹了卷積提取邊緣特征的基本原理,但這還遠(yuǎn)遠(yuǎn)不足以從圖片中識(shí)別出奶罩,因?yàn)椴⒉皇撬心陶侄枷癜啬居杉o(jì)的那么簡(jiǎn)單樸實(shí),而是存在很多種不同的款式,這不是單從邊緣就能識(shí)別出來(lái)的。

禪與奶罩識(shí)別藝術(shù)(下)

禪與奶罩識(shí)別藝術(shù)(下)

要提取如此復(fù)雜的特征,需要很多不同的卷積核。巧婦難為無(wú)米之炊,沒有足量的訓(xùn)練樣本,再好的卷積也出不來(lái)。訓(xùn)練樣本當(dāng)然是越多越好,有道是“熟識(shí)奶罩三百款,不會(huì)解扣也會(huì)穿”。人工神經(jīng)網(wǎng)絡(luò)雖然不具備真正的人格,但有一點(diǎn)卻是相通的,那就是“貪”。

禪與奶罩識(shí)別藝術(shù)(下)

但不管是訓(xùn)練樣本的累積,還是計(jì)算能力的上限,資源總是有限的。所以我們始終只能從有限多個(gè)樣本中,提取一小撮特征,這是一個(gè)以有涯求無(wú)涯的過程。

訓(xùn)練樣本不足就會(huì)產(chǎn)生一個(gè)問題,叫作“少見多怪”。比如我們看上面幾張圖里的奶罩,大多是有肩帶的,那么自然地,神經(jīng)網(wǎng)絡(luò)會(huì)把“肩帶”當(dāng)作一個(gè)特征。

如果一個(gè)物體沒有類似肩帶的結(jié)構(gòu),被認(rèn)作奶罩的概率便會(huì)下降。

禪與奶罩識(shí)別藝術(shù)(下)

引入過多不必要的特征,導(dǎo)致模型泛化能力(Generalization)下降,這一問題叫作“過擬合”(Overfitting)。比如下圖,坐標(biāo)上有10個(gè)點(diǎn),藍(lán)色擬合曲線逐一穿過,看起來(lái)像一個(gè)完美的擬合,似乎我們已經(jīng)看透了這一分布規(guī)律的本質(zhì)。

禪與奶罩識(shí)別藝術(shù)(下)

但是如果有第11個(gè)點(diǎn),它真的會(huì)繼續(xù)落在藍(lán)線上嗎?而且一旦沒有,那么擬合曲線就面臨嚴(yán)重的威脅,需要很大的調(diào)整才能滿足“穿過所有點(diǎn)”。如果有第12個(gè)點(diǎn)呢?

這種過擬合的預(yù)測(cè)對(duì)于新數(shù)據(jù)的作用有限,實(shí)際上一個(gè)比較穩(wěn)妥的擬合是線性關(guān)系,我們有很大把握預(yù)測(cè),第11個(gè)乃至以后的數(shù)據(jù),都會(huì)落在藍(lán)色直線附近。

禪與奶罩識(shí)別藝術(shù)(下)

過擬合就好比背過了歷年的考試題(包括所有數(shù)字),但是一見到新題目(數(shù)字變了)就不會(huì)做了。以前有個(gè)傻子賣咸鴨蛋的小品,里面傻子說“五毛錢倆,一塊錢不賣”,這就是鉆進(jìn)了“五毛錢倆”的牛角尖而產(chǎn)生的笑話。過擬合的神經(jīng)網(wǎng)絡(luò),就像一個(gè)認(rèn)死理的人,實(shí)則是愚癡的。

禪與奶罩識(shí)別藝術(shù)(下)

所幸,人工智能還沒有發(fā)展出情態(tài),否則恐怕就“貪、嗔、癡”三毒俱全了。我想,如果真的有那一天,機(jī)器人也會(huì)發(fā)展出宗教吧(遁入智瞳)。

反過來(lái)的情況叫“欠擬合”(Underfitting),就是沒有學(xué)習(xí)到真正的規(guī)律,聽風(fēng)就是雨。比如下圖這個(gè)把眼罩當(dāng)成奶罩的慘案,買家確實(shí)沒有把“肩帶”當(dāng)作特征,“形狀”也確實(shí)有點(diǎn)類似,但是她把最基本的“大小”因素忽略了。

禪與奶罩識(shí)別藝術(shù)(下)

在實(shí)際應(yīng)用當(dāng)中,“過擬合”是更加常見的問題。

  脫掉

如何遏制過擬合?方法有很多,比如 L1、L2 正則化(Regularization)是在代價(jià)函數(shù)(Cost Function)上動(dòng)手腳。

本文要介紹的方法,叫作Dropout。其原意是輟學(xué),中文資料里基本也都保留了原詞,“脫掉”是我自己想的翻譯。你問我怎么想的,我也不知道,只是管不住我這手。

Dropout不修改代價(jià)函數(shù),而是直接調(diào)整神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),是一種更加徹底的革命。

人工神經(jīng)元都是與特征相關(guān)的,而有的特征(比如肩帶)會(huì)造成過擬合。那么只要脫掉肩帶所對(duì)應(yīng)的的神經(jīng)元,不就可以避免了嗎?

理是這么個(gè)理,但是我們并不知道,具體哪些神經(jīng)元對(duì)應(yīng)哪些特征。如果我們都知道的話,也就不用訓(xùn)練了,直接求解就行了。

考慮下面這個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),其隱藏層(中間那層)有6個(gè)神經(jīng)元。神經(jīng)元與特征并非一一對(duì)應(yīng)的,可能3個(gè)神經(jīng)元共同表征1個(gè)特征,比如從上數(shù)第2、3、5個(gè)。假設(shè)我們拋掉了這三個(gè)神經(jīng)元,用其余的網(wǎng)絡(luò)進(jìn)行計(jì)算,就可以在一定程度上降低過擬合。

實(shí)際上這里的[2, 3, 5]只是猜測(cè),我們要做的是,把所有能脫掉的3神經(jīng)元組合,全都脫一遍,對(duì)剩余部分分別進(jìn)行計(jì)算,最后再求平均。誠(chéng)然,每一個(gè)經(jīng)過Dropout的不完整神經(jīng)網(wǎng)絡(luò),還是有可能過擬合,但是各自的過擬合情況是不同的,通過求平均就可以抵消。

禪與奶罩識(shí)別藝術(shù)(下)

本質(zhì)上,Dropout消解了神經(jīng)網(wǎng)絡(luò)對(duì)某一部分神經(jīng)元的依賴性。6個(gè)神經(jīng)元dropout其中3個(gè),此時(shí)dropout率即是 0.5。

  實(shí)踐

實(shí)踐是檢驗(yàn)罩杯的唯一標(biāo)準(zhǔn),但是對(duì)于廣大新手而言,直接處理彩色圖片的難度還是偏高,而且本站的計(jì)算能力暫時(shí)還很有限。所以這里改用手寫數(shù)字識(shí)別項(xiàng)目作為案例,搭建簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò),并且對(duì)比Dropout的效果。

該項(xiàng)目是Kaggle的入門級(jí)比賽,且用到了著名的MNIST手寫數(shù)字?jǐn)?shù)據(jù)集。MNIST可謂是深度學(xué)習(xí)界的Hello World。

首先導(dǎo)入依賴庫(kù)和數(shù)據(jù)集,并進(jìn)行預(yù)處理,以便神經(jīng)網(wǎng)絡(luò)模型使用。

此為靜態(tài)代碼展示,在線編輯->運(yùn)行Python代碼,搭建神經(jīng)網(wǎng)絡(luò),請(qǐng)?jiān)L問:鏈接。

禪與奶罩識(shí)別藝術(shù)(下)

然后構(gòu)建、訓(xùn)練模型。這里采用一個(gè)最簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):

  • 卷積層(8個(gè)5x5卷積核,ReLU激活函數(shù))

  • 池化層(2x2最大池化)

  • 全連接層(16個(gè)神經(jīng)元,ReLU激活函數(shù))

  • 輸出層(10個(gè)神經(jīng)元,SoftMax激活函數(shù))

為節(jié)省計(jì)算開銷和減少等待時(shí)間,訓(xùn)練的迭代次數(shù)已設(shè)為1,所以得到的各項(xiàng)結(jié)果參數(shù)當(dāng)然偏低,這并非所用的方法有問題。

禪與奶罩識(shí)別藝術(shù)(下)

  • 無(wú)Dropout,驗(yàn)證精度為: 0.6090

  Dropout

作為對(duì)比,我們搭建另外一個(gè)架構(gòu)類似、但包含Dropout層的神經(jīng)網(wǎng)絡(luò)。Dropout的位置是最大池化層之后、全連接層之前。

此處代碼留空,請(qǐng)?jiān)L問鏈接, 完成在線練習(xí)。

禪與奶罩識(shí)別藝術(shù)(下)

如果正確地添加了Dropout,則得到的驗(yàn)證精度(val_acc)應(yīng)為0.7390。而其他的指數(shù),如訓(xùn)練精度(acc)卻大致相等??梢?,Dropout的作用是消解過擬合,提高模型泛化能力。

PS. 如果要給本文配一個(gè)BGM,我希望是杜德偉的《脫掉》

雷鋒網(wǎng)相關(guān)閱讀:

TensorFlow & 神經(jīng)網(wǎng)絡(luò)算法高級(jí)應(yīng)用班” 要開課啦!

從初級(jí)到高級(jí),理論 + 實(shí)戰(zhàn),一站式深度了解 TensorFlow!

本課程面向深度學(xué)習(xí)開發(fā)者,講授如何利用 TensorFlow 解決圖像識(shí)別、文本分析等具體問題。課程跨度為 10 周,將從 TensorFlow 的原理與基礎(chǔ)實(shí)戰(zhàn)技巧開始,一步步教授學(xué)員如何在 TensorFlow 上搭建 CNN、自編碼、RNN、GAN 等模型,并最終掌握一整套基于 TensorFlow 做深度學(xué)習(xí)開發(fā)的專業(yè)技能。

兩名授課老師佟達(dá)、白發(fā)川身為 ThoughtWorks 的資深技術(shù)專家,具有豐富的大數(shù)據(jù)平臺(tái)搭建、深度學(xué)習(xí)系統(tǒng)開發(fā)項(xiàng)目經(jīng)驗(yàn)。

時(shí)間:每周二、四晚 20:00-21:00

開課時(shí)長(zhǎng):總學(xué)時(shí) 20 小時(shí),分 10 周完成,每周 2 次,每次 1 小時(shí)

線上授課地址:http://www.mooc.ai/

雷鋒網(wǎng)相關(guān)閱讀:

CNN 在基于弱監(jiān)督學(xué)習(xí)的圖像分割中的應(yīng)用

看了這篇文章,了解深度卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)中的進(jìn)展

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

禪與奶罩識(shí)別藝術(shù)(下)

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學(xué),連接 AI 開發(fā)者。更多精彩內(nèi)容,請(qǐng)?jiān)L問:yanxishe.com
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說