丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給AI研習社
發(fā)送

0

禪與奶罩識別藝術(下)

本文作者: AI研習社 2017-05-06 17:51
導語:福利!

雷鋒網(wǎng)按:本文作者 Kaiser,景略集智總經(jīng)理,原文載于集智網(wǎng)專欄,雷鋒網(wǎng)已獲授權。

  過擬合/欠擬合

之前介紹了卷積提取邊緣特征的基本原理,但這還遠遠不足以從圖片中識別出奶罩,因為并不是所有奶罩都像柏木由紀的那么簡單樸實,而是存在很多種不同的款式,這不是單從邊緣就能識別出來的。

禪與奶罩識別藝術(下)

禪與奶罩識別藝術(下)

要提取如此復雜的特征,需要很多不同的卷積核。巧婦難為無米之炊,沒有足量的訓練樣本,再好的卷積也出不來。訓練樣本當然是越多越好,有道是“熟識奶罩三百款,不會解扣也會穿”。人工神經(jīng)網(wǎng)絡雖然不具備真正的人格,但有一點卻是相通的,那就是“貪”。

禪與奶罩識別藝術(下)

但不管是訓練樣本的累積,還是計算能力的上限,資源總是有限的。所以我們始終只能從有限多個樣本中,提取一小撮特征,這是一個以有涯求無涯的過程。

訓練樣本不足就會產生一個問題,叫作“少見多怪”。比如我們看上面幾張圖里的奶罩,大多是有肩帶的,那么自然地,神經(jīng)網(wǎng)絡會把“肩帶”當作一個特征。

如果一個物體沒有類似肩帶的結構,被認作奶罩的概率便會下降。

禪與奶罩識別藝術(下)

引入過多不必要的特征,導致模型泛化能力(Generalization)下降,這一問題叫作“過擬合”(Overfitting)。比如下圖,坐標上有10個點,藍色擬合曲線逐一穿過,看起來像一個完美的擬合,似乎我們已經(jīng)看透了這一分布規(guī)律的本質。

禪與奶罩識別藝術(下)

但是如果有第11個點,它真的會繼續(xù)落在藍線上嗎?而且一旦沒有,那么擬合曲線就面臨嚴重的威脅,需要很大的調整才能滿足“穿過所有點”。如果有第12個點呢?

這種過擬合的預測對于新數(shù)據(jù)的作用有限,實際上一個比較穩(wěn)妥的擬合是線性關系,我們有很大把握預測,第11個乃至以后的數(shù)據(jù),都會落在藍色直線附近。

禪與奶罩識別藝術(下)

過擬合就好比背過了歷年的考試題(包括所有數(shù)字),但是一見到新題目(數(shù)字變了)就不會做了。以前有個傻子賣咸鴨蛋的小品,里面傻子說“五毛錢倆,一塊錢不賣”,這就是鉆進了“五毛錢倆”的牛角尖而產生的笑話。過擬合的神經(jīng)網(wǎng)絡,就像一個認死理的人,實則是愚癡的。

禪與奶罩識別藝術(下)

所幸,人工智能還沒有發(fā)展出情態(tài),否則恐怕就“貪、嗔、癡”三毒俱全了。我想,如果真的有那一天,機器人也會發(fā)展出宗教吧(遁入智瞳)。

反過來的情況叫“欠擬合”(Underfitting),就是沒有學習到真正的規(guī)律,聽風就是雨。比如下圖這個把眼罩當成奶罩的慘案,買家確實沒有把“肩帶”當作特征,“形狀”也確實有點類似,但是她把最基本的“大小”因素忽略了。

禪與奶罩識別藝術(下)

在實際應用當中,“過擬合”是更加常見的問題。

  脫掉

如何遏制過擬合?方法有很多,比如 L1、L2 正則化(Regularization)是在代價函數(shù)(Cost Function)上動手腳。

本文要介紹的方法,叫作Dropout。其原意是輟學,中文資料里基本也都保留了原詞,“脫掉”是我自己想的翻譯。你問我怎么想的,我也不知道,只是管不住我這手。

Dropout不修改代價函數(shù),而是直接調整神經(jīng)網(wǎng)絡的結構,是一種更加徹底的革命。

人工神經(jīng)元都是與特征相關的,而有的特征(比如肩帶)會造成過擬合。那么只要脫掉肩帶所對應的的神經(jīng)元,不就可以避免了嗎?

理是這么個理,但是我們并不知道,具體哪些神經(jīng)元對應哪些特征。如果我們都知道的話,也就不用訓練了,直接求解就行了。

考慮下面這個簡單的神經(jīng)網(wǎng)絡,其隱藏層(中間那層)有6個神經(jīng)元。神經(jīng)元與特征并非一一對應的,可能3個神經(jīng)元共同表征1個特征,比如從上數(shù)第2、3、5個。假設我們拋掉了這三個神經(jīng)元,用其余的網(wǎng)絡進行計算,就可以在一定程度上降低過擬合。

實際上這里的[2, 3, 5]只是猜測,我們要做的是,把所有能脫掉的3神經(jīng)元組合,全都脫一遍,對剩余部分分別進行計算,最后再求平均。誠然,每一個經(jīng)過Dropout的不完整神經(jīng)網(wǎng)絡,還是有可能過擬合,但是各自的過擬合情況是不同的,通過求平均就可以抵消。

禪與奶罩識別藝術(下)

本質上,Dropout消解了神經(jīng)網(wǎng)絡對某一部分神經(jīng)元的依賴性。6個神經(jīng)元dropout其中3個,此時dropout率即是 0.5

  實踐

實踐是檢驗罩杯的唯一標準,但是對于廣大新手而言,直接處理彩色圖片的難度還是偏高,而且本站的計算能力暫時還很有限。所以這里改用手寫數(shù)字識別項目作為案例,搭建簡單的卷積神經(jīng)網(wǎng)絡,并且對比Dropout的效果。

該項目是Kaggle的入門級比賽,且用到了著名的MNIST手寫數(shù)字數(shù)據(jù)集。MNIST可謂是深度學習界的Hello World。

首先導入依賴庫和數(shù)據(jù)集,并進行預處理,以便神經(jīng)網(wǎng)絡模型使用。

此為靜態(tài)代碼展示,在線編輯->運行Python代碼,搭建神經(jīng)網(wǎng)絡,請訪問:鏈接。

禪與奶罩識別藝術(下)

然后構建、訓練模型。這里采用一個最簡單的卷積神經(jīng)網(wǎng)絡結構:

  • 卷積層(8個5x5卷積核,ReLU激活函數(shù))

  • 池化層(2x2最大池化)

  • 全連接層(16個神經(jīng)元,ReLU激活函數(shù))

  • 輸出層(10個神經(jīng)元,SoftMax激活函數(shù))

為節(jié)省計算開銷和減少等待時間,訓練的迭代次數(shù)已設為1,所以得到的各項結果參數(shù)當然偏低,這并非所用的方法有問題。

禪與奶罩識別藝術(下)

  • 無Dropout,驗證精度為: 0.6090

  Dropout

作為對比,我們搭建另外一個架構類似、但包含Dropout層的神經(jīng)網(wǎng)絡。Dropout的位置是最大池化層之后、全連接層之前

此處代碼留空,請訪問鏈接, 完成在線練習。

禪與奶罩識別藝術(下)

如果正確地添加了Dropout,則得到的驗證精度(val_acc)應為0.7390。而其他的指數(shù),如訓練精度(acc)卻大致相等??梢?,Dropout的作用是消解過擬合,提高模型泛化能力。

PS. 如果要給本文配一個BGM,我希望是杜德偉的《脫掉》

雷鋒網(wǎng)相關閱讀:

TensorFlow & 神經(jīng)網(wǎng)絡算法高級應用班” 要開課啦!

從初級到高級,理論 + 實戰(zhàn),一站式深度了解 TensorFlow!

本課程面向深度學習開發(fā)者,講授如何利用 TensorFlow 解決圖像識別、文本分析等具體問題。課程跨度為 10 周,將從 TensorFlow 的原理與基礎實戰(zhàn)技巧開始,一步步教授學員如何在 TensorFlow 上搭建 CNN、自編碼、RNN、GAN 等模型,并最終掌握一整套基于 TensorFlow 做深度學習開發(fā)的專業(yè)技能。

兩名授課老師佟達、白發(fā)川身為 ThoughtWorks 的資深技術專家,具有豐富的大數(shù)據(jù)平臺搭建、深度學習系統(tǒng)開發(fā)項目經(jīng)驗。

時間:每周二、四晚 20:00-21:00

開課時長:總學時 20 小時,分 10 周完成,每周 2 次,每次 1 小時

線上授課地址:http://www.mooc.ai/

雷鋒網(wǎng)相關閱讀:

CNN 在基于弱監(jiān)督學習的圖像分割中的應用

看了這篇文章,了解深度卷積神經(jīng)網(wǎng)絡在目標檢測中的進展

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

禪與奶罩識別藝術(下)

分享:
相關文章

編輯

聚焦數(shù)據(jù)科學,連接 AI 開發(fā)者。更多精彩內容,請訪問:yanxishe.com
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說