丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
AI+ 正文
發(fā)私信給圖普科技
發(fā)送

0

干貨 | 深度學習的實踐應(yīng)用之路

本文作者: 圖普科技 編輯:谷磊 2017-07-14 18:34
導(dǎo)語:在本文中,我分享了三個有關(guān)深度學習的實踐應(yīng)用的經(jīng)驗和心得,希望我的這些心得對那些計劃在生意場上使用深度學習的人有所幫助。

雷鋒網(wǎng)按:本文由圖普科技編譯自《Applying Deep Learning to Real-world Problems》,雷鋒網(wǎng)獨家首發(fā)。

近年來,人工智能的崛起可以說是得益于深度學習的成功。驅(qū)動深度神經(jīng)網(wǎng)絡(luò)突破的三個主要因素分別是:海量的訓練數(shù)據(jù)、強大的計算架構(gòu)和學術(shù)領(lǐng)域的相關(guān)進展。因此,深度學習在圖像分類、面部識別等任務(wù)的表現(xiàn)上不僅超越了傳統(tǒng)方法,還超越了人類水平。這一切都為那些使用深度學習解決實際問題的新業(yè)務(wù)創(chuàng)造了巨大的發(fā)展?jié)摿Α?br/>

在位于柏林的Merantix總部,我們致力于研究這項新業(yè)務(wù)在不同行業(yè)下的應(yīng)用。(目前,我們的研究對象是汽車業(yè)、醫(yī)療保障業(yè)、金融業(yè)和廣告業(yè)。)

干貨 | 深度學習的實踐應(yīng)用之路

學術(shù)理論與現(xiàn)實生活通常有很大不同(來源:mimiandeunice.com)

現(xiàn)在訓練一個神經(jīng)網(wǎng)絡(luò)比以往任何時候都要簡單。然而,這并不意味著你可以將教程中的代碼直接應(yīng)用到應(yīng)用程序中。有趣的是,學術(shù)理論對這些至關(guān)重要的訓練技巧幾乎不予討論,而這些技巧恰恰是產(chǎn)品的關(guān)鍵所在。

干貨 | 深度學習的實踐應(yīng)用之路

將深度學習應(yīng)用于現(xiàn)實問題可能會比較麻煩(來源:pinsdaddy.com)

因此,我想理解和掌握這些技巧,對于那些計劃在生意上應(yīng)用深度學習的人來說將會大有裨益。

在本文中,我想分享三點關(guān)鍵的心得和經(jīng)驗。當我們在Merantix用深度學習應(yīng)對現(xiàn)實問題時,這些心得給了我們很大的幫助和啟發(fā):

  • 心得I:預(yù)訓練的重要性

  • 心得II:實際標簽分布的注意事項

  • 心得III:理解黑箱模型

聲明:

  •  本文介紹的內(nèi)容不代表完整的方法,還有很多其他的方法和技巧本文沒有涉及。

  • · 本文分享的大部分心得體會不僅適用于深度學習,還適用于其他機器學習算法。

  • · 所有的心得都不是針對某一行業(yè)的。

  • · 本文中的大多內(nèi)容都適用于有監(jiān)督式學習的問題。

這篇文章是根據(jù)我在5月10日“柏林人工智能大會”上的演講修改而成的。

心得I:“預(yù)訓練”的重要性

在機器學習學術(shù)界,對獲取數(shù)據(jù)集的關(guān)注微乎其微。相反,為了將深度學習方法與其他方法作比較,并最終確定一個最優(yōu)方法,標準做法是在一個標準數(shù)據(jù)集上,以相同的評估程序來評測不同方法的表現(xiàn)。然而在現(xiàn)實情境中,你的新算法性能比另一算法高出1%并不重要,重要的是建立一個強大穩(wěn)健的,并且能夠準確地解決目標任務(wù)的系統(tǒng)。對所有機器學習系統(tǒng)來說,這需要一些算法能夠從中學習的標記訓練。

對許多現(xiàn)實問題來說,獲取標注的訓練數(shù)據(jù)的成本相當昂貴。為了詳細地闡述這個問題,我們來看兩個案例:

1. 醫(yī)學影像

如果我們想要建立一個在CT圖像中檢測人體淋巴結(jié)的系統(tǒng),我們需要對CT圖像中的淋巴結(jié)進行標記。這是一項非常耗時的工作,因為這些圖像都是3D的,而且我們需要在3D圖像中識別出非常小的結(jié)構(gòu)。假設(shè),一個放射科醫(yī)生一小時能標記4張圖像,他的時薪是100美元;這就意味著標記一張CT圖像將花費我們25美元,而標記一萬張CT圖像,我們要花25萬美元。因此,我們需要幾個醫(yī)生來對同一張圖像進行標注,以確保接近100%的診斷準確性。這樣一來,一個醫(yī)學任務(wù)的數(shù)據(jù)集的成本很容易就會超過25萬美元。

2. 信用評分

如果我們想建立一個能夠?qū)蛻粜庞玫燃夁M行評估的系統(tǒng),我們就需要知道存在潛在違約風險的客戶,這樣我們才能讓一個機器學習系統(tǒng)提前識別出他們。不幸的是,只有當違約真正發(fā)生的時候我們才能確定違約的客戶。因此,一個比較天真的策略是給每個人發(fā)放貸款(假如是每人一萬美元)。但這就意味著每一個人違約我們就將損失一萬美元,這無形中就使得每一個標注數(shù)據(jù)點的價格都非常昂貴。

顯然我們可以通過一些方法來降低這些成本,但總體來說,獲取用于解決現(xiàn)實問題的標記數(shù)據(jù)的成本非常高。

那么,我們究竟該如何解決這個問題呢?

 “預(yù)訓練”

干貨 | 深度學習的實踐應(yīng)用之路

預(yù)訓練能有效降低成本(來源:massivejoes.com)

“預(yù)訓練”的基本操作是——首先,我們需要在一個相關(guān)領(lǐng)域的廉價大數(shù)據(jù)集上,或者是在同一領(lǐng)域的“非純凈訓練數(shù)據(jù)”上,對一個神經(jīng)網(wǎng)絡(luò)(或另一個機器學習算法)進行訓練。盡管這樣做不能直接解決問題,但這能讓神經(jīng)網(wǎng)絡(luò)對你需要解決的問題有初步的了解。接下來的第二步,我們要在一個更精細的、成本更高的小數(shù)據(jù)集上進一步優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)。下圖是“預(yù)訓練”的操作示意圖:

干貨 | 深度學習的實踐應(yīng)用之路

 當訓練數(shù)據(jù)集很難獲取時,首先在相對廉價的大型數(shù)據(jù)集上對神經(jīng)網(wǎng)絡(luò)進行“預(yù)訓練”;然后,在一個成本相對高的、相對精細的數(shù)據(jù)集上調(diào)整神經(jīng)網(wǎng)絡(luò)。在對神經(jīng)網(wǎng)絡(luò)進行微調(diào)時,類別的數(shù)目可能會發(fā)生改變。

人們通常會在有著1000個類別的ImageNet數(shù)據(jù)集上對神經(jīng)網(wǎng)絡(luò)進行“預(yù)訓練”,然后根據(jù)他們實際需要解決的問題對神經(jīng)網(wǎng)絡(luò)進行微調(diào),而微調(diào)過程中的類別數(shù)與“預(yù)訓練”中的類別數(shù)很可能是不一樣的。這就意味著神經(jīng)網(wǎng)絡(luò)的最后一層需要重新初始化。通常情況下,神經(jīng)網(wǎng)絡(luò)中最后一層的學習效率要相對高一些,因為最后一層需要從頭開始學習,而前面的層的學習速率會低一些。對于像ImageNet這樣的數(shù)據(jù)集,這樣的特征學習是通用的,因此它能直接用于解決其他的計算機視覺問題。

我們應(yīng)該如何獲取“預(yù)訓練”的數(shù)據(jù)?

 “預(yù)訓練”數(shù)據(jù)的來源

1. 預(yù)訓練模型:網(wǎng)絡(luò)上有很多經(jīng)過訓練的模型,其中最應(yīng)該指出的就是Model Zoos。Model Zoos包含了一系列不同的訓練數(shù)據(jù),這些數(shù)據(jù)經(jīng)過了專家學者、公司企業(yè)和深度學習愛好者的訓練。

2. 公共數(shù)據(jù)集:網(wǎng)上有很多數(shù)據(jù)集,所以不要在收集數(shù)據(jù)集上浪費時間,花時間看看網(wǎng)上有沒有能夠解決你的問題的數(shù)據(jù)集。

3. 數(shù)據(jù)抓?。喝绻W(wǎng)上既沒有一個公共的“預(yù)訓練”模型,也沒有你需要的數(shù)據(jù)集,那么你可以通過一個小門路來生成一個數(shù)據(jù)集。你可以建立一個所謂的“抓取器”,讓它自動從特定的網(wǎng)站上收集數(shù)據(jù)集。這樣你就能建立一個新的數(shù)據(jù)集了。

干貨 | 深度學習的實踐應(yīng)用之路

預(yù)訓練的數(shù)據(jù)來源

弱標記的數(shù)據(jù)

因為我們會在一個更精確的數(shù)據(jù)集上對神經(jīng)網(wǎng)絡(luò)進行調(diào)整,所以在調(diào)整之前我們是可以在所謂的“弱標記”數(shù)據(jù)集上對其進行“預(yù)訓練”的。之所以稱之為“弱標記”數(shù)據(jù)集,是因為其中的數(shù)據(jù)標記并非是完全正確的(可能有90%的數(shù)據(jù)是正確的,10%是錯誤的)?!叭鯓擞洝睌?shù)據(jù)的好處在于它能夠輕松獲取,不需要人工參與標記。這與那些人工參與標記的數(shù)據(jù)集相比成本要低很多。

舉個例子來說,在攻讀博士學位期間,我從維基百科和IMDb上獲取了一個數(shù)據(jù)集,這個數(shù)據(jù)集中包含了50萬張人臉圖像。將照片中每個人的出生日期和照片底部顯示的拍攝日期結(jié)合起來,這樣我們就能大致判斷出每張圖像的年齡。需要注意的是,在某些情況下,照片底部顯示的拍攝日期可能是錯的,或者一張照片中可能有多個人而面部檢測器在識別人臉時出現(xiàn)了差錯,因此,我們不能完全保證圖像年齡的判斷都是正確的。盡管如此,我們還是應(yīng)該在這個“弱標記”數(shù)據(jù)集上進行“預(yù)訓練”,以提高神經(jīng)網(wǎng)絡(luò)的性能,而僅在準確標記了的數(shù)據(jù)集上訓練是完全不夠的。

在前面提到的醫(yī)學影像問題上,我們同樣可以用這樣的邏輯來理解。為了使標記準確度盡可能接近100%,我們需要好幾個醫(yī)生單獨對同一張CT圖像進行標記。這就相當于我們用于進一步調(diào)整神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫。另外,我們可以收集一個僅由一個人完成標記的“弱標記”大數(shù)據(jù)集,這樣我們不但能夠減低標記的成本,還能確保神經(jīng)網(wǎng)絡(luò)經(jīng)過了不同的圖像數(shù)據(jù)訓練過。

總之,提高神經(jīng)網(wǎng)絡(luò)性能不一定要昂貴的人工標記或人工注釋,通過免費的,或是低成本的標記數(shù)據(jù)集,同樣可以提高性能。

心得II: 實際標簽分布的注意事項

干貨 | 深度學習的實踐應(yīng)用之路

現(xiàn)實中的標簽分布(來源:r4risk.com.au)

既然我們已經(jīng)獲得了“預(yù)訓練”和調(diào)整的數(shù)據(jù),接下來我們就能開始神經(jīng)網(wǎng)絡(luò)的正式訓練了。在正式訓練中,出現(xiàn)了另一個學術(shù)界與現(xiàn)實世界之間的巨大分歧。

在學術(shù)界,數(shù)據(jù)集大多都是平衡的。也就是說,在有監(jiān)督的分類問題上,每一類別通常有數(shù)目相同的樣本。下圖中有兩個學術(shù)界數(shù)據(jù)集的例子:MNIST是一個非常有名的手寫數(shù)字數(shù)據(jù)集,這個數(shù)據(jù)集中包含了與數(shù)字的數(shù)量大致相等的樣本。Food 101是學術(shù)界數(shù)據(jù)集的另一個典型,其中的每一類食物都有整整1000張圖像。

干貨 | 深度學習的實踐應(yīng)用之路

MNIST和Food101都是“平衡數(shù)據(jù)集”

非平衡標簽分布

我想再一次用兩個現(xiàn)實中的案例來說明這個問題:

1. 醫(yī)學影像:醫(yī)學影像的訓練數(shù)據(jù)是很不平衡的。病患中的大多數(shù)其實都是健康的,只有一小部分人患某種疾病。

2. 信用評分:實際上,大多數(shù)客戶都歸還了貸款,違約的人只占大約1-2%。

干貨 | 深度學習的實踐應(yīng)用之路

不平衡的現(xiàn)實生活的標簽分布

正如上面所說的,在這兩個案例中,標簽分布是非常不平衡的。這在現(xiàn)實生活中其實是很常見的。實際上,每一類都有相同多的樣本量是很少見的。

不平衡的錯誤分類成本

不幸的是,這種情況變得越來越糟糕。在學術(shù)界,數(shù)據(jù)集中每一類別的分類錯誤的成本通常是一樣的。但是在現(xiàn)實生活中就大不相同了。

1. 醫(yī)學影像:將一個健康的人誤診為病人還不是最糟糕的,只要醫(yī)生在反復(fù)檢查后發(fā)現(xiàn)這個人實際上是健康的就沒有問題。但是講一個患病的人錯誤地判斷為健康的人,讓病人沒能得到及時的治療,這就非常危險了。

2. 信用評分:拒絕向那些會歸還貸款的人提供貸款還不算最糟糕的,這最多讓你損失一些貸款利率。但是給違約的人提供貸款的代價就很高了,你需要承擔借出的所有貸款。

下面是這兩個案例的示意圖:

干貨 | 深度學習的實踐應(yīng)用之路

現(xiàn)實應(yīng)用中不平衡的錯誤分類成本

如何解決這一問題?

既然類別和錯誤分類的成本都是不平衡的,那么我們就必須要想個方法來應(yīng)對這個不平衡的問題。針對這一問題的文獻十分有限,我們找到了一些與之相關(guān)的博客文章和Stack Overflow問題。

值得注意的是,不平衡的類別和不平衡的錯誤分類成本都是高度相關(guān)的,因為這意味著對于部分樣本,我們幾乎沒有訓練數(shù)據(jù);而且出現(xiàn)錯誤的成本相當高。

我將那些有助于模型分類的方法大致分成了四種:

1. 更多訓練數(shù)據(jù)

最突出的方法就是從少量的類別中收集盡量多的數(shù)據(jù)。以醫(yī)學影像為例,這就意味著我們要盡量收集患有某種疾病的病人的圖像。如果收集這些圖像的成本過高,那么就用前面所討論的其他方法來獲取訓練數(shù)據(jù)。注意,在調(diào)整訓練標簽分布的時候你需要非常小心,因為這對于模型的預(yù)測判斷有很大的影響:如果你在訓練數(shù)據(jù)集中增加了患病病人的數(shù)量,那么模型就更傾向于將對象預(yù)測為患病病人。

干貨 | 深度學習的實踐應(yīng)用之路

收集更多稀缺類別的數(shù)據(jù)。當訓練過程中的標簽分布與預(yù)測結(jié)果不匹配時你就要非常注意了。

2.改變標記

如果你不能收集到更多稀缺類別的數(shù)據(jù),那就考慮換一種分類方法。在實際的應(yīng)用中,你可能不需要區(qū)分A疾病與B疾病,只要能識別出這兩者中的其一就夠了。在這種情況下,你可以將這兩個類別合并。這樣一來,訓練期間的訓練流程將會被簡化;而且在模型推斷階段,即使A疾病和B疾病混淆了也沒有太大關(guān)系。

干貨 | 深度學習的實踐應(yīng)用之路

在訓練期間,或在模型評估階段將兩個或多個類別合并能使問題簡單化

3. 采樣

如果你既不能得到更多數(shù)據(jù),也無法改變標記,那就意味著你需要研究原始數(shù)據(jù)了。那么究竟該如何確保我們的模型善于處理稀缺類別呢?你只需要在訓練過程中改變算法處理案例的方式。通常情況下,樣本都是經(jīng)過統(tǒng)一采樣得來的,這也就意味著算法在訓練期間處理每個案例的方式都是一樣的。

我們可以采取一些不同的、有助于提高稀缺類別標記的性能的采樣方法。

  • 忽略樣本:忽略高頻類別的部分樣本可以說是最簡單的方法了。我們可以在每一類樣本數(shù)目大致相同的情況下采用這種方法。

干貨 | 深度學習的實踐應(yīng)用之路

  • 過采樣/欠采樣:“過采樣”指的是將稀缺類別的樣本以更高的頻率展示給算法;而“欠采樣”的意思則相反。從算法的角度來看,這兩種方法的結(jié)果是一樣的。這兩種方法相對于前面的方法好處在于沒有樣本是被忽略的。

干貨 | 深度學習的實踐應(yīng)用之路

  • 消極樣本挖掘:第三組采樣方法稍微復(fù)雜一些,但卻是最有效的方法。跟之前的“過采樣”和“欠采樣”不同,我們這一步的采樣是有意識的。盡管我們有很多高頻類別的樣本,但是我們最關(guān)心的還是其中最復(fù)雜、最困難的樣本,比如那些被誤分類概率最高的樣本。因此,我們可以在訓練過程中有規(guī)律地對模型進行評估,同時調(diào)查樣本,以識別出其中很可能被誤分類的部分。這樣一來,我們能夠輕易地選擇出算法最常學習的樣本了。

干貨 | 深度學習的實踐應(yīng)用之路

4. 對損失進行加權(quán)

采用上述的三個方法以后,我們在改善類別分布方面做的就已經(jīng)夠多了。因此,我們現(xiàn)在可以轉(zhuǎn)移注意力至算法本身。幸運的是,還有一些方法是能夠用于讓算法更多地關(guān)注稀缺類別的。其中一個直接的方法就是增加稀缺類別樣本的損失權(quán)重。

干貨 | 深度學習的實踐應(yīng)用之路

稀缺類別的損失權(quán)重增加了

心得III:理解黑箱模型

干貨 | 深度學習的實踐應(yīng)用之路

一個黑箱(來源:辛普森一家)

正如我們在前面提到的“預(yù)訓練”,學術(shù)界最重要的目標就是不論采用的模型是怎樣的,都要達到或超越當今最先進的性能。而在考慮現(xiàn)實生活應(yīng)用時,僅建立一個性能良好的模型是不夠的。

我們還需要:

  • 理解模型為什么及如何出現(xiàn)預(yù)估錯誤的,

  • 給出直觀的事實說明為什么我們的模型性能要優(yōu)于之前的任何方法,

  • 確保模型不會被欺騙。

在深度神經(jīng)網(wǎng)絡(luò)興起之前,大部分模型都是相對容易理解的。看以下幾點:

  • 線性模型:線性分類器或回歸模型提供了每一特征和預(yù)測結(jié)果之間的直接關(guān)系。這就使我們能夠直接、輕易地理解模型預(yù)估決策機制。

  • 決策樹:“決策樹”的優(yōu)勢在于我們可以沿著樹來理解決策是如何形成的。總體上來說,最頂端的枝節(jié)涵蓋了最重要的特征。談到任意決策森林時,情況就變得稍微復(fù)雜一些了,但樹的結(jié)構(gòu)還是能讓我們很好地理解其中的原理的。

不幸的是,理解深度神經(jīng)網(wǎng)絡(luò)的決策機制要困難得多。因為深度神經(jīng)網(wǎng)絡(luò)是高度非線性的,而且其中的變量數(shù)量基本都是上億的。所以要解釋其決策的方式是很困難的。

干貨 | 深度學習的實踐應(yīng)用之路

傳統(tǒng)機器學習方法VS深度學習

如今,如何解釋決策程序已經(jīng)成為了現(xiàn)實生活應(yīng)用中的一個巨大挑戰(zhàn),因為深度神經(jīng)網(wǎng)絡(luò)正迅速融入我們生活的各個領(lǐng)域——汽車自動駕駛、醫(yī)療診斷、金融決策等等。大部分的實際應(yīng)用對我們的生活、財產(chǎn)和一些敏感信息都會產(chǎn)生巨大的影響。因此,算法作出的錯誤決策很可能會謀財害命。

干貨 | 深度學習的實踐應(yīng)用之路

“特斯拉汽車事故”(左圖)和關(guān)于人工智能轉(zhuǎn)變?yōu)榉N族主義者的報道文章(右圖)

不幸的是,這些失誤的發(fā)生不全是偶然的,攻擊者的有意而為也會引發(fā)這些失誤。為了強調(diào)這個話題的相關(guān)性,研究專家已經(jīng)發(fā)現(xiàn),只要在一張普通圖像上增加簡單任意的噪聲,就能改變深度神經(jīng)網(wǎng)絡(luò)的分類結(jié)果,而人眼幾乎察覺不出圖像的變化。同樣,在與純?nèi)斯D像相適應(yīng)的同時,仍能得到一個非常自信的預(yù)測結(jié)果。

干貨 | 深度學習的實踐應(yīng)用之路

在一張圖像或人工圖像上加上少量的任意噪聲(左圖)能輕易地騙過神經(jīng)網(wǎng)絡(luò)

在現(xiàn)實生活中,你通常會非常想弄清楚為什么你的系統(tǒng)不能發(fā)揮它本身的效能。

在Merantix,我們對這些問題非常重視,我們相信這些問題在未來將會變得更加重要,因為深度學習系統(tǒng)在現(xiàn)實生活中將會有更多的實際應(yīng)用。

最近,我們開發(fā)了一個名為Picasso(Medium Post,Github)的深度學習可視化工具箱。由于要研究各種各樣的神經(jīng)網(wǎng)絡(luò)架構(gòu),所以我們開發(fā)了Picasso來幫助我們在不同的領(lǐng)域查看標準的模型。比如,在汽車駕駛中理解道路分叉或道路對象識別失誤;廣告業(yè)中理解為什么某種創(chuàng)意能獲得更高的點擊率;在醫(yī)學影像領(lǐng)域分析CT圖像或X光圖中出現(xiàn)的不明對象。下圖是我們的開源Picasso視覺化檢視器的演示圖:

干貨 | 深度學習的實踐應(yīng)用之路 

總結(jié)

在本文中,我分享了在Merantix用深度學習解決現(xiàn)實問題時總結(jié)出的三個非常重要的心得體會,希望這些心得對那些計劃在生意中使用深度學習的人有所幫助。正如我在文章開頭說的,在將深度學習應(yīng)用于實際生活中時,我們有許多非常有用的技巧,也有很多需要注意的事項。

Rasmus Rothe是歐洲最重要的深度學習專家之一,也是Merantix的聯(lián)合創(chuàng)始人之一。他曾在蘇黎世大學、牛津大學和普林斯頓大學學習計算機科學,并專攻深度學習。他曾開發(fā)了howhot.io,并將其作為他博士研究的一部分;創(chuàng)辦了歐洲最大的Hackathon HackZurich,并為谷歌和BCG工作。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

專欄作者

基于圖像識別技術(shù)多維度解讀圖片和視頻
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說