0
本文作者: 楊曉凡 | 2017-12-11 10:14 |
雷鋒網(wǎng) AI 科技評(píng)論按:在深度學(xué)習(xí)界,「數(shù)據(jù)越多,模型表現(xiàn)就越好」是大家公認(rèn)的規(guī)律,不過很多時(shí)候我們都不太清楚具體的「增加多少數(shù)據(jù),能帶來多大提升」。前幾個(gè)月谷歌的一項(xiàng)大規(guī)模實(shí)驗(yàn)就有力地(甚至令人害怕地)證明了即便數(shù)據(jù)已經(jīng)很多的情況下仍然「數(shù)據(jù)越多越好」,這次百度研究院的大規(guī)模研究就定量地分析了「增加的數(shù)據(jù)能帶來多大提升」,得到的結(jié)果還可以用于預(yù)測面向?qū)嶋H問題的模型的表現(xiàn),可以說是非常實(shí)在了。雷鋒網(wǎng) AI 科技評(píng)論把百度研究院的這篇成果介紹文章編譯如下。
這是一個(gè)數(shù)字世界和其中的數(shù)據(jù)以前所未有的速度增加的時(shí)代,增加速度甚至超過了計(jì)算能力的增加速度。在深度學(xué)習(xí)的幫助下,我們可以快速地從海量的數(shù)據(jù)中獲取有價(jià)值的信息,并且?guī)Ыo我們帶有人工智能的產(chǎn)品和使用體驗(yàn)。
為了能夠持續(xù)地提升用戶體驗(yàn),深度學(xué)習(xí)科學(xué)家和開發(fā)人員們就要著眼于現(xiàn)有的以及不斷新出現(xiàn)的應(yīng)用場景,快速地改進(jìn)深度學(xué)習(xí)模型。研究新的模型架構(gòu)當(dāng)然能帶來重大改進(jìn),但這方面的研究往往需要的是靈感閃現(xiàn);大的突破常常需要為建模問題建立復(fù)雜的新框架,測試它的效果也還要再花幾周到幾個(gè)月的時(shí)間。
如果除了研究新的模型結(jié)構(gòu)之外,我們還能有更可靠的方法提升模型的準(zhǔn)確率就好了。
百度研究院近日發(fā)布的一項(xiàng)大規(guī)模研究報(bào)告就表明,隨著訓(xùn)練數(shù)據(jù)的增多,深度學(xué)習(xí)模型的準(zhǔn)確率也有可預(yù)期的提高。通過實(shí)際實(shí)驗(yàn),百度研究院的研究員們發(fā)現(xiàn),只要有足夠的訓(xùn)練數(shù)據(jù)和計(jì)算資源,那么訓(xùn)練大模型時(shí)隨著規(guī)模提升帶來的準(zhǔn)確率提升就是可以預(yù)期的。在百度研究院研究的機(jī)器翻譯、語言建模、圖像分類、語音識(shí)別四個(gè)應(yīng)用領(lǐng)域中,在眾多的頂尖模型上都能看到這樣的結(jié)果。
更具體地來說,百度研究院的研究結(jié)果表明,對(duì)于他們用來衡量模型在新樣本上的表現(xiàn)的「泛化誤差」指標(biāo),錯(cuò)誤率的指數(shù)基本隨著訓(xùn)練數(shù)據(jù)的指數(shù)線性下降。之前有一些理論研究也同樣得到了這樣的對(duì)數(shù)下降關(guān)系。然而,那些成果預(yù)測出的學(xué)習(xí)曲線都很「陡峭」,就是說冪公式的指數(shù)是-0.5,這意味著深度學(xué)習(xí)模型應(yīng)當(dāng)能學(xué)習(xí)得很快。百度研究院從大量實(shí)驗(yàn)中采集的學(xué)習(xí)曲線表明這個(gè)指數(shù)應(yīng)當(dāng)在 [-035,-0.07] 這個(gè)范圍內(nèi),就是說真實(shí)世界的模型從真實(shí)世界的數(shù)據(jù)中學(xué)習(xí)的速度要比理論預(yù)測得要慢得多。
對(duì)于語言建模任務(wù),百度研究院在 Billion Word 數(shù)據(jù)集的子集上測試了 LSTM 和 RHN 模型。上方的圖中顯示的就是不同數(shù)據(jù)量下每個(gè)架構(gòu)模型的最佳驗(yàn)證誤差(作為泛化誤差的近似)。圖中幾條曲線都可以根據(jù)指數(shù)關(guān)系進(jìn)行預(yù)測,甚至連冪公式中的指數(shù)都驚人地一致。對(duì)于很大的訓(xùn)練數(shù)據(jù)集,模型的表現(xiàn)會(huì)稍微偏離曲線一點(diǎn),但是百度研究院的研究人員們同時(shí)發(fā)現(xiàn)如果優(yōu)化超參數(shù)就往往可以讓模型表現(xiàn)回到曲線上來。
模型預(yù)測誤差的改進(jìn)從「最可能的猜測」開始,沿著指數(shù)關(guān)系下降,最終來到「無法消除的誤差」。
更廣泛地說,百度研究院實(shí)際實(shí)驗(yàn)得到的結(jié)果表明,學(xué)習(xí)曲線基本會(huì)是這樣的形式的:
從這張示意圖中可以看到,與訓(xùn)練數(shù)據(jù)數(shù)量的指數(shù)成線性關(guān)系的這一段把學(xué)習(xí)曲線分成了不同階段。一開始是小數(shù)據(jù)階段,模型只有很少的訓(xùn)練數(shù)據(jù);在這個(gè)階段,模型的表現(xiàn)就和瞎猜差不多,只是看猜得稍微有點(diǎn)譜還是完全瞎猜。學(xué)習(xí)曲線上中間的這部分就是符合剛才說到的指數(shù)關(guān)系的一部分,這里每一張新增加的訓(xùn)練樣本都能給模型提供有用的信息,提高模型分辨從未見過的樣本的能力。冪公式中的指數(shù)就決定了這一階段的線條的斜率(對(duì)數(shù)-對(duì)數(shù)坐標(biāo)下)。從這個(gè)指數(shù)上也可以看到理解訓(xùn)練數(shù)據(jù)的難度。最后,對(duì)于大多數(shù)的真實(shí)世界應(yīng)用來說,最終都會(huì)有一個(gè)不為零的錯(cuò)誤率下限,模型表現(xiàn)只能無限接近這個(gè)下限,無法進(jìn)一步降低錯(cuò)誤率(百度研究院的實(shí)驗(yàn)中,用于解決真實(shí)問題的模型還尚未接近這個(gè)下限,不過簡單問題上的實(shí)驗(yàn)中已經(jīng)清洗顯示出了這個(gè)下限)。這種無法消除的錯(cuò)誤率就來自真實(shí)世界數(shù)據(jù)中種種因素的組合。
綜合了所有模型的測試結(jié)果,百度研究院得到的結(jié)論是:
指數(shù)關(guān)系的學(xué)習(xí)率曲線在所有的用途、所有的模型架構(gòu)、所有的優(yōu)化器、所有的損失函數(shù)中都會(huì)出現(xiàn);
非常驚人的是,對(duì)于同一種模型用途,不同的模型架構(gòu)和優(yōu)化器卻表現(xiàn)出了同樣的指數(shù)關(guān)系。這里,隨著訓(xùn)練數(shù)據(jù)集增大,不同的模型的學(xué)習(xí)率有著相同的相對(duì)增長率。
對(duì)于不同數(shù)量的訓(xùn)練數(shù)據(jù),最適合的模型大小(以參數(shù)數(shù)目衡量)是隨著數(shù)據(jù)的數(shù)目次線性增加的。其中的關(guān)系同樣可以通過實(shí)驗(yàn)描述,然后用于未來的預(yù)測。
百度研究院希望這些研究成果可以在深度學(xué)習(xí)大家庭中引發(fā)更多的討論,讓大家更多地思考有哪些可以幫助深度學(xué)習(xí)快速提高的方法。對(duì)于深度學(xué)習(xí)研究者來說,學(xué)習(xí)率也可以幫助 debug 模型,并且預(yù)測改進(jìn)模型結(jié)構(gòu)之后的準(zhǔn)確率目標(biāo)。學(xué)習(xí)曲線中的指數(shù)也還有很大空間做進(jìn)一步的理論預(yù)測或者解釋。另外,可預(yù)測的學(xué)習(xí)曲線也可以幫助決定要不要增多訓(xùn)練數(shù)據(jù)、如何設(shè)計(jì)和拓展計(jì)算系統(tǒng),這實(shí)際上都體現(xiàn)了不斷提升計(jì)算規(guī)模的重要性。
論文地址:https://arxiv.org/abs/1712.00409
via Baidu Research,雷鋒網(wǎng) AI 科技評(píng)論編譯
相關(guān)文章:
從三篇論文說起:看蘋果和百度如何進(jìn)行深度神經(jīng)網(wǎng)絡(luò)開發(fā)的?
PPT之后 李彥宏用視頻演示百度在人工智能領(lǐng)域的布局 | 烏鎮(zhèn)峰會(huì)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。