丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

百度研究院:都知道數(shù)據(jù)越多越好,現(xiàn)在我們還能預測增加了數(shù)據(jù)以后具體有多好

本文作者: 楊曉凡 2017-12-11 10:14
導語:想再提升1%正確率還需要多少數(shù)據(jù)終于心里有數(shù)

雷鋒網(wǎng) AI 科技評論按:在深度學習界,「數(shù)據(jù)越多,模型表現(xiàn)就越好」是大家公認的規(guī)律,不過很多時候我們都不太清楚具體的「增加多少數(shù)據(jù),能帶來多大提升」。前幾個月谷歌的一項大規(guī)模實驗就有力地(甚至令人害怕地)證明了即便數(shù)據(jù)已經(jīng)很多的情況下仍然「數(shù)據(jù)越多越好」,這次百度研究院的大規(guī)模研究就定量地分析了「增加的數(shù)據(jù)能帶來多大提升」,得到的結果還可以用于預測面向?qū)嶋H問題的模型的表現(xiàn),可以說是非常實在了。雷鋒網(wǎng) AI 科技評論把百度研究院的這篇成果介紹文章編譯如下。

百度研究院:都知道數(shù)據(jù)越多越好,現(xiàn)在我們還能預測增加了數(shù)據(jù)以后具體有多好

這是一個數(shù)字世界和其中的數(shù)據(jù)以前所未有的速度增加的時代,增加速度甚至超過了計算能力的增加速度。在深度學習的幫助下,我們可以快速地從海量的數(shù)據(jù)中獲取有價值的信息,并且?guī)Ыo我們帶有人工智能的產(chǎn)品和使用體驗。

為了能夠持續(xù)地提升用戶體驗,深度學習科學家和開發(fā)人員們就要著眼于現(xiàn)有的以及不斷新出現(xiàn)的應用場景,快速地改進深度學習模型。研究新的模型架構當然能帶來重大改進,但這方面的研究往往需要的是靈感閃現(xiàn);大的突破常常需要為建模問題建立復雜的新框架,測試它的效果也還要再花幾周到幾個月的時間。

如果除了研究新的模型結構之外,我們還能有更可靠的方法提升模型的準確率就好了。

我們能提前知道更多數(shù)據(jù)會帶來多大的提升嗎?

百度研究院近日發(fā)布的一項大規(guī)模研究報告就表明,隨著訓練數(shù)據(jù)的增多,深度學習模型的準確率也有可預期的提高。通過實際實驗,百度研究院的研究員們發(fā)現(xiàn),只要有足夠的訓練數(shù)據(jù)和計算資源,那么訓練大模型時隨著規(guī)模提升帶來的準確率提升就是可以預期的。在百度研究院研究的機器翻譯、語言建模、圖像分類、語音識別四個應用領域中,在眾多的頂尖模型上都能看到這樣的結果。

更具體地來說,百度研究院的研究結果表明,對于他們用來衡量模型在新樣本上的表現(xiàn)的「泛化誤差」指標,錯誤率的指數(shù)基本隨著訓練數(shù)據(jù)的指數(shù)線性下降。之前有一些理論研究也同樣得到了這樣的對數(shù)下降關系。然而,那些成果預測出的學習曲線都很「陡峭」,就是說冪公式的指數(shù)是-0.5,這意味著深度學習模型應當能學習得很快。百度研究院從大量實驗中采集的學習曲線表明這個指數(shù)應當在 [-035,-0.07] 這個范圍內(nèi),就是說真實世界的模型從真實世界的數(shù)據(jù)中學習的速度要比理論預測得要慢得多。

百度研究院:都知道數(shù)據(jù)越多越好,現(xiàn)在我們還能預測增加了數(shù)據(jù)以后具體有多好

語言建模模型上的實驗結果就展現(xiàn)出,隨著訓練數(shù)據(jù)的增加,錯誤率的指數(shù)基本隨著訓練數(shù)據(jù)的指數(shù)線性下降(注意橫軸縱軸都是對數(shù)坐標)

對于語言建模任務,百度研究院在 Billion Word 數(shù)據(jù)集的子集上測試了 LSTM 和 RHN 模型。上方的圖中顯示的就是不同數(shù)據(jù)量下每個架構模型的最佳驗證誤差(作為泛化誤差的近似)。圖中幾條曲線都可以根據(jù)指數(shù)關系進行預測,甚至連冪公式中的指數(shù)都驚人地一致。對于很大的訓練數(shù)據(jù)集,模型的表現(xiàn)會稍微偏離曲線一點,但是百度研究院的研究人員們同時發(fā)現(xiàn)如果優(yōu)化超參數(shù)就往往可以讓模型表現(xiàn)回到曲線上來。

「有盡頭」、「可預測」的學習

模型預測誤差的改進從「最可能的猜測」開始,沿著指數(shù)關系下降,最終來到「無法消除的誤差」。

更廣泛地說,百度研究院實際實驗得到的結果表明,學習曲線基本會是這樣的形式的:

百度研究院:都知道數(shù)據(jù)越多越好,現(xiàn)在我們還能預測增加了數(shù)據(jù)以后具體有多好

實際應用中成指數(shù)關系的學習曲線(橫軸縱軸仍然都是對數(shù)坐標)

從這張示意圖中可以看到,與訓練數(shù)據(jù)數(shù)量的指數(shù)成線性關系的這一段把學習曲線分成了不同階段。一開始是小數(shù)據(jù)階段,模型只有很少的訓練數(shù)據(jù);在這個階段,模型的表現(xiàn)就和瞎猜差不多,只是看猜得稍微有點譜還是完全瞎猜。學習曲線上中間的這部分就是符合剛才說到的指數(shù)關系的一部分,這里每一張新增加的訓練樣本都能給模型提供有用的信息,提高模型分辨從未見過的樣本的能力。冪公式中的指數(shù)就決定了這一階段的線條的斜率(對數(shù)-對數(shù)坐標下)。從這個指數(shù)上也可以看到理解訓練數(shù)據(jù)的難度。最后,對于大多數(shù)的真實世界應用來說,最終都會有一個不為零的錯誤率下限,模型表現(xiàn)只能無限接近這個下限,無法進一步降低錯誤率(百度研究院的實驗中,用于解決真實問題的模型還尚未接近這個下限,不過簡單問題上的實驗中已經(jīng)清洗顯示出了這個下限)。這種無法消除的錯誤率就來自真實世界數(shù)據(jù)中種種因素的組合。

綜合了所有模型的測試結果,百度研究院得到的結論是:

  • 指數(shù)關系的學習率曲線在所有的用途、所有的模型架構、所有的優(yōu)化器、所有的損失函數(shù)中都會出現(xiàn);

  • 非常驚人的是,對于同一種模型用途,不同的模型架構和優(yōu)化器卻表現(xiàn)出了同樣的指數(shù)關系。這里,隨著訓練數(shù)據(jù)集增大,不同的模型的學習率有著相同的相對增長率。

  • 對于不同數(shù)量的訓練數(shù)據(jù),最適合的模型大?。ㄒ詤?shù)數(shù)目衡量)是隨著數(shù)據(jù)的數(shù)目次線性增加的。其中的關系同樣可以通過實驗描述,然后用于未來的預測。

百度研究院希望這些研究成果可以在深度學習大家庭中引發(fā)更多的討論,讓大家更多地思考有哪些可以幫助深度學習快速提高的方法。對于深度學習研究者來說,學習率也可以幫助 debug 模型,并且預測改進模型結構之后的準確率目標。學習曲線中的指數(shù)也還有很大空間做進一步的理論預測或者解釋。另外,可預測的學習曲線也可以幫助決定要不要增多訓練數(shù)據(jù)、如何設計和拓展計算系統(tǒng),這實際上都體現(xiàn)了不斷提升計算規(guī)模的重要性。

論文地址:https://arxiv.org/abs/1712.00409 

via Baidu Research,雷鋒網(wǎng) AI 科技評論編譯

相關文章:

從三篇論文說起:看蘋果和百度如何進行深度神經(jīng)網(wǎng)絡開發(fā)的?

PPT之后 李彥宏用視頻演示百度在人工智能領域的布局 | 烏鎮(zhèn)峰會

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

百度研究院:都知道數(shù)據(jù)越多越好,現(xiàn)在我們還能預測增加了數(shù)據(jù)以后具體有多好

分享:
相關文章

讀論文為生

日常笑點滴,學術死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說