丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給大牛講堂
發(fā)送

1

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享

本文作者: 大牛講堂 2016-08-22 19:35
導(dǎo)語:本文主要介紹了深度學(xué)習(xí)中Sequence Learning技術(shù)的分享,也介紹了其對(duì)傳統(tǒng)光學(xué)框架的改造。

雷鋒網(wǎng)按:本文作者都大龍,2011年7月畢業(yè)于中科院計(jì)算技術(shù)研究所;曾任百度深度學(xué)習(xí)研究院(IDL)資深研發(fā)工程師,并連續(xù)兩次獲得百度最高獎(jiǎng)—百萬美金大獎(jiǎng);現(xiàn)在Horizon Robotics負(fù)責(zé)自主服務(wù)機(jī)器人、智能家居以及玩具方向的算法研究與開發(fā),涉及深度學(xué)習(xí)、計(jì)算機(jī)視覺、人機(jī)交互、SLAM、機(jī)器人規(guī)劃控制等多個(gè)領(lǐng)域。

深度學(xué)習(xí)獨(dú)領(lǐng)風(fēng)騷

人工智能領(lǐng)域深度學(xué)習(xí)獨(dú)領(lǐng)風(fēng)騷自2006 年Geoffery Hinton等在《科學(xué)》( Science) 雜志發(fā)表那篇著名的論文開始, 深度學(xué)習(xí)的熱潮從學(xué)術(shù)界席卷到了工業(yè)界。
從那天起,深度學(xué)習(xí)在工業(yè)界的應(yīng)用就如火如荼,真正開始“深度”影響我們的生活。比如這個(gè)大牛同學(xué),參與開發(fā)了國(guó)內(nèi)最早的基于CDNN的圖像識(shí)別技術(shù),極大提升了計(jì)算機(jī)視覺相關(guān)線上應(yīng)用的效果,還創(chuàng)新性的主導(dǎo)研發(fā)了基于CNN和BLSTM的OCR識(shí)別系統(tǒng),大幅提升了商用OCR系統(tǒng)的識(shí)別率,他的工作影響了包括你我在內(nèi)的千萬互聯(lián)網(wǎng)用戶。

深度學(xué)習(xí)的優(yōu)勢(shì)在哪里

人工智能的特征之一是學(xué)習(xí)的能力,即系統(tǒng)的性能是否會(huì)隨著經(jīng)驗(yàn)數(shù)據(jù)的積累而不斷提升。我們認(rèn)識(shí)到深度學(xué)習(xí)主要在以下三個(gè)方面具有巨大優(yōu)勢(shì):

1.從統(tǒng)計(jì)和計(jì)算的角度看,深度學(xué)習(xí)特別適合處理大數(shù)據(jù)。在很多問題上,深度學(xué)習(xí)是目前我們能找到的最好方法。

2.深度學(xué)習(xí)不是一個(gè)黑箱系統(tǒng)。它提供一套豐富的、基于聯(lián)接主義的建模語言(建??蚣埽?。利用這套語言系統(tǒng),我們可以表達(dá)數(shù)據(jù)內(nèi)在的豐富關(guān)系和結(jié)構(gòu),比如用卷積處理圖像中的二維空間結(jié)構(gòu), 用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neu-ral Network, RNN) 處理自然語言等數(shù)據(jù)中的時(shí)序結(jié)構(gòu)。

3.深度學(xué)習(xí)幾乎是唯一的端到端機(jī)器學(xué)習(xí)系統(tǒng)。它直接作用于原始數(shù)據(jù),自動(dòng)逐層進(jìn)行特征學(xué)習(xí),整個(gè)過程直接優(yōu)化某個(gè)目標(biāo)函數(shù)。

關(guān)于Sequence Learning的技術(shù)分享現(xiàn)場(chǎng)實(shí)錄

關(guān)于Sequence Learning的技術(shù)分享現(xiàn)場(chǎng)實(shí)錄從2012 年的ImageNet競(jìng)賽開始,深度學(xué)習(xí)首先在圖像識(shí)別領(lǐng)域發(fā)揮出巨大威力。隨著研究的深入,深度學(xué)習(xí)逐漸被應(yīng)用到音頻、視頻以及自然語言理解領(lǐng)域。這些領(lǐng)域的特點(diǎn)是針對(duì)時(shí)序數(shù)據(jù)的建模,我們將其稱之為Sequence Learning。如何利用深度學(xué)習(xí)來進(jìn)行端到端的學(xué)習(xí),并摒棄基于人工規(guī)則的中間步驟,以提升Sequence Learning的效果已經(jīng)成為當(dāng)前研究的熱點(diǎn)。

Sequence Learning 已經(jīng)成功應(yīng)用到多個(gè)領(lǐng)域,比如語音識(shí)別、 Image Captain 、機(jī)器翻譯、 OCR 等,它們的共同特點(diǎn)是利用 DNN 或者 CNN 提取高級(jí)語義特征,利用 RNN 建模時(shí)序信息。在損失函數(shù)方面,除了常見的 logistic 損失外,還引入了結(jié)構(gòu)化損失,比如 CTC 等序列對(duì)序列的損失等。

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享

simple RNN的變體—LSTM

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享

CTC結(jié)構(gòu)化損失函數(shù)

在 Sequence Learning 中,我們認(rèn)為 RNN 和 sequence 相關(guān)的結(jié)構(gòu)化損失函數(shù)是當(dāng)前時(shí)序?qū)W習(xí)取得巨大成功的重要組成部分。除了傳統(tǒng)的 simple RNN 外,出現(xiàn)了很多 RNN 變種,比如LSTM( Long Short Temporal Memory )、 GRU(Gated Recurrent Unit)等,已經(jīng)被廣泛的應(yīng)用到時(shí)序?qū)W習(xí)的任務(wù)中,它們都具有特定的 Recurrent 結(jié)構(gòu),并且通過一系列 gate 開關(guān)自適應(yīng)的建模長(zhǎng)時(shí)的信息,都在一定程度上克服了 Simple RNN 優(yōu)化過程中的梯度消失或爆炸問題。CTC 作為一種結(jié)構(gòu)化損失函數(shù),它沒有必要對(duì)序列數(shù)據(jù)進(jìn)行分割,并且估計(jì)整體序列標(biāo)注概率作為損失,已經(jīng)被廣泛應(yīng)用到 OCR 、語音識(shí)別以及其他序列識(shí)別任務(wù)中。
在這里他就以 OCR 為例,介紹如何利用機(jī)器學(xué)習(xí)尤其是 Sequence Learning 技術(shù)對(duì)傳統(tǒng) OCR 技術(shù)進(jìn)行改造升級(jí)。

對(duì)傳統(tǒng)光學(xué)字符識(shí)別框架的改造

基于端到端的序列學(xué)習(xí)

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享

大牛正在白板上講解RNN

光學(xué)字符識(shí)別的概念早在20世紀(jì)20年代便被提出,一直是模式識(shí)別領(lǐng)域研究中極具代表性的重要課題。

經(jīng)典的光學(xué)字符識(shí)別系統(tǒng)從輸入圖像到輸出最終的文字識(shí)別結(jié)果,歷經(jīng)版面分析、行分割、字分割、單字識(shí)別、語言模型解碼和后處理。涉及的技術(shù)分為基于經(jīng)驗(yàn)制定的規(guī)則和基于統(tǒng)計(jì)學(xué)習(xí)的模型兩大類。前者包括系統(tǒng)預(yù)處理階段(版面分析、行分割、字分割)的二值化、連通域分析、投影分析等,以及后處理階段的規(guī)則噪聲過濾器;后者包括基于類方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征的單字識(shí)別引擎和基于N-gram 的語言模型,用于單字識(shí)別和語言模型解碼階段。

在數(shù)據(jù)簡(jiǎn)單、條件可控的情況下,經(jīng)典的光學(xué)字符識(shí)別技術(shù)架構(gòu)通過細(xì)致的人工規(guī)則制定和適量的模型參數(shù)學(xué)習(xí),便可以達(dá)到比較理想的識(shí)別精度。但在廣泛的自然場(chǎng)景中,文字呈現(xiàn)出的圖像信息復(fù)雜度顯著增大,而拍攝圖像的條件又得不到很好的控制,經(jīng)典的光學(xué)字符識(shí)別技術(shù)架構(gòu)難以滿足實(shí)際應(yīng)用的需求。究其原因,是這一技術(shù)架構(gòu)的處理流程繁瑣冗長(zhǎng)導(dǎo)致錯(cuò)誤不斷傳遞,以及過分倚重人工規(guī)則并輕視大規(guī)模數(shù)據(jù)訓(xùn)練。

解決方案

針對(duì)復(fù)雜場(chǎng)景的特點(diǎn)和經(jīng)典技術(shù)框架的不足,利用機(jī)器學(xué)習(xí)尤其是 Sequence Learning 技術(shù)對(duì)光學(xué)字符識(shí)別的系統(tǒng)流程和技術(shù)框架進(jìn)行了大幅改造。

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享

在系統(tǒng)流程方面,摒棄傳統(tǒng)的二值化和連通域等基于規(guī)則的方法,引入基于學(xué)習(xí)的 Boosting 文字檢測(cè)概念,并和行分割合并成新的預(yù)處理模塊,任務(wù)是檢測(cè)圖像中包含文字的區(qū)域并生成相應(yīng)文字行;將字分割和單字識(shí)別合并成新的整行識(shí)別模塊;基于 N-gram 的語言模型解碼模塊予以保留,但將主要依賴人工規(guī)則的版面分析和后處理模塊從系統(tǒng)中刪除。6 個(gè)步驟減少到3 個(gè)步驟,降低了誤差傳遞造成的不良影響。

此外, 由于整行文字識(shí)別是一個(gè)序列學(xué)習(xí)(Sequence Learning)問題,我們有針對(duì)性地研發(fā)出基于雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-term Memory, BLSTM)的遞歸神經(jīng)網(wǎng)絡(luò)序列模型學(xué)習(xí)算法,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型提取出的圖像特征,不考慮每個(gè)字符出現(xiàn)的具體位置,只關(guān)注整個(gè)圖像序列對(duì)應(yīng)的文字內(nèi)容,使得單字分割和單字識(shí)別問題融為一體, 最終實(shí)現(xiàn)深度學(xué)習(xí)理論追求的理想——端到端訓(xùn)練。

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享


這樣做能夠充分利用文字序列上下文關(guān)聯(lián)進(jìn)行消歧,避免傳統(tǒng)方法中字符分割造成的不可逆轉(zhuǎn)的錯(cuò)誤。這一序列學(xué)習(xí)模型極其擅長(zhǎng)識(shí)別字分割比較困難的文字序列,甚至包括潦草的手寫電話號(hào)碼。此外,這一序列學(xué)習(xí)模型還使得訓(xùn)練數(shù)據(jù)的標(biāo)注難度大為降低,便于收集更大規(guī)模的訓(xùn)練數(shù)據(jù)。不同語言(即便字詞、句子的長(zhǎng)短結(jié)構(gòu)迥異)光學(xué)字符識(shí)別問題也可以納入同一個(gè)技術(shù)框架內(nèi)統(tǒng)一解決,大幅降低系統(tǒng)維護(hù)成本。

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享

總結(jié)與展望

作為深度學(xué)習(xí)以及 Sequence Learning 的實(shí)踐者,我們獲得許多頗具價(jià)值的經(jīng)驗(yàn)和知識(shí):

1. 豐富的圖像擾動(dòng)是我們將關(guān)于圖像的先驗(yàn)知識(shí)用于深度學(xué)習(xí)輸入端的有效手段。不同于許多其他數(shù)據(jù),圖像和視頻在時(shí)間、空間維度上具有良好的連續(xù)性和結(jié)構(gòu)性,且包含大量冗余信息。無論使用平移和翻轉(zhuǎn),還是旋轉(zhuǎn)、縮放、高斯和椒鹽噪音、錯(cuò)切等圖像處理變換,都能夠產(chǎn)生大量有效的訓(xùn)練數(shù)據(jù),增強(qiáng)深度學(xué)習(xí)模型的魯棒性。


2. RNN作為一種序列信息的建模語言能夠有效的建模序列內(nèi)部的依賴關(guān)系。RNN可以利用它內(nèi)部的記憶來處理任意時(shí)序的輸入序列,極大的降低了視頻處理、語音識(shí)別、語義理解中序列建模的難度。


3.結(jié)構(gòu)化損失函數(shù)是我們將模型化知識(shí)用于深度學(xué)習(xí)輸出端的有效方式。采用人工模型對(duì)深度學(xué)習(xí)模型輸出進(jìn)行后處理時(shí),具有針對(duì)性的結(jié)構(gòu)化損失函數(shù)往往能夠幫助深度學(xué)習(xí)過程更快地收斂到更加理想的狀態(tài)。

展望未來,基于深度學(xué)習(xí)的序列識(shí)別問題,可圍繞如下重點(diǎn)展開:

增強(qiáng)學(xué)習(xí)

與卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)相比,增強(qiáng)學(xué)習(xí)產(chǎn)出的模型能夠根據(jù)數(shù)據(jù)特點(diǎn)更靈活地產(chǎn)生輸入序列,并通過更加模糊的監(jiān)督方式進(jìn)行模型訓(xùn)練。這樣可以精簡(jiǎn)模型的復(fù)雜度,提高預(yù)測(cè)速度,同時(shí)大幅降低訓(xùn)練數(shù)據(jù)的標(biāo)注難度,使得學(xué)習(xí)和預(yù)測(cè)過程不需要過多的人工參與,形式上更接近真正智能的學(xué)習(xí)模式。

Attention modelAttention

作為一種抽象的概念,它模擬人的識(shí)別行為,并不只是利用序列當(dāng)前時(shí)刻的狀態(tài)信息,而是在decode的過程中對(duì)之前的序列狀態(tài)信息進(jìn)行自適應(yīng)的建模加權(quán),從而得以利用context的全部信息。

雷鋒網(wǎng)按:本文由大牛講堂授權(quán)雷鋒網(wǎng)發(fā)布,如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

大牛講堂 | 深度學(xué)習(xí)Sequence Learning技術(shù)分享

分享:
相關(guān)文章

地平線機(jī)器人技術(shù)

嵌入式人工智能全球領(lǐng)導(dǎo)者
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說