丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給MrBear
發(fā)送

0

NLP 解決方案是如何被深度學(xué)習(xí)改寫的?

本文作者: MrBear 編輯:楊曉凡 2018-04-27 17:18
導(dǎo)語:深度學(xué)習(xí)自然語言處理技術(shù)日新月異,所有人對基礎(chǔ)技術(shù)架構(gòu)的認知都需要跟上節(jié)奏

雷鋒網(wǎng) AI 科技評論按:英特爾人工智能產(chǎn)品事業(yè)部,數(shù)據(jù)科學(xué)主任 Yinyin Liu 近日撰寫了一篇文章,介紹了深度學(xué)習(xí)為自然語言處理帶來的種種變化。有趣的大趨勢是首先產(chǎn)生在 CV 領(lǐng)域的技術(shù)也不斷用于 NLP,而深度學(xué)習(xí)解決方案的構(gòu)建方式也隨著時間在進化。雷鋒網(wǎng) AI 科技評論編譯把這篇文章如下。

NLP 解決方案是如何被深度學(xué)習(xí)改寫的?

自然語言處理(NLP)是最常見的人工智能的應(yīng)用方式之一,它通過消費者數(shù)字助理、聊天機器人以及財務(wù)和法律記錄的文本分析等商業(yè)應(yīng)用變得無處不在。隨著硬件和軟件能力的提升,以及模塊化 NLP 組件的發(fā)展,Intel 的技術(shù)也使得各種各樣的 NLP 應(yīng)用成為可能。

深度學(xué)習(xí)性能的上升趨勢

近年來,許多 NLP 領(lǐng)域的進展都是由深度學(xué)習(xí)領(lǐng)域的普遍進步驅(qū)動的。深度學(xué)習(xí)擁有了更強大的計算資源,可以運用更大的數(shù)據(jù)集,并且在神經(jīng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)和訓(xùn)練范式方面有所發(fā)展。這些深度學(xué)習(xí)的進步始于推動計算機視覺應(yīng)用的改進,但是也讓自然語言處理領(lǐng)域極大地獲益。

在深度學(xué)習(xí)的網(wǎng)絡(luò)層方面,為了使得信號和梯度能夠更容易地傳遞到深度神經(jīng)網(wǎng)絡(luò)的每一層,殘差結(jié)構(gòu)單元(residual layer)、highway 層(全連接的 highway 網(wǎng)絡(luò))以及稠密連接(dense connections)結(jié)構(gòu)應(yīng)運而生。有了這些網(wǎng)絡(luò)層,目前最先進的計算機視覺技術(shù)通過利用深度學(xué)習(xí)網(wǎng)絡(luò)的表示能力得以實現(xiàn)。同時,他們也在許多自然語言處理任務(wù)上提高了模型的性能。例如,將稠密連接的循環(huán)層用于語言模型(Improving Language Modeling using Densely Connected Recurrent Neural Networks,https://arxiv.org/abs/1707.06130  )。

NLP 解決方案是如何被深度學(xué)習(xí)改寫的?

有實證研究中比較了卷積層、循環(huán)層或者一種結(jié)合了這兩種思想的時序卷積層的表現(xiàn),時序卷積層在一系列的語言數(shù)據(jù)集上取得了目前最好的效果(Convolutional Sequence to Sequence Learning,https://arxiv.org/abs/1705.03122;An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling,https://arxiv.org/abs/1803.01271)。有這些不同類型的層可供靈活使用,使得開發(fā)者能夠在處理特定的自然語言處理問題時嘗試各種各樣的選項。

在深度學(xué)習(xí)的拓撲結(jié)構(gòu)方面,一個自編碼器(auto-encoder)模型可以被改進為一個序列到序列(seq2seq)模型用于處理順序語言數(shù)據(jù)。注意力機制(attention mechanism)解決了隨著時間的推移,解碼網(wǎng)絡(luò)應(yīng)該如何對輸入的編碼做出響應(yīng)。指針網(wǎng)絡(luò)(Pointer network),作為注意力模型的一種變體,專門用于在輸入序列中尋找詞語的位置,它為機器閱讀理解和文本摘要提供了一種新的處理機制(Machine Comprehension Using Match-LSTM and Answer Pointer,https://arxiv.org/abs/1608.07905;Get To The Point: Summarization with Pointer-Generator Networks,https://arxiv.org/abs/1704.04368)。通過增加快速權(quán)重(fast weights),(Fast Weights to Attend to the Recent Past,https://arxiv.org/abs/1610.06258)短期聯(lián)想記憶的概念可以和長期序列的學(xué)習(xí)結(jié)合到一起。

NLP 解決方案是如何被深度學(xué)習(xí)改寫的?

在訓(xùn)練范式方面,無監(jiān)督學(xué)習(xí)利用訓(xùn)練數(shù)據(jù)本身和遷移學(xué)習(xí)技術(shù)去構(gòu)建數(shù)據(jù)表示,遷移學(xué)習(xí)可以把學(xué)到的將表征用于一個又一個的任務(wù),都是從計算機視覺領(lǐng)域獲得啟發(fā),推動了自然語言處理技術(shù)的進步。

由于這些深度學(xué)習(xí)模型共用了許多底層的組件,基于深度學(xué)習(xí)的自然語言處理解決方案可以與計算機視覺和其它人工智能功能的解決方案共用軟件和硬件。對于深度學(xué)習(xí)的通用軟件棧的優(yōu)化也可以為深度學(xué)習(xí)自然語言處理解決方案的性能帶來改善。英特爾的人工智能硬件和軟件組合解決方案為這些在英特爾架構(gòu)的系統(tǒng)上運行的深度學(xué)習(xí)進展提供了很好的示例。最近,在我們的硬件和對廣泛使用的深度學(xué)習(xí)框架的優(yōu)化上的工作提供了為在英特爾至強可擴展處理器上運行普遍使用的模型和計算任務(wù)優(yōu)化后的工作性能。英特爾也積極地將他們的這些努力回饋到開放的框架中,這樣一來,每個開發(fā)者都能很直接地獲得這些經(jīng)驗。

為自然語言處理用例構(gòu)建一個靈活的、模塊化的棧

由于基于深度學(xué)習(xí)的自然語言處理模型通常擁有共用的構(gòu)建模塊(例如:深度學(xué)習(xí)網(wǎng)絡(luò)層和深度學(xué)習(xí)拓撲結(jié)構(gòu)),這讓我們在構(gòu)建自然語言處理用例的基礎(chǔ)時擁有了一個全新的視角。一些底層的功能在很多種應(yīng)用中同時被需要。在一個開放的、靈活的棧中獲得基本組件對于解決各種各樣的自然語言處理問題是十分恰當?shù)摹?/p>

NLP 解決方案是如何被深度學(xué)習(xí)改寫的?

相比之下,傳統(tǒng)的機器學(xué)習(xí)或者深度學(xué)習(xí)的做法都是每一次只考慮某一個特定問題。而如今,由于深度學(xué)習(xí)社區(qū)已經(jīng)提供了許多有用的基礎(chǔ)功能模塊,企業(yè)中的用戶和數(shù)據(jù)科學(xué)家們就可以考慮其它的方面,在學(xué)習(xí)、構(gòu)建起基礎(chǔ)以后,著眼于如何把它們應(yīng)用于各種不同的問題。

這種轉(zhuǎn)換的好處主要有這么幾點。首先,這些可以復(fù)用的組件可以幫助我們逐步構(gòu)建「結(jié)構(gòu)性資產(chǎn)」。通過重復(fù)應(yīng)用之前已經(jīng)構(gòu)建好的東西,我們可以做得更快、評價得更快。其次,這些構(gòu)建在英特爾的統(tǒng)一軟硬件平臺上的功能和解決方案可以持續(xù)不斷地從英特爾未來的開發(fā)和改進中受益。另外,用現(xiàn)有的基礎(chǔ)設(shè)施做實驗可以拓展出令人驚喜的新的解決方案或者新的應(yīng)用,這是更早時候的僅關(guān)注于問題本身的思考方式所無法帶來的。

一個靈活的、模塊化的棧還能使用戶可以將傳統(tǒng)的自然語言處理方法和基于深度學(xué)習(xí)的方法結(jié)合起來,并為不同的用戶群提供不同層次的抽象。許多不同的企業(yè)用例表明了自然語言處理和它的基本組件的潛力。下面,我們?yōu)槟峁┝藥讉€例子,但是顯然還有很多別的可能性。

主題分析

金融業(yè)面臨著巨大的知識管理挑戰(zhàn),這是由每天必須處理和理解的文件的數(shù)量(太大)所造成的。從一頁又一頁的文本中提取出諸如「某種特定產(chǎn)品的競爭力」這樣的關(guān)鍵的見解是十分困難的。

自然語言處理主題分析技術(shù)現(xiàn)在可以被用來快速分析大量的文檔,并且識別文檔中不同的部分所關(guān)聯(lián)的主題。不同的用戶會關(guān)注不同的話題,例如:某個公司的價值、競爭力、領(lǐng)導(dǎo)力或者宏觀經(jīng)濟學(xué)。自然語言處理主題分析讓用戶能夠篩選出特定的感興趣的主題,并且獲得更加濃縮的信息。

為了利用大量未標記的數(shù)據(jù),模型可以用內(nèi)容類似的文本進行預(yù)訓(xùn)練,之后這些數(shù)據(jù)表示可以被遷移至主題分析或者其它附加的任務(wù)中。早前的一篇博客介紹了這種解決方案中涉及到的一些方法的概述。為了實現(xiàn)這種方案,從自然語言處理構(gòu)建模塊的角度來說,我們使用了序列到序列(seq2seq)的拓撲結(jié)構(gòu),長短期記憶網(wǎng)絡(luò)(LSTM),詞嵌入來自遷移學(xué)習(xí),而后進行精細調(diào)節(jié)(fine-tune),還可以與命名實體識別等組件結(jié)合在一起。

NLP 解決方案是如何被深度學(xué)習(xí)改寫的?

趨勢分析

諸如醫(yī)療保健、工業(yè)制造、金融業(yè)等行業(yè)都面臨著從大量的文本數(shù)據(jù)中識別基于時間的趨勢的挑戰(zhàn)。通過將文本正則化、名詞短語分塊和抽取、語言模型、語料庫的詞頻-逆文本頻率指數(shù)(TF-IDF)算法,以及使用詞向量的分組等技術(shù),我們可以快速的生成一個解決方案,它可以從一組文檔中抽取關(guān)鍵詞和重要性估計。接著,隨著時間的推移,通過比較這些抽取出來的關(guān)鍵詞,我們能夠發(fā)現(xiàn)有用的趨勢,例如:天氣變化如何能夠造成庫存的短缺,或者哪些領(lǐng)域的學(xué)術(shù)研究隨著時間的推移會吸引更多的貢獻和注意。

情感分析

情感分析功能通常被用于競爭力分析、溝通策略優(yōu)化、以及產(chǎn)品或市場分析。一個提供了細粒度的情感分析的解決方案能夠為企業(yè)用戶提供可行的見解。例如:這種更有針對性的情感分析可以發(fā)現(xiàn),關(guān)于一個特定商品的評論普遍是對于它的能耗的正面看法以及對它的可靠性的負面看法。對于這種細粒度的情感分析,我們使用了諸如詞性標注(POS tagging)、文本正則化、依存分析和詞匯擴展等組件。對于不同的領(lǐng)域,相同的的那次可能傳遞不同的情感,所以允許領(lǐng)域自適應(yīng)的機制也是十分關(guān)鍵的。

多功能體系架構(gòu)上靈活的構(gòu)造模塊

當我們看到巨大的自然語言處理市場中的種種規(guī)劃時,我們應(yīng)該如何構(gòu)建解決方案、軟件、硬件來利用這些機會并使它們成為可能?在英特爾,我們希望構(gòu)建能夠持續(xù)創(chuàng)新和改進的技術(shù),這能夠給我們一個用于研究、實踐并應(yīng)用算法的開放的、靈活的平臺,這種技術(shù)還能夠高效地擴展到多種應(yīng)用程序中,最終形成影響深遠的商業(yè)見解。

在英特爾人工智能實驗室,我們的自然語言處理研究人員和開發(fā)者正在構(gòu)建一個開放的、靈活的自然語言處理組件庫,以便為我們的合作伙伴和客戶實現(xiàn)多種自然語言處理用例。它使我們能夠高效地將我們靈活、可靠高性能的英特爾架構(gòu)為這些自然語言處理應(yīng)用、其他的人工智能和先進分析工作流提供了硬件、框架工具和軟件層。我們將繼續(xù)努力優(yōu)化這些組件,以提高深度學(xué)習(xí)的能力。

via Intel AI Blog,雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

NLP 解決方案是如何被深度學(xué)習(xí)改寫的?

分享:
相關(guān)文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說