丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給JocelynWang
發(fā)送

0

勢如破竹!169 篇論文帶你看 BERT 在 NLP 中的 2019 年!

本文作者: JocelynWang 編輯:幸麗娟 2020-02-03 09:41
導語:2019,NLP 的「BERT 年」~

2019 年,可謂是 NLP 發(fā)展歷程中具有里程碑意義的一年,而其背后的最大功臣當屬  BERT !

2018 年底才發(fā)布,BERT 僅用 2019 年一年的時間,便以「勢如破竹」的姿態(tài)成為了 NLP 領域首屈一指的「紅人」,BERT 相關的論文也如涌潮般發(fā)表出來。

2019 年,是 NLP 發(fā)展史上值得銘記的一年,也當之無愧的「BERT 年」。

NLP、ML 研究者 Natasha Latysheva 基于自己搜集的169 篇 BERT 相關論文,對 BERT 2019 年的發(fā)展進行了回顧。

我們跟隨她的腳步來看:

2019 年是 NLP 發(fā)展歷程中具有里程碑意義的一年,從閱讀理解到情感分析,針對各大重要任務的解決方案都迎來了新的記錄。

其中最為突出的研究趨勢是遷移學習在 NLP 的應用,即在特定的語言處理相關任務中,運用大量預訓練模型對它們進行微調。在遷移學習中可以重新使用預構建模型中的知識,提高模型的性能和泛化能力,同時大量減少具有標簽的訓練樣本。

實際上,類似遷移學習這種先對模型進行預訓練再對特定任務進行微調的方式,并不少見,比如計算機視覺研究人員通常使用大型數據集(如 ImageNet)上預訓練好的模型。 NLP 領域長久以來,則一直通過重用詞嵌入來進行「淺層」遷移學習。

但在 2019 年,隨著 BERT 等模型的出現(xiàn),我們看到了 NLP 領域轉向更深度的知識遷移的重要轉變,即遷移整個模型到新任務上,而這本質上是使用大型預訓練語言模型作為可重用的語言理解特征提取器的方法。

這在當時也被稱為「NLP 的 ImageNet 時刻」,與此同時,2019 年基于這一趨勢的相關研究工作也在持續(xù)開展。

BERT 能夠明顯地讓 NLP 任務輕易地實現(xiàn)遷移學習,同時在此過程中能夠以最小化適應的方式在 11 個句子級和詞級的 NLP 任務上,產生當前最好的結果。

從實用性的角度來看,這固然是令人興奮的,但更有趣的是,BERT 和相關模型可以促進我們對于如何將語言表示為計算機能夠理解的語言,以及哪種表示方法能讓我們的模型更好地解決這些具有挑戰(zhàn)的語言問題有基本的理解。

新出現(xiàn)的范例是:既然可以重新使用 BERT 對語言扎實掌握的基礎,模型為什么還要不斷針對每一個新的 NLP 任務從頭開始學習語言的語法和語義呢?

隨著這一核心概念與簡單的微調步驟和相應的開源代碼叒叒出現(xiàn)出現(xiàn)時,就意味著 BERT 已迅速地傳播開來了:翻譯的語句要能體現(xiàn)出“很快傳播”的意味:初發(fā)布于 2018 年底的 BERT ,2019 年就已經變成了非常流行的研究工具。

實際上直到我試圖編撰一份去年發(fā)表的與 BERT 有關的論文清單時,我才意識到它到底有多受歡迎。我收集了 169 篇與 BERT 相關的論文,并手動將它們標記為幾個不同的研究類別(例如:構建特定領域的 BERT 版本、理解 BERT 的內部機制、構建多語言BERT 等)。

下面是所有這些論文的分布情況:

勢如破竹!169 篇論文帶你看 BERT 在 NLP 中的 2019 年!

如圖為在 2018 年 11 月至 2019 年 12 月間發(fā)表的與 BERT 相關的論文集合。y 軸代表的是對引文數目的對數統(tǒng)計(由 Google Scholar統(tǒng)計),它的下限為 0。這些文章中的大多數是通過在 arXiv 論文的標題中搜索關鍵詞 BERT 找到的。 

這種信息通常具有更好的交互性,因此這里我給出了它的 GIF 圖。如果感興趣的話,你也可以打開以 Jupyter 筆記本形式記錄的原代碼,可以自行調整圖中的參數,相關鏈接如下:

上述實驗使用的原始數據如下:

勢如破竹!169 篇論文帶你看 BERT 在 NLP 中的 2019 年!

如圖為在各篇 BERT 論文上移動鼠標時出現(xiàn)的數據。

現(xiàn)在已經有很多關于 BERT 的論文發(fā)表。從上圖我們可以發(fā)現(xiàn)以下幾點:

  • 一個有趣的現(xiàn)象是,從 2018 年 11 月份發(fā)表 BERT 的原始論文的時間與大概 2019 年 1 月份開始出現(xiàn)一大波相關論文的時間之間的間隔,相當短。

  • BERT (相關)論文最初的發(fā)表浪潮往往集中在一些核心的 BERT 模型的即時擴展和應用上(比如:圖中紅色、紫色和橙色部分),例如使 BERT 適用于推薦系統(tǒng),情感分析,文本摘要和文檔檢索。

  • 然后從 4 月開始,一系列探討 BERT 內部機制的論文(圖中綠色部分)相繼發(fā)布,例如了解 BERT 如何通過建模進行語言的分層,并分析注意力頭之間的冗余現(xiàn)象。其中特別令人印象深刻的是一篇名為「利用 BERT 重新探索經典 NLP 的傳播途徑」的論文(相關論文鏈接為:https://arxiv.org/abs/1905.05950)。該論文作者發(fā)現(xiàn)了BERT 的內部計算可以反映傳統(tǒng) NLP 的工作流程,即詞性標記、依賴項分析、實體標記等。

  • 然后在 9 月份左右,又發(fā)布了一系列有關壓縮 BERT 模型尺寸的論文(如圖青色部分),例如DistilBERT,ALBERT 和 TinyBERT 等論文。其中,來自 HuggingFace 的 DistilBERT 模型是 BERT 的壓縮版本,其參數只有先前的一半(從 1.1 億降至 6600 萬),但在對重要 NLP 任務的實現(xiàn)上卻達到了之前性能的 95%(具體請參閱 GLUE 基準; https://gluebenchmark.com/)。原始的 BERT 模型并不輕巧,這在計算資源不足的地方(如移動手機)是一個問題。

請注意這份 BERT 論文清單很可能是不完整的。如果與 BERT 相關論文的實際數量是本人所整理的兩倍,我不會感到驚訝。在這里做一個粗略的數量估計,目前引用過原始 BERT 論文的數量已經超過了 3100。

如果你對其中一些模型的名稱感到好奇,這些名稱實際上是 NLP 的研究人員對《芝麻街》中的人物著迷的體現(xiàn)。我們可以將這一切歸咎于(開先例以《芝麻街》人物命名)的論文 ELMo,論文相關鏈接如下:

這使得后來的諸如 BERT 和 ERNIE 模型也開始以相關任務命名,變得不可避免。我非常熱切地在等待一個 BIGBIRD 模型,那么我們不妨將其壓縮版本稱為 SMALLBIRD?

一、從 BERT 文獻中得出的一些啟發(fā)

瀏覽這些文獻時,我發(fā)現(xiàn)了其中出現(xiàn)的一些常見概念:

  • 開源機器學習模型的價值。作者免費提供了 BERT 模型和相關代碼,并提供了一個簡單、可重復使用的微調過程。這種開放性對于加快研究進展而言是至關重要的,并且我有理由懷疑如果作者不那么直爽的話,該模型是否會受到同樣程度的歡迎。

  • 嚴肅看待超參數調整問題,認識到它的重要性。RoBERTa 的論文中,提出了一種更具原理化的優(yōu)化設計(如更改訓練任務)和更加范化的超參數調整方法來訓練 BERT,這在學術界引起了轟動。這種不斷更新的訓練制度,再加上它只對模型使用更多數據進行更長時間的訓練,就再次將各種 NLP 基準性能的紀錄提升到了新的高度。

  • 關于模型大小的想法。最初,BERT 作者發(fā)現(xiàn)了一個很吸引他的現(xiàn)象:即使在非常小的數據集上,僅通過簡單地增加模型大小也可以極大地提高模型的性能。這也許在某種意義上意味著,你「需要」數億個參數來表示人類的語言。2019 年的其他幾篇論文中指出,僅通過擴大 NLP 的模型規(guī)模即可帶來模型的改進(例如眾所周知的 OpenAI 中的 GPT-2 模型)。當然,這里還有一些新的技巧可以用于訓練大到荒謬的 NLP 模型(例如 NVIDIA 的擁有 80 億參數的龐然大物 MegatronLM)。但是,也有證據表明,隨著模型尺寸的增加,模型的效果會遞減,這與計算機視覺研究人員在添加到一定多數量的卷積層時會遇到壁壘的情況相似。關于模型壓縮和參數效率論文的成功發(fā)表,表明可以在給定大小的模型中獲得更多的性能。

勢如破竹!169 篇論文帶你看 BERT 在 NLP 中的 2019 年!

如圖,我們的 NLP 模型變得越來越大。摘自 DistilBERT 論文。

二、BERT 到底是什么?

讓我們返回到前面,來討論一下 BERT 到底是什么。

BERT(來自 Transformer 的雙向編碼器表示),是 Google 研究人員構建的一個預訓練語言模型(LM)。這個語言模型是基于激勵模型學習一個對語言深層理解的任務上訓練的;LM 的一個常見的訓練任務是預測下一個單詞(比如:「貓坐在__上面」)。

BERT 基于相對較新的神經網絡結構 Transformer,后者使用一種稱為自注意力的機制來捕獲單詞間的關系。在 Transformer 中沒有卷積(如 CNN)或遞歸(如 RNN)操作,注意力是你唯一需要的。已有一些已經出版的優(yōu)秀教程(http://www.peterbloem.nl/blog/transformers)對此進行了介紹,所以在這里就不再做詳細介紹,如下為相關概念的簡短介紹:

  • 自注意力機制是一種序列到序列的操作,它通過將每個詞的內容融合到它的表示中的方式來更新輸入標記的嵌入。這允許它同時對所有輸入的字之間的關系建模,這一點與 RNN 有所不同,RNN 中的輸入標記是按順序來讀取和處理的。自注意力使用點積計算詞向量之間的相似性,計算所得的注意力權重通常被視為注意力權重矩陣。

  • 注意力權重捕捉單詞之間關系的強度,我們允許模型通過使用多個注意力頭來學習不同類型的關系。每一個注意力頭通常捕捉單詞之間的一種特殊關系(帶有一些冗余)。這些關系中的一部分是可以直觀地解釋的(比如主客體關系,或者跟蹤相鄰的詞),而有些是相當難以理解的。你可以把注意力頭集中看作是卷積網絡中的濾波器,每個濾波器從數據中提取一種特定類型的特征,這些提取出來的特征將最大限度地幫助神經網絡其他部分做出更好的預測。

  • 這種自注意機制是 Transformer 的核心操作,但只是將其置于上下文中:Transformer 最初是為機器翻譯而開發(fā)的,并且它們具有編碼-解碼器結構??梢詫?nbsp;Transformer 編碼器和解碼器的構造看作 Transformer 模塊,其通常由自注意力層、一定量的歸一化和標準前饋層組成。每個模塊對輸入向量執(zhí)行此序列操作,并將輸出傳遞給下一個模塊。在 Transformer 中,它的深度是指 Transformer 中模塊的數量。

BERT 模型通過使用上述 Transformer 設置,在 2 個無監(jiān)督語言模型上進行訓練。關于 BERT 訓練,最重要的是它不依賴于標記數據,也就是說它可以使用任何文本語料庫,而不需要任何特殊標記的數據集。BERT 論文的模型就是使用維基百科和一本書的語料庫進行訓練的。與其他「普通」的語言模型相比,BERT 使用的數據是廉價的,這邊是它所具備的一大優(yōu)勢。

三、BERT 是如何進行訓練的?

但是,BERT 是在什么任務上進行訓練,能夠激勵它對語言的學習有這樣良好及普遍有效的理解呢?未來的工作中也許可以調整學習策略,但原論文就使用了下面兩個任務:

  1. 掩膜語言模型(MLM)任務。這項任務鼓勵模型同時以單詞級別和句子級別學習語言的良好表示。簡單地說,一個句子中 15% 的單詞是隨機選擇并用<MASK>標記隱藏(或「掩蔽」)。該模型的工作原理是利用<MASK>前后的單詞預測這些隱藏的部分,因此,我們試圖從損壞的輸入重新建立起完整的文本,左邊和右邊的內容都被用來做預測。這允許我們搭建考慮到所有文本的單詞表示。與 ELMo(一種基于 RNN 的語言模型,用于生成由上下文感知的單詞嵌入)等方法不同,BERT 同時學習它的雙向表示,而 ELMo 是由兩個不同的語言模型分別獨立地對從左到右和從右到左的語言表示進行學習,然后連接。我們可以說 ELMo 是一個「淺雙向」模型,而 BERT 是一個「深雙向」模型。

  2. 下一個句子的預測(NSP)任務。如果我們的模型被用作語言理解的基礎,那么了解句子間的連貫性將有助于它實現(xiàn)目標。為鼓勵模型學習句子間的關系,我們添加了下一句預測任務,在該任務中,模型必須預測一對句子是否相關,即一個句子是否可能繼續(xù)連接著另一個句子。句子中的正訓練對是語料庫中真實相鄰的句子,負訓練對是從語料庫中隨機抽取的兩句話。這不是一個完美的系統(tǒng),因為隨機抽樣的一對句子實際上可能是相聯(lián)系的,但這樣對于任務的需要來講已經足夠好了。

上述模型必須同時學會兩項任務,因為它實際的訓練損失是兩項任務損失的總和(即 MLM 和 NSP 可能性平均值的總和)。

如果你發(fā)現(xiàn)使用掩蔽的方法有點問題:那么你其實是對的。由于一個片段中隨機有 15% 的單詞被遮蔽,因此可能會出現(xiàn)多個<MASK>。確實是這樣,但是 BERT 將這些被遮蔽的單詞彼此間看作獨立,這是存在限制的,因為它們實際上很容易形成相互依賴的關系。這也是在 XLNet 論文(https://arxiv.org/abs/1906.08237)中提到的一點,有些人認為它是 BERT 的繼承。

四、微調 BERT

一旦訓練好的基礎的 BERT 模型,后續(xù)通常需要經過兩個步驟來對其進行微調:首先在無標簽數據上繼續(xù)進行無監(jiān)督訓練,然后通過添加一個額外的層并在新目標上訓練,從而學習實際的任務(這里無需使用過多的標記數據)。

該方法最初源于谷歌研究者 Dai&Le 于 2015 年發(fā)布的 LSTM LM 論文,論文相關鏈接為:

BERT 微調實際上會更新模型中所有參數,而不僅針對新任務中特定層的參數,因此這種方法不同于將傳輸層參數完全凍結的技術。

實際中,使用 BERT 進行遷移學習,通常只有經過訓練的編碼器棧才會被重新使用——首先將模型的解碼器切掉一半,然后將編碼器 Transformer 模塊用作特征提取器。因此,我們不關心 Transformer 的解碼器對它最初訓練的語言任務做出的預測,我們只關心模型內部表示輸入文本的方式。

BERT 微調可能需要幾分鐘到幾小時,這取決于任務、數據大小和 TPU/GPU 資源。如果你有興趣嘗試 BERT 微調,你可以在 Google Colab 上使用這個現(xiàn)成的代碼,它提供對 TPU 的免費訪問。相關代碼如下:

五、BERT 出現(xiàn)之前的一些方法?

BERT 原論文寫得很好,我建議各位讀者再溫習下,原論文鏈接為:https://arxiv.org/abs/1810.04805。我將論文中用到的此前語言模型預訓練和微調常用的一些主要方法總結如下:

  • 無監(jiān)督的基于特征的方法(如 ELMo),該方法使用預訓練表示作為輸入特征,但使用針對特定任務的架構(比如:它們?yōu)槊總€新任務更改模型結構)。事實上,所有研究者最喜歡的單詞嵌入方式(從 word2vec、GLoVe 到 FastText)、句子嵌入和段落嵌入都屬于這一類。ELMo 還提供單詞嵌入,但以上下文敏感的方式,標記的嵌入或者表示是從左到右和從右到左的語言模型隱藏狀態(tài)向量的連接。

  • 無監(jiān)督的微調方法(如 OpenAI 的 GPT 模型),它對有監(jiān)督的下游任務的所有預訓練參數進行微調,并且只通過引入一些針對特定任務的參數,來最小程度地改變模型結構。預訓練是在未標記的文本上進行的,學習任務通常是從左到右的語言模型或文本壓縮(就像自動編碼一樣,它將文本壓縮成矢量形式,然后從矢量重建文本)。然而,這些方法使得對上下文建模的能力受到了限制,因為它們對給定單詞的模型通常是單向、從左到右的,它沒有能力將所有后來的單詞合并到其表示中。

  • 從有監(jiān)督的數據進行遷移學習。此外,還開展了一些工作來遷移從具有大量訓練數據的監(jiān)督任務中學習到的知識,例如使用機器翻譯模型參數來對不同的語言問題的權重初始化。

六、問題以及需要考慮的事情

計算機視覺領域,何凱明曾有一項工作《Rethinking ImageNet Pre-training》表明,預訓練和微調主要有助于加快模型的收斂速度。這一思考和觀點,是否也同樣適用于 NLP 領域的工作呢?

七、結論

我希望這篇文章對 BERT 所引發(fā)的研究熱潮提供了一個合理的回顧視角,并展示了這個模型在 NLP 研究領域中是如何變得如此熱門和強大。

目前這一領域的進展迅速,我們現(xiàn)在從最先進的模型中看到的結果,即便在僅僅五年前也是難以置信的)例如,在問答任務中表現(xiàn)出來的超越人類的性能。

NLP 領域最新發(fā)展進程中的兩個主要趨勢是遷移學習和 Transformer 的興起,我非常期待看到這兩個研究方向在 2020 年的發(fā)展。

Via https://towardsdatascience.com/2019-the-year-of-bert-354e8106f7ba 雷鋒網雷鋒網雷鋒網

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

勢如破竹!169 篇論文帶你看 BERT 在 NLP 中的 2019 年!

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說