丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給隔壁王大喵
發(fā)送

0

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

本文作者: 隔壁王大喵 編輯:楊曉凡 2018-07-20 17:55
導(dǎo)語(yǔ):后 word2vec 時(shí)代的新型最佳實(shí)踐

雷鋒網(wǎng) AI 科技評(píng)論按:對(duì)于計(jì)算機(jī)視覺領(lǐng)域的研究人員、產(chǎn)品開發(fā)人員來(lái)說(shuō),在 ImageNet 上預(yù)訓(xùn)練模型然后再用自己的任務(wù)專用數(shù)據(jù)訓(xùn)練模型已經(jīng)成了慣例。但是自然語(yǔ)言處理領(lǐng)域的研究人員和開發(fā)人員們似乎并不是這樣做的 —— 等等,也許 NLP 領(lǐng)域的「ImageNet 時(shí)代」馬上就要帶來(lái)了。

本文的作者是 Sebastian Ruder,主攻方向是自然語(yǔ)言處理與深度學(xué)習(xí),他是 Insight 數(shù)據(jù)分析研究中心的博士生,同時(shí)也是都柏林自然語(yǔ)言處理創(chuàng)業(yè)公司 AYLIEN 的科學(xué)家,他在自然語(yǔ)言處理相關(guān)的頂會(huì)上發(fā)表過(guò)多篇一作文章,同時(shí)也是 ULMFiT 的共同作者;他的個(gè)人博客是 http://ruder.io/。雷鋒網(wǎng) AI 科技評(píng)論根據(jù)原文進(jìn)行了編譯。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

在自然語(yǔ)言處理(NLP)的領(lǐng)域里,一些巨變正在悄然發(fā)生。

作為自然語(yǔ)言處理的核心特征表示技術(shù),詞向量(Word vectors)長(zhǎng)期統(tǒng)治著自然語(yǔ)言處理領(lǐng)域,但是它最近卻面臨著一系列強(qiáng)有力的挑戰(zhàn):ELMo、ULMFiT 和 OpenAI Transformer。這些工作無(wú)一例外都成為了新聞?lì)^條,因?yàn)樗鼈兌甲C明了自己的預(yù)訓(xùn)練語(yǔ)言模型可以在各種自然語(yǔ)言處理任務(wù)中取得最佳的結(jié)果。這些方法的出現(xiàn)預(yù)示著一個(gè)分水嶺時(shí)刻的到來(lái)了:這些預(yù)訓(xùn)練語(yǔ)言模型有可能會(huì)在自然語(yǔ)言處理領(lǐng)域造成巨大而廣泛的影響,正如 ImageNet 預(yù)訓(xùn)練模型在計(jì)算機(jī)視覺中所造成的影響一樣。

從淺層到深度預(yù)訓(xùn)練

預(yù)訓(xùn)練的詞向量已經(jīng)統(tǒng)治了自然語(yǔ)言處理領(lǐng)域相當(dāng)長(zhǎng)一段時(shí)間。Word2vec 在 2013 年被作為語(yǔ)言建模的近似而提出,當(dāng)時(shí)硬件速度比現(xiàn)在要慢,而且深度學(xué)習(xí)模型也還沒有得到廣泛的應(yīng)用,此時(shí) Word2vec 憑借著自身的效率和易用性得以脫穎而出。從那時(shí)起,自然語(yǔ)言處理研究的標(biāo)準(zhǔn)方法就基本保持不變:通過(guò) Word2vec 和 GloVe 等算法在大量未標(biāo)注的數(shù)據(jù)上預(yù)訓(xùn)練獲得詞嵌入向量,然后詞嵌入向量將被用于初始化神經(jīng)網(wǎng)絡(luò)的第一層,而網(wǎng)絡(luò)的其它部分則是根據(jù)特定的任務(wù),利用其余的數(shù)據(jù)進(jìn)行訓(xùn)練。在大多數(shù)訓(xùn)練數(shù)據(jù)有限的任務(wù)中,這種做法能夠使準(zhǔn)確率提升 2 到 3 個(gè)百分點(diǎn)。不過(guò)盡管這些預(yù)訓(xùn)練的詞嵌入向量具有極大的影響力,但是它們存在一個(gè)主要的局限:它們只將先前的知識(shí)納入模型的第一層,而網(wǎng)絡(luò)的其余部分仍然需要從頭開始訓(xùn)練。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

由 word2vec 捕捉到的關(guān)系(來(lái)源:TensorFlow 教程

Word2vec 以及相關(guān)的其它方法屬于淺層方法,這是一種以效率換表達(dá)力的做法。使用詞嵌入向量就像使用那些僅僅編碼了圖像邊緣信息的預(yù)訓(xùn)練特征表示向量,來(lái)初始化計(jì)算機(jī)視覺模型,盡管這種做法對(duì)許多任務(wù)都是有幫助的,但是卻無(wú)法捕捉到那些也許更有用的高層次信息。采用詞嵌入向量初始化的模型需要從頭開始學(xué)習(xí),模型不僅要學(xué)會(huì)消除單詞歧義,還要理解單詞序列的意義。這是語(yǔ)言理解的核心內(nèi)容,它需要建模復(fù)雜的語(yǔ)言現(xiàn)象,例如語(yǔ)義合成性、多義性、指代、長(zhǎng)期依賴、一致性和否定等等。因此,使用這些淺層表示初始化的自然語(yǔ)言處理模型仍然需要大量的訓(xùn)練樣本,才能獲得良好的性能。

而新晉挑戰(zhàn)者 ULMFiT、ELMo 和 OpenAI Transformer 的核心在于關(guān)鍵范式的轉(zhuǎn)變:從只初始化模型的第一層轉(zhuǎn)向了使用分層表征(Hierarchical representations)預(yù)訓(xùn)練整個(gè)模型。如果把學(xué)習(xí)單詞向量比作計(jì)算機(jī)視覺中學(xué)習(xí)圖像邊緣,那么這些新方法就像學(xué)習(xí)圖像特征的完整層次結(jié)構(gòu)一樣,從邊緣到形狀,再到高級(jí)語(yǔ)義概念。

有趣的是,計(jì)算機(jī)視覺社區(qū)已經(jīng)采用預(yù)訓(xùn)練模型許多年,這些預(yù)訓(xùn)練首先是針對(duì)整個(gè)模型的,其次它們同時(shí)學(xué)到了低層級(jí)和高層級(jí)特征。大多數(shù)情況下,預(yù)訓(xùn)練是通過(guò)在大型 ImageNet 數(shù)據(jù)庫(kù)上學(xué)習(xí)圖像分類來(lái)實(shí)現(xiàn)的?,F(xiàn)今 ULMFiT、ELMo 和 OpenAI Transformer 相當(dāng)于給自然語(yǔ)言處理社區(qū)帶來(lái)了「語(yǔ)言任務(wù)的 ImageNet」,也就使得模型能夠?qū)W習(xí)到文本中更高層次的細(xì)微差別;這類似于 ImageNet 上的預(yù)訓(xùn)練使得計(jì)算機(jī)視覺模型學(xué)習(xí)到了圖像的通用特征。在本文的剩余部分,我們將通過(guò)擴(kuò)展和構(gòu)建 ImageNet 的類比,來(lái)解釋為何這些新方法看起來(lái)如此有前途。

ImageNet

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

ImageNet 是一個(gè)大規(guī)模圖像識(shí)別挑戰(zhàn)賽

毫不夸張地說(shuō),ImageNet 對(duì)機(jī)器學(xué)習(xí)研究過(guò)程的影響是巨大的。該數(shù)據(jù)集最初發(fā)布于 2009 年,并迅速演變?yōu)?ImageNet 大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC)。2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提交的深度神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果比第二名高出了 41%,這表明了深度學(xué)習(xí)是一種可行的機(jī)器學(xué)習(xí)策略,并暗示了機(jī)器學(xué)習(xí)研究中深度學(xué)習(xí)即將迎來(lái)爆炸性增長(zhǎng)。

ImageNet 的成功表明,在深度學(xué)習(xí)時(shí)代,數(shù)據(jù)與算法是同等重要的。不僅僅是因?yàn)?ImageNet 在 2012 年給予了深度學(xué)習(xí)證明自己的機(jī)會(huì),而且還在遷移學(xué)習(xí)中實(shí)現(xiàn)了類似的重要性突破:研究人員很快意識(shí)到可以使用 ImageNet 最佳模型學(xué)習(xí)到的權(quán)重來(lái)初始化其它任務(wù)的模型,并且盡管數(shù)據(jù)集不同,但是這對(duì)模型性能提高依然有很大的幫助。這種「微調(diào)(fine-tunning)」的方法可以實(shí)現(xiàn)很好的效果,甚至每個(gè)類別給出一個(gè)正樣本就足夠了(https://arxiv.org/abs/1310.1531  )。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

在 ILSVRC-2012 上訓(xùn)練的特征可以泛化到 SUN-397 數(shù)據(jù)集上

預(yù)訓(xùn)練的 ImageNet 模型已經(jīng)被用于諸如物體檢測(cè)、語(yǔ)義分割人體姿態(tài)估計(jì)視頻識(shí)別等任務(wù)中,并且都取得了最佳的結(jié)果。同時(shí),這些預(yù)訓(xùn)練模型也使得深度學(xué)習(xí)得以應(yīng)用到訓(xùn)練樣本數(shù)量較少且標(biāo)注昂貴的領(lǐng)域。通過(guò)在 ImageNet 上預(yù)訓(xùn)練的遷移學(xué)習(xí)是如此地有效,以至于現(xiàn)今在計(jì)算機(jī)視覺領(lǐng)域如果不這么做反而被認(rèn)為是在蠻干(https://arxiv.org/abs/1805.00932)。

探秘 ImageNet

為了確定語(yǔ)言任務(wù)中的 ImageNet 會(huì)是什么樣的,我們首先需要確認(rèn)是什么特性使得圖像 ImageNet 如此適合遷移學(xué)習(xí)。早期的研究僅僅是揭開了這個(gè)問題的冰山一角:減少類別數(shù)量或者是每個(gè)類別的樣例數(shù)量?jī)H僅只會(huì)導(dǎo)致性能的微小下降,而細(xì)粒度類別(Fine-grained classes)和更多的數(shù)據(jù)并不總是對(duì)模型有益的。

為了探秘 ImageNet,我們并非是要直接瀏覽數(shù)據(jù)集,而是要探究在 ImageNet 上訓(xùn)練的模型到底學(xué)到了什么。眾所周知,在 ImageNet 上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)特征有一個(gè)特點(diǎn),即從網(wǎng)絡(luò)的第一層到最后一層,特征逐漸由通用轉(zhuǎn)向了特殊(由任務(wù)決定)。網(wǎng)絡(luò)的較低層學(xué)習(xí)對(duì)諸如邊緣這樣的低級(jí)特征進(jìn)行建模,而較高層則對(duì)圖像較高級(jí)的概念進(jìn)行建模,例如模式或物體(參見雷鋒網(wǎng) AI 科技評(píng)論往期 CNN 特征可視化文章),如下圖所示。重要的是,關(guān)于邊緣、結(jié)構(gòu)和物體的視覺組成等知識(shí)在很多計(jì)算機(jī)視覺任務(wù)中是通用的,這揭示了為何這些網(wǎng)絡(luò)層可以被用于遷移學(xué)習(xí)。因此,一個(gè)類 ImageNet 數(shù)據(jù)集的關(guān)鍵屬性是,要能促使模型學(xué)習(xí)那些可以推廣到該問題領(lǐng)域中其它任務(wù)的特征。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

上圖可視化了 GoogLeNet 不同層的特征所捕捉到的信息,來(lái)自 ImageNet 上訓(xùn)練的 GooLeNet

除此之外,很難再進(jìn)一步概括為什么 ImageNet 的遷移能力會(huì)如此強(qiáng)大。ImageNet 數(shù)據(jù)集的另一個(gè)優(yōu)點(diǎn)是高質(zhì)量的數(shù)據(jù)標(biāo)注。ImageNet 的創(chuàng)建者竭盡全力地保證了標(biāo)注的準(zhǔn)確可靠性和一致性。然而,作為對(duì)立面存在,遠(yuǎn)程監(jiān)督(Distant supervision)領(lǐng)域的工作表明,大量弱標(biāo)簽數(shù)據(jù)通常情況下也是足夠的。事實(shí)上,最近 Facebook 的研究員表示,他們可以通過(guò)預(yù)測(cè)數(shù)十億社交媒體圖像的話題標(biāo)簽來(lái)預(yù)訓(xùn)練模型,然后該模型還可以在 ImageNet 上取得最佳的準(zhǔn)確率。

所以我們總結(jié)出了兩個(gè)關(guān)鍵需求:

  1. 一個(gè)類 ImageNet 數(shù)據(jù)集應(yīng)該足夠大,比如擁有數(shù)百萬(wàn)個(gè)訓(xùn)練樣例。

  2. 它應(yīng)該代表著該學(xué)科的問題空間。

語(yǔ)言任務(wù)的 ImageNet

在自然語(yǔ)言處理任務(wù)中,其模型建模深度通常都要比對(duì)應(yīng)的計(jì)算機(jī)視覺模型來(lái)得淺。因此,對(duì)特征的分析主要集中在第一層嵌入上,并且針對(duì)更高層次遷移學(xué)習(xí)性質(zhì)的研究工作也是少之又少。假設(shè)我們擁有了充足的數(shù)據(jù)集,滿足了剛才提到的需求點(diǎn)#1。那么鑒于自然語(yǔ)言處理的現(xiàn)狀,將存在以下幾個(gè)競(jìng)爭(zhēng)數(shù)據(jù)集。

閱讀理解是一項(xiàng)要求算法針對(duì)一段指定文本回答自然語(yǔ)言問題的任務(wù)。這項(xiàng)任務(wù)最受歡迎的數(shù)據(jù)集是斯坦福問答數(shù)據(jù)集(SQuAD),它包含有 10 萬(wàn)多對(duì)問答對(duì)(question-answering pairs),并且要求模型將答案在文本中進(jìn)行高亮顯示,如下圖所示。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

來(lái)自 SQuAD 數(shù)據(jù)集的問答對(duì)樣例

自然語(yǔ)言推理任務(wù)要求算法識(shí)別一段文本和一個(gè)假設(shè)之間的關(guān)系(蘊(yùn)含、矛盾和中立)。斯坦福自然語(yǔ)言推理(SNLI)語(yǔ)料庫(kù)是這項(xiàng)任務(wù)最受歡迎的數(shù)據(jù)集之一,它包含有 57 萬(wàn)對(duì)由人類書寫的英語(yǔ)句子對(duì)。數(shù)據(jù)集的樣例展示如下。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

來(lái)自 SNLI 數(shù)據(jù)集的樣例

機(jī)器翻譯就是將一種語(yǔ)言的文本翻譯成另一種語(yǔ)言的文本,它是自然語(yǔ)言處理領(lǐng)域研究最多的任務(wù)之一。并且多年以來(lái),已經(jīng)為主流語(yǔ)言積累了大量的訓(xùn)練樣本對(duì),比如,WMT 2014 中的 4 千萬(wàn)對(duì)英語(yǔ)-法語(yǔ)句子對(duì)。下圖給出了兩個(gè)翻譯樣例。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

來(lái)自 newstest2014 的法語(yǔ)轉(zhuǎn)英語(yǔ)翻譯

成分句法分析(Constituency parsing)任務(wù)試圖以線性化成分分析樹的形式提取句子的句法結(jié)構(gòu),如下圖所示。過(guò)去,數(shù)百萬(wàn)弱標(biāo)簽的解析已經(jīng)被用于訓(xùn)練該任務(wù)的序列到序列模型。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

一棵解析樹以及它的線性化表示

語(yǔ)言建模(Language modeling, LM)旨在給出當(dāng)前單詞的情況下,讓算法預(yù)測(cè)出下一個(gè)單詞?,F(xiàn)有的基準(zhǔn)數(shù)據(jù)集最多含有 10 億個(gè)單詞,但是由于該任務(wù)是無(wú)監(jiān)督的,所以可以使用任意數(shù)量的單詞進(jìn)行訓(xùn)練。下圖給出了 WikiText-2 數(shù)據(jù)集樣例,它由維基百科文章組成。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

來(lái)自于 WikiText-2 語(yǔ)言建模數(shù)據(jù)集的樣例

上述所有任務(wù)都提供了充足的訓(xùn)練樣本。事實(shí)上最近幾個(gè)月內(nèi),任務(wù)(以及許多其它任務(wù),諸如情緒分析、成分句法分析、skip-thoughts 和自動(dòng)編碼)已經(jīng)被應(yīng)用于預(yù)訓(xùn)練特征表示。

雖然任何數(shù)據(jù)集都會(huì)存在一定的偏差,但是人類標(biāo)注員(human annotators)可能會(huì)無(wú)意中引入一些模型可以利用的其它信號(hào)。最近的研究表明,閱讀理解和自然語(yǔ)言推理等任務(wù)的最佳模型,并沒有表現(xiàn)出對(duì)自然語(yǔ)言的深刻理解,而僅僅是利用這些信號(hào)實(shí)現(xiàn)了淺層的模式匹配。例如,https://arxiv.org/abs/1803.02324 論文中表明,標(biāo)注員傾向于簡(jiǎn)單地通過(guò)刪除性別或數(shù)字信息來(lái)產(chǎn)生蘊(yùn)含樣本,并通過(guò)引入否定來(lái)產(chǎn)生矛盾樣本。簡(jiǎn)單地利用這些信號(hào)的模型可以正確地對(duì)假設(shè)進(jìn)行分類,而不用在大約 67% 的 SNLI 數(shù)據(jù)集中查看前提。

因此,更難的問題是:哪個(gè)任務(wù)最能代表自然語(yǔ)言處理的問題空間?換句話說(shuō),哪個(gè)任務(wù)可以使得我們學(xué)習(xí)到理解自然語(yǔ)言所需的大部分知識(shí)或關(guān)系?

語(yǔ)言建模樣例

為了預(yù)測(cè)句子中最可能的下一個(gè)單詞,模型不僅需要能夠表達(dá)語(yǔ)法(預(yù)測(cè)單詞的語(yǔ)法形式必須與其修飾語(yǔ)或動(dòng)詞匹配),還需要能夠表達(dá)模型語(yǔ)義。更重要的是,最準(zhǔn)確的模型必須包含有世界知識(shí)或者說(shuō)常識(shí)??紤]一個(gè)不完整的句子,「服務(wù)很差,但是食物……」,為了預(yù)測(cè)后續(xù)的單詞,如「美味」或「好吃」,模型不僅要記住用于描述食物屬性的單詞,還要能夠識(shí)別出連接詞「但是」給原句中引入了轉(zhuǎn)折,以便于預(yù)測(cè)的新屬性具備有相反的情緒。

語(yǔ)言建模已經(jīng)被證明可以捕獲與下游任務(wù)相關(guān)的許多知識(shí),例如長(zhǎng)期依賴、層次關(guān)系情緒。與相關(guān)的無(wú)監(jiān)督任務(wù)(例如 skip-thoughts 和自動(dòng)編碼)相比,語(yǔ)言建模在語(yǔ)法任務(wù)上的表現(xiàn)更出色,即使是使用了更少的訓(xùn)練數(shù)據(jù)。

語(yǔ)言建模的最大優(yōu)勢(shì)之一是,訓(xùn)練數(shù)據(jù)可以來(lái)自于任意的文本語(yǔ)料庫(kù),這意味著可以獲得無(wú)限量的訓(xùn)練數(shù)據(jù)。這一點(diǎn)尤其重要,因?yàn)樽匀徽Z(yǔ)言理解不僅涉及英語(yǔ),這個(gè)世界上還有許多其它語(yǔ)言。作為預(yù)訓(xùn)練任務(wù)的語(yǔ)言建模,為那些小語(yǔ)種的語(yǔ)言應(yīng)用開發(fā)打開了一扇大門。對(duì)于資源非常匱乏的語(yǔ)言,有可能未標(biāo)注數(shù)據(jù)也非常少,而多語(yǔ)言模型(Multilingual language models)可以同時(shí)在多個(gè)相關(guān)的語(yǔ)言上進(jìn)行訓(xùn)練,這類似于跨語(yǔ)言嵌入(Cross-lingual embeddings)向量的研究工作。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

ULMFiT 的不同階段(來(lái)源:Howard and Ruder, 2018

到目前為止,我們將語(yǔ)言建模作為預(yù)訓(xùn)練任務(wù)的論點(diǎn)純粹是概念性的。但是最近幾個(gè)月,我們也獲得了一些經(jīng)驗(yàn)性證據(jù):語(yǔ)言模型嵌入(Embeddings from Language Models, ELMo)通用語(yǔ)言模型微調(diào)(Universal Language Model Fine-tuning, ULMFiT)OpenAI Transformer 已經(jīng)經(jīng)驗(yàn)性地證明了語(yǔ)言建??梢杂糜陬A(yù)訓(xùn)練。這三種方法都采用了預(yù)訓(xùn)練語(yǔ)言模型來(lái)實(shí)現(xiàn)自然語(yǔ)言處理中各種任務(wù)的最佳效果,這些任務(wù)包括文本分類、問答、自然語(yǔ)言推理、共指消除、序列標(biāo)記等等。

在許多情況下,例如下圖中的 ELMo,它在各個(gè)主流的研究基準(zhǔn)中均比最佳成績(jī)高出了 10%~20%,所有這些都采用了一個(gè)核心方法——使用預(yù)訓(xùn)練語(yǔ)言模型。此外,ELMo 還獲得了 NAACL-HLT 2018 最佳論文獎(jiǎng),這是該領(lǐng)域的頂級(jí)會(huì)議之一。最后,這些模型已經(jīng)被證明具有極高的采樣效率,只需數(shù)百個(gè)樣本就可以實(shí)現(xiàn)很好的性能,甚至可以實(shí)現(xiàn)零樣本(Zero-shot)學(xué)習(xí)。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

改進(jìn)的 ELMo 模型在多個(gè)自然語(yǔ)言處理任務(wù)上取得成功

鑒于這一策略發(fā)生了變化,未來(lái)一年的時(shí)間內(nèi),自然語(yǔ)言處理從業(yè)者很有可能將采用預(yù)訓(xùn)練的語(yǔ)言模型,而不是繼續(xù)使用預(yù)訓(xùn)練的詞嵌入向量。這就類似于預(yù)訓(xùn)練的 ImageNet 模型是當(dāng)今大多數(shù)計(jì)算機(jī)視覺任務(wù)的起點(diǎn)。

然而,類似于 word2vec,語(yǔ)言建模任務(wù)也具有自身的局限性:它只是真正語(yǔ)言理解的代理,并且單個(gè)整體模型(Monolithic model)沒有能力去捕獲某些下游任務(wù)所需的信息。例如,為了回答或者跟蹤故事中角色的成長(zhǎng)軌跡,模型需要學(xué)會(huì)處理指代或共指消除。此外,語(yǔ)言模型只能捕捉到它們所看到的內(nèi)容。某些類型的信息,例如大多數(shù)常識(shí)信息,都難以僅從文本中學(xué)習(xí),它們的習(xí)得需要結(jié)合額外的信息。

一個(gè)關(guān)鍵的問題是,如何將信息從預(yù)訓(xùn)練的語(yǔ)言模型遷移到下游任務(wù)中。這涉及兩個(gè)主要范例,是否將預(yù)訓(xùn)練的語(yǔ)言模型用作固定的特征提取器,并將其表示作為特征結(jié)合到一個(gè)隨機(jī)初始化的模型中(這正是 ELMo 的做法);又或者是否像 ULMFiT 一樣選擇微調(diào)整個(gè)語(yǔ)言模型。后一種微調(diào)的策略在計(jì)算機(jī)視覺中比較經(jīng)典,這種策略會(huì)將模型的最頂層或者靠近頂部的若干層進(jìn)行微調(diào)。不過(guò)自然語(yǔ)言處理模型深度通常更淺,因此需要與視覺不同的微調(diào)策略,而最近自然語(yǔ)言處理的預(yù)訓(xùn)練模型正在變得越來(lái)越深。接下來(lái)的幾個(gè)月將展示遷移學(xué)習(xí)的各個(gè)核心組件對(duì)自然語(yǔ)言處理的影響:一個(gè)富有表現(xiàn)力的語(yǔ)言模型編碼器,比如深度 BiLSTM 或者 Transformer 模型;用于預(yù)訓(xùn)練的數(shù)據(jù)數(shù)量和質(zhì)量;用于微調(diào)預(yù)訓(xùn)練模型的方法。

理論支持

到目前為止,我們的分析主要是概念性和經(jīng)驗(yàn)性的,因?yàn)槿藗內(nèi)匀缓茈y理解為什么在 ImageNet 以及語(yǔ)言建模上訓(xùn)練的模型具有如此好的遷移能力。偏差學(xué)習(xí)(Bias learning, Baxter, 2000)的建模方式為我們提供了另一種探索預(yù)訓(xùn)練模型泛化能力的途徑,而且這種方法更加規(guī)范。假定我們的問題領(lǐng)域涵蓋了特定學(xué)科中任務(wù)的所有排列,例如,由計(jì)算機(jī)視覺構(gòu)建起我們的生活環(huán)境。我們獲得了大量的數(shù)據(jù)集,這使得我們能夠誘導(dǎo)一系列假設(shè)空間 H=H。我們?cè)谄顚W(xué)習(xí)中的目標(biāo)就是找到一個(gè)偏差,即在整個(gè)(可能是無(wú)限的)環(huán)境中能夠最大化性能的假設(shè)空間ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

多任務(wù)學(xué)習(xí)中的經(jīng)驗(yàn)和理論結(jié)果(Caruana, 1997; Baxter, 2000)表明,在足夠多的任務(wù)中學(xué)到的偏差可能可以推廣到從同一環(huán)境中得出的其它未知任務(wù)。從多任務(wù)學(xué)習(xí)的角度來(lái)看,在 ImageNet 上訓(xùn)練的模型學(xué)習(xí)了大量的二分類任務(wù)(一種類別就屬于一項(xiàng)二分類任務(wù))。這些任務(wù)都是來(lái)自自然界的真實(shí)圖像,可能代表了許多其它的計(jì)算機(jī)視覺任務(wù)。同樣,一種通過(guò)學(xué)習(xí)大量分類任務(wù)(一個(gè)單詞屬于一項(xiàng)分類任務(wù))的語(yǔ)言模型,可能學(xué)會(huì)了有助于自然語(yǔ)言處理領(lǐng)域中許多其它任務(wù)的特征表示。盡管如此,要完全理解為什么語(yǔ)言建模對(duì)遷移學(xué)習(xí)如此有效,還需要更多的研究來(lái)獲得更好的理論解釋。

開啟「ImageNet」時(shí)代

時(shí)機(jī)已經(jīng)成熟,實(shí)用性的遷移學(xué)習(xí)已經(jīng)成功地侵入了自然語(yǔ)言處理。鑒于 ELMo、ULMFiT 和 OpenAI 的最新工作取得了如此令人印象深刻的成果,要人們放棄使用預(yù)訓(xùn)練的詞嵌入向量,而改用預(yù)訓(xùn)練的語(yǔ)言模型,這似乎只是時(shí)間問題。這一變化也許會(huì)為那些受限于數(shù)據(jù)數(shù)量的自然語(yǔ)言處理任務(wù)打開通往新世界的大門。

Via NLP's ImageNet moment has arrived,雷鋒網(wǎng) AI 科技評(píng)論編譯。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ImageNet 帶來(lái)的預(yù)訓(xùn)練模型之風(fēng),馬上要吹進(jìn) NLP 領(lǐng)域了

分享:
相關(guān)文章

知情人士

我也是個(gè)旅途的浪人
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)