丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給WBLUE
發(fā)送

0

文本嵌入的經(jīng)典模型與最新進(jìn)展

本文作者: WBLUE 編輯:楊曉凡 2018-06-19 16:09
導(dǎo)語:易于泛化到多種任務(wù)的文本嵌入正受到熱捧

文本嵌入的經(jīng)典模型與最新進(jìn)展

雷鋒網(wǎng) AI 科技評(píng)論按:這篇文章來自自然語言處理以及機(jī)器學(xué)習(xí)專家、Huggingface 的技術(shù)負(fù)責(zé)人 Thomas Wolf,介紹了文本嵌入的重點(diǎn)知識(shí)和最新趨勢(shì)。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

詞嵌入和句子嵌入已成為所有基于深度學(xué)習(xí)的自然語言處理(NLP)系統(tǒng)的重要組成部分。它們?cè)诙ㄩL的密集向量中編碼單詞和句子,以大幅度提高文本數(shù)據(jù)的處理性能。

對(duì)通用嵌入的追求是一大趨勢(shì):在大型語料庫上預(yù)訓(xùn)練好的嵌入,可以插入各種下游任務(wù)模型(情感分析、分類、翻譯等),通過融合一些在更大的數(shù)據(jù)集中學(xué)習(xí)得到的常用詞句表示,自動(dòng)提高它們的性能。

這是一種遷移學(xué)習(xí)。最近,遷移學(xué)習(xí)被證明可以大幅度提高 NLP 模型在重要任務(wù)(如文本分類)上的性能。Jeremy Howard 和 Sebastian Ruder (ULMFiT) 的工作就是一個(gè)最好的例子。(http://nlp.fast.ai/classification/2018/05/15/introducting-ulmfit.html

雖然句子的無監(jiān)督表示學(xué)習(xí)已經(jīng)成為很長一段時(shí)間的規(guī)范,但最近幾個(gè)月,隨著 2017年末、 2018 年初提出了一些非常有趣的提議,無監(jiān)督學(xué)習(xí)已經(jīng)有轉(zhuǎn)向有監(jiān)督和多任務(wù)學(xué)習(xí)方案的趨勢(shì)。 

文本嵌入的經(jīng)典模型與最新進(jìn)展

通用詞/句子嵌入的最新趨勢(shì)。 在這篇文章中,我們描述了用上圖中黑體字的模型。 

因此,這篇文章簡要介紹了通用詞和句子嵌入的最新技術(shù):

  • 強(qiáng)/快的基線模型:FastText,Bag-of-Words(詞袋)

  • 最先進(jìn)的模型:ELMo,Skip-Thoughts,Quick-Thoughts,InferSent,MILA/ MSR 的通用句子表示和 Google 的通用句子編碼器。

我們先從詞嵌入開始。如果你想對(duì) 2017 年之前發(fā)生的事情有一些背景知識(shí),我推薦你去看 Sebastian 去年寫過的關(guān)于詞嵌入的一篇很好的文章(http://ruder.io/word-embeddings-2017/)和入門介紹帖(http://ruder.io/word-embeddings-1/)。

詞嵌入的最新發(fā)展

在過去的五年里,人們已經(jīng)提出了大量可能的詞嵌入方法。最常用的模型是 word2vec 和 GloVe,它們都是基于分布假設(shè)的無監(jiān)督學(xué)習(xí)方法(在相同上下文中的單詞往往具有相似的含義)。

雖然有些人通過結(jié)合語義或句法知識(shí)的有監(jiān)督來增強(qiáng)這些無監(jiān)督的方法,但純粹的無監(jiān)督方法在 2017-2018 中發(fā)展非常有趣,最著名的是 FastText(word2vec的擴(kuò)展)和 ELMo(最先進(jìn)的上下文詞向量)。

FastTexthttps://github.com/facebookresearch/fastText)是 2013 年提出了 word2vec 框架的 Tomas Mikolov 團(tuán)隊(duì)開發(fā)的,這引發(fā)了關(guān)于通用詞嵌入研究的爆炸式增長。FastText 對(duì)原始 word2vec 向量的主要改進(jìn)是包含了字符 n-gram,它允許為沒有出現(xiàn)在訓(xùn)練數(shù)據(jù)中的單詞計(jì)算單詞表示。

FastText 向量訓(xùn)練速度超快,可在 157 種語言的 Wikipedia 和 Crawl 訓(xùn)練中使用。這是一個(gè)很好的基線模型。

深度語境化的單詞表示 (ELMo,http://allennlp.org/elmo) 最近大幅提高了詞嵌入的頂級(jí)水平。它由 Allen 研究所開發(fā),將于 6 月初在 NAACL 2018 會(huì)議上發(fā)布。

 文本嵌入的經(jīng)典模型與最新進(jìn)展

 ELMo對(duì)上下文語境了解很多

在ELMo 中,每個(gè)單詞被賦予一個(gè)表示,它是它們所屬的整個(gè)語料庫句子的函數(shù)。所述的嵌入來自于計(jì)算一個(gè)兩層雙向語言模型(LM)的內(nèi)部狀態(tài),因此得名「ELMo」:Embeddings from Language Models。

ELMo的 特點(diǎn):

  • ELMo 的輸入是字母而不是單詞。因此,他們可以利用子字詞單元來計(jì)算有意義的表示,即使對(duì)于詞典外的詞(如 FastText 這個(gè)詞)也是如此。

  • ELMo 是 biLMs 幾層激活的串聯(lián)。語言模型的不同層對(duì)單詞上的不同類型的信息進(jìn)行編碼(如在雙向LSTM神經(jīng)網(wǎng)絡(luò)中,詞性標(biāo)注在較低層編碼好,而詞義消歧義用上層編碼更好)。連接所有層可以自由組合各種文字表示,以提高下游任務(wù)的性能。

現(xiàn)在,讓我們談?wù)勍ㄓ镁渥忧度搿?/p>

通用句子嵌入的興起

文本嵌入的經(jīng)典模型與最新進(jìn)展

目前有很多有競(jìng)爭力的學(xué)習(xí)句子嵌入的方案。盡管像平均詞嵌入這樣的簡單基線始終效果不錯(cuò),但一些新穎的無監(jiān)督和監(jiān)督方法以及多任務(wù)學(xué)習(xí)方案已于 2017 年末至 2018 年初出現(xiàn),并且引起了有趣的改進(jìn)。

讓我們快速瀏覽目前研究的四種方法:從簡單的詞向量平均基線到無監(jiān)督/監(jiān)督方法和多任務(wù)學(xué)習(xí)方案。

在這一領(lǐng)域有一個(gè)普遍的共識(shí),即直接平均一個(gè)句子的詞向量(即所謂的「詞袋」方法)的簡單方法為許多下游任務(wù)提供了一個(gè)強(qiáng)大的基線。

Arora 等人的工作詳細(xì)介紹了計(jì)算這種基線的一個(gè)很好的算法。去年在 ICLR 上發(fā)表了一個(gè)簡單但有效的句子嵌入基線 https://openreview.net/forum?id=SyK00v5xx:使用你選擇的熱門詞嵌入,在線性加權(quán)組合中對(duì)一個(gè)句子進(jìn)行編碼,并執(zhí)行一個(gè)通用組件移除(移除它們的第一主成分上的向量)。這種通用的方法具有更深入而強(qiáng)大的理論動(dòng)機(jī),它依賴于一個(gè)使用語篇向量上的生成模型的隨機(jī)游走來生成文本。(在這里我們不討論理論細(xì)節(jié))

最近一個(gè)強(qiáng)大的 Bag-of-Word 基線(甚至比 Arora 的基線更強(qiáng))的實(shí)現(xiàn)是來自達(dá)姆施塔特大學(xué)的串聯(lián) p-mean 嵌入,它的地址是 https://github.com/UKPLab/arxiv2018-xling-sentence-embeddings。

文本嵌入的經(jīng)典模型與最新進(jìn)展

HuggingFace 的對(duì)話框袋的字。 Bag-of-Words 接近寬松的單詞排序,但保留了驚人數(shù)量的語義和句法內(nèi)容。

 來源:Conneau 有趣的 ACL 2018 論文 http://arxiv.org/abs/1805.01070

除了簡單的平均,第一個(gè)主要的建議是使用無監(jiān)督的訓(xùn)練目標(biāo),從 Jamie Kiros 和他的同事在 2015 年提出的 Skip-thoughts 向量開始。

無監(jiān)督方案將句子嵌入學(xué)習(xí)作為學(xué)習(xí)的副產(chǎn)品,以預(yù)測(cè)句子內(nèi)連貫的句子順序或句子中連貫的連續(xù)從句。這些方法可以(理論上)使用任何文本數(shù)據(jù)集,只要它包含以連貫方式并列的句子/子句。

Skip-thoughts 向量https://arxiv.org/abs/1506.06726)是學(xué)習(xí)無監(jiān)督句子嵌入的典型例子。它可以作為為詞嵌入而開發(fā)的 skip-gram 模型的句子等價(jià)物:我們?cè)囍A(yù)測(cè)一個(gè)句子的周圍句子,而不是預(yù)測(cè)單詞周圍的單詞。該模型由基于 RNN 的編碼器 – 解碼器組成,該解碼器被訓(xùn)練用于重構(gòu)當(dāng)前句子周圍的句子。

Skip-Thought 論文中有一個(gè)有趣的見解是詞匯擴(kuò)展方案:Kiros 等人在訓(xùn)練過程中,通過在 RNN 詞嵌入空間和一個(gè)更大的詞嵌入(如word2vec)之間進(jìn)行線性變換,來處理未見過的單詞。

Quick-thoughts 向量https://openreview.net/forum?id=rJvJXZb0W)是今年在 ICLR 上發(fā)布的 Skip-thoughts 向量的最新發(fā)展。在這項(xiàng)工作中,預(yù)測(cè)下一句話的任務(wù)被重新定義為一個(gè)分類任務(wù):解碼器被一個(gè)分類器所取代,該分類器必須在一組候選者中選擇下一句。它可以被解釋為對(duì)生成問題的一種判別近似。

該模型的一個(gè)優(yōu)勢(shì)是其訓(xùn)練速度(與 Skip-thoughts 模型相比有數(shù)量級(jí)的提升)使其成為開發(fā)大量數(shù)據(jù)集的有競(jìng)爭力的解決方案。

文本嵌入的經(jīng)典模型與最新進(jìn)展

 Quick-thoughts分類任務(wù), 分類器必須從一組句子嵌入中選擇以下句子

來源:Logeswaran等人的「學(xué)習(xí)語句表達(dá)的有效框架」

在很長一段時(shí)間里,監(jiān)督學(xué)習(xí)句子嵌入被認(rèn)為是比無監(jiān)督的方法提供更低質(zhì)量的嵌入,但是這個(gè)假設(shè)最近被推翻,部分是在推論結(jié)果的發(fā)布之后。

與之前詳述的無監(jiān)督方法不同,監(jiān)督學(xué)習(xí)需要標(biāo)注數(shù)據(jù)集來標(biāo)注某些任務(wù),如自然語言推理(如一對(duì)限定句)或機(jī)器翻譯(如一對(duì)譯句),構(gòu)成特定的任務(wù)選擇的問題和相關(guān)問題的數(shù)據(jù)集的大小需要質(zhì)量好的嵌入。在討論這個(gè)問題之前,讓我們看看 2017 年發(fā)布的突破 InferSent 的背后是什么。

因其簡單的體系結(jié)構(gòu),InferSent https://arxiv.org/abs/1705.02364)是一個(gè)有趣的方法。它使用句子自然語言推理數(shù)據(jù)集(一組 570k 句子對(duì)標(biāo)有3個(gè)類別:中性,矛盾和隱含)來在句子編碼器之上訓(xùn)練分類器。兩個(gè)句子都使用相同的編碼器進(jìn)行編碼,而分類器則是根據(jù)兩個(gè)句子嵌入構(gòu)建的一對(duì)表示進(jìn)行訓(xùn)練。Conneau 等人采用雙向 LSTM 完成最大池化的操作器作為句子編碼器。

文本嵌入的經(jīng)典模型與最新進(jìn)展

從NLI數(shù)據(jù)集中學(xué)習(xí)的監(jiān)督句子嵌入模型(InferSent) 

資料來源:A. Conneau等人的「自然語言推理數(shù)據(jù)中通用句子表示的監(jiān)督學(xué)習(xí)」

除了通常的尋找最佳神經(jīng)網(wǎng)絡(luò)模型的探索之外,InferSent 的成功還提出了以下問題:

什么樣的監(jiān)督訓(xùn)練任務(wù)能獲得更好泛化到下游任務(wù)中的句子嵌入?

多任務(wù)學(xué)習(xí) 可以看作是 Skip-Thoughts,InferSent 和相關(guān)的無監(jiān)督/監(jiān)督學(xué)習(xí)方案的泛化,它通過試圖在訓(xùn)練方案中結(jié)合幾個(gè)訓(xùn)練目標(biāo)來回答這個(gè)問題。

最近幾個(gè)關(guān)于多任務(wù)學(xué)習(xí)的提議于2018年初發(fā)布。讓我們簡要的看一下 MILA / MSR 的通用句子表示和Google 的通用句子編碼器。

在 MILA 和 Microsoft Montreal 的 ICLR 2018 論文(Learning General Purpose Distributed Sentence Representation via Large Scale Multi-Task Learning,https://arxiv.org/abs/1804.00079)中,Subramanian 等人觀察到,為了能夠泛化到各種不同的任務(wù)中,對(duì)同一句子的多個(gè)方面進(jìn)行編碼是必要的。

因此,作者利用一對(duì)多的多任務(wù)學(xué)習(xí)框架,通過在多個(gè)任務(wù)之間切換來學(xué)習(xí)通用句子嵌入。選擇的 6 個(gè)任務(wù)(Skip-thoughts 模型預(yù)測(cè)上下文、神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯、句法分析和自然語言推理)共享了由雙向 GRU 獲得的相同的句子嵌入。實(shí)驗(yàn)表明,當(dāng)添加多語言神經(jīng)機(jī)器翻譯任務(wù)時(shí),可以更好地學(xué)習(xí)語法屬性,通過解析任務(wù)學(xué)習(xí)長度和詞序并且訓(xùn)練自然語言推斷編碼語法信息。

Google 的通用句子編碼器https://arxiv.org/abs/1803.11175),于2018年初發(fā)布,采用相同的方法。他們的編碼器使用一個(gè)轉(zhuǎn)換網(wǎng)絡(luò),該網(wǎng)絡(luò)經(jīng)過各種數(shù)據(jù)源和各種任務(wù)的訓(xùn)練,目的是動(dòng)態(tài)地適應(yīng)各種自然語言理解任務(wù)。他們也給 TensorFlow 提供了一個(gè)預(yù)訓(xùn)練的版本 https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder/1。

總結(jié)

以上就是我們對(duì)于通用詞嵌入和句子嵌入現(xiàn)狀的簡短總結(jié)。

在過去的幾個(gè)月中,文本嵌入已經(jīng)呈現(xiàn)出了很多有趣的發(fā)展,在我們?cè)u(píng)估和探索這些嵌入的表現(xiàn)以及它們內(nèi)在的偏見/公平性(這是當(dāng)談到通用嵌入時(shí)的一個(gè)實(shí)際問題)方面都有了巨大進(jìn)步。 我們不在這里討論這些最新的主題,但您可以在參考文獻(xiàn)中找到鏈接。

我希望你喜歡這個(gè)簡介!

via medium.com/huggingface/universal-word-sentence-embeddings,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

文本嵌入的經(jīng)典模型與最新進(jìn)展

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說