詞向量因何存在：一段往計(jì)算機(jī)輸入文字的歷史

本文作者： MrBear

2020-07-27 16:00

導(dǎo)語(yǔ)：以史為鑒，可以知興替。

向計(jì)算機(jī)輸入文字，是整個(gè)自然語(yǔ)言處理（NLP）領(lǐng)域的宏大故事的一部分，而 NLP 則是人工智能的重要分支研究領(lǐng)域。

NLP中，最細(xì)粒度的部分就是詞語(yǔ)，詞語(yǔ)組成句子，句子再組成段落、篇章、文檔。而語(yǔ)言作為人類(lèi)獨(dú)有的表達(dá)方式，如果要輸入到計(jì)算機(jī)中，則要將語(yǔ)言中的一個(gè)個(gè)詞語(yǔ)轉(zhuǎn)換成數(shù)值形式，這就需要用到詞向量，或者說(shuō)詞嵌入的方法。

因而，要想研究好NLP ，勢(shì)必要對(duì)詞向量有透徹的理解。

讀罷此文，你將對(duì)詞向量有一個(gè)一般性的認(rèn)識(shí)：它們?yōu)楹味嬖?，它們解決了什么問(wèn)題，它們?cè)醋院翁?，它們隨著時(shí)間如何變化？以及，目前關(guān)于詞向量有哪些有待解決的問(wèn)題？

本文的關(guān)鍵論點(diǎn)包括：

即使是在最基本的單詞層面上，在可計(jì)算的條件下表征自然語(yǔ)言文本仍然是個(gè)難題。
不同單詞的意義或多或少有其相似之處。人們使用連續(xù)的向量有效地獲取這種性質(zhì)，大規(guī)模的文本語(yǔ)料讓我們可以自動(dòng)地發(fā)掘許多層面上的詞義相似性。通常，預(yù)料詞典中的每個(gè)單詞都有一個(gè)但以固定的表征向量。
單詞的意義可以隨著其出現(xiàn)的上下文不同而發(fā)生很大的變化。最新的研究進(jìn)展使用 NLP 和機(jī)器學(xué)習(xí)（ML）領(lǐng)域的常用工具識(shí)別并學(xué)習(xí)了這種變化。這些方法在諸多對(duì)比基準(zhǔn)上展示出了巨大的性能提升。

1、早期方法：離散化表征

在計(jì)算機(jī)中，表征一段文本的最簡(jiǎn)單的形式是一個(gè)字符序列（根據(jù)編碼的不同，存儲(chǔ)一個(gè)字符可能需要一個(gè)字節(jié)或多個(gè)字節(jié)）。一個(gè)詞形可以被表征為一個(gè)字符串（字符的有序列表），但是比較兩個(gè)字符串是否相同的計(jì)算成本卻很高。

在之前，單詞往往都會(huì)被整數(shù)化處理。這樣一來(lái)，每個(gè)詞形都會(huì)被賦予一個(gè)唯一的（或多或少任意的）非負(fù)整數(shù)值。這樣做的優(yōu)點(diǎn)是每個(gè)詞形都以相同大小的空間被存儲(chǔ)下來(lái)，基于數(shù)組的數(shù)據(jù)結(jié)構(gòu)可以被用來(lái)通過(guò)詞形索引其它的信息（如單詞的字符串，對(duì)屬于該詞形的詞例進(jìn)行技術(shù)，或者包含單詞潛在語(yǔ)義的細(xì)節(jié)信息的更豐富的數(shù)據(jù)結(jié)構(gòu)）。當(dāng)遇到新的詞形時(shí)，詞匯表就會(huì)被不斷地?cái)U(kuò)展（直到單詞數(shù)達(dá)到整型數(shù)據(jù)類(lèi)型的上限，對(duì)于 4 字節(jié)無(wú)符號(hào)整數(shù)來(lái)說(shuō)，這一上限超過(guò)了 40 億）。當(dāng)然，我們可以很快地測(cè)試兩個(gè)整數(shù)是否相同。

整數(shù)本身并不具有任何意義。為整數(shù)分配意義的過(guò)程可以是隨機(jī)的，也可以是按照字母順序進(jìn)行的，或者是或根據(jù)詞例在生成單詞表的參考文本語(yǔ)料中出現(xiàn)的順序進(jìn)行（也就是說(shuō)，第一個(gè)出現(xiàn)的詞例的詞形被賦予整數(shù) 0；如果第二個(gè)出現(xiàn)的詞例與第一個(gè)不同，則將整數(shù) 1 賦予它對(duì)應(yīng)的詞形）。具有相關(guān)語(yǔ)義的兩個(gè)詞形將會(huì)被賦予具有一定「距離」的整數(shù)，兩個(gè)在分配的空間中「相近」的詞形彼此之間可能沒(méi)有任何關(guān)系。

使用整數(shù)只是遵循當(dāng)下流行的編程語(yǔ)言中可用的數(shù)據(jù)類(lèi)型的一種方便的表示方法。例如，在 Lisp 語(yǔ)言中，「gensym」也能達(dá)到同樣的目的（盡管效率可能低一些）。因此，我們將基于整數(shù)的詞形表征稱(chēng)為「離散化表征」。

考慮到 NLP 程序大多都是使用監(jiān)督式機(jī)器學(xué)習(xí)構(gòu)建的，我們認(rèn)為「單詞或多或少存在相似性」的思路是十分重要的。

2、以向量形式存儲(chǔ)詞

為了解釋 NLP 從業(yè)者為什么不再通過(guò)離散化的方式處理詞形，很有必要思考單詞是如何在 NLP 程序中被使用的。下面是一些示例：

觀測(cè)給定文檔中的一個(gè)詞例，以此為證據(jù)（evidence）預(yù)測(cè)文檔的類(lèi)別。

例如，在一段電影影評(píng)中出現(xiàn)的「delightful」單詞，說(shuō)明影評(píng)人可能很喜歡這部電影，并給予它一個(gè)正面評(píng)價(jià)。

觀測(cè)給定文檔中的一個(gè)詞例，以此為證據(jù)在句子翻譯中預(yù)測(cè)一個(gè)詞例。例如，在英語(yǔ)句子中出現(xiàn)單詞「cucumber」說(shuō)明在法語(yǔ)翻譯中可能出現(xiàn)單詞「concombre」。

相反，給定證據(jù)的全部權(quán)重，在給定的上下文中，選擇一個(gè)詞形并輸出一個(gè)它的詞例。

在以上各種情況下，對(duì)詞形進(jìn)行離散化處理有一個(gè)嚴(yán)重的缺點(diǎn)：有關(guān)如何將一個(gè)特定的詞用作證據(jù)，或者是否生成一個(gè)輸出詞例的信息，不能在具有相似特性的單詞之間共享。舉個(gè)簡(jiǎn)單的例子，請(qǐng)考慮填補(bǔ)下面句子中的空缺：

「S.will eat anything, but V. hates _」

根據(jù)你對(duì)世界的先驗(yàn)知識(shí)，你可能會(huì)傾向于很有把握地填上詞形為「豌豆」（pears）、「豆芽菜」（sprouts）、「雞肉」（chicken）的詞例，或其它代表食物的復(fù)數(shù)名詞。這樣的詞形共有一些性質(zhì)（和其它表示食物的單詞一起），我們希望使用這些單詞的模型能夠用到這樣的信息。兩個(gè)不同的單詞可能或多或少具有一些相似性。

考慮到 NLP 程序大多都是使用監(jiān)督式機(jī)器學(xué)習(xí)構(gòu)建的，我們認(rèn)為「單詞或多或少具有一些相似性」的思路是十分重要的。在這里，監(jiān)督式機(jī)器學(xué)習(xí)指的是我們擁有代表一個(gè)任務(wù)的輸入和輸出的示例（二者中至少有一個(gè)是由單詞組成的），并且有一套根據(jù)這些「輸入-輸出」對(duì)泛化的機(jī)制。理想狀況下，這樣的機(jī)制應(yīng)該能夠利用相似性：它發(fā)現(xiàn)的關(guān)于某個(gè)單詞的性質(zhì)可以遷移到相似的單詞上。

在本文中，探討兩種將相似性信息引入程序的方法（理性主義和經(jīng)驗(yàn)主義）。

理性主義告訴我們，人類(lèi)（尤其是受過(guò)人類(lèi)語(yǔ)言科學(xué)方面訓(xùn)練的人）會(huì)知道這些相似性信息，我們可以設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)顯式地對(duì)其進(jìn)行編碼，讓我們的程序在需要時(shí)訪問(wèn)這些信息。一個(gè)代表性的工作是 WordNet，它使用 13 個(gè)詞法數(shù)據(jù)庫(kù)存儲(chǔ)單詞及其之間的關(guān)系（例如，同義：兩個(gè)單詞意味著同樣的事情；上下位關(guān)系：一個(gè)詞的意思是另一個(gè)詞更加具象化的表現(xiàn)）。WordNet 也顯式地捕獲了一詞多義的現(xiàn)象（例如，風(fēng)扇：吹動(dòng)空氣的機(jī)器，有時(shí)也指「粉絲」）。句子結(jié)構(gòu)（句法）的語(yǔ)言學(xué)理論提供了另一種方法來(lái)思考名詞、動(dòng)詞這種形式的詞的相似性。
經(jīng)驗(yàn)主義告訴我們，針對(duì) NLP 應(yīng)用，我們可以使用一組獨(dú)立的程序收集并組織信息。隨著網(wǎng)絡(luò)上的文本數(shù)據(jù)越來(lái)越多，這種方式逐漸占據(jù)了主導(dǎo)地位。被用于從語(yǔ)料庫(kù)中提取信息的程序已經(jīng)經(jīng)歷了幾個(gè)階段的發(fā)展（從基于技術(shù)的統(tǒng)計(jì)，到使用更先進(jìn)的統(tǒng)計(jì)方法建模，再到越來(lái)越強(qiáng)大的機(jī)器學(xué)習(xí)工具）。

基于以上兩種思路，我們都會(huì)想到通過(guò)向量而不是整數(shù)來(lái)表示詞形。此時(shí)，我們需要確定向量的維度，并賦予不同的維度不同的目的。例如：

為每個(gè)詞形賦予一個(gè)維度，該維度上賦值為 1（而其它所有的詞形對(duì)應(yīng)的維度上的值為 0）。這種方式本質(zhì)上相當(dāng)于對(duì)單詞進(jìn)行整數(shù)化處理，單詞被表征為一個(gè)獨(dú)熱（one-hot）編碼。

對(duì)于屬于已知類(lèi)型的詞形（例如，一周的七天），我們可以使用給定了二進(jìn)制值的維度。

對(duì)于具有相同詞根的變體詞形，我們同樣可以使用一個(gè)維度將其歸于同一類(lèi)。例如，「know」、「known」、「knew」、「knows」的某一個(gè)維度上都被賦值為 1，而其它與 know 詞根不同的單詞則在該維度上被賦值為 0。

更寬泛地說(shuō)，我們可以使用表面的屬性將看起來(lái)相似的詞形綁定在一起：例如大小寫(xiě)的模式，長(zhǎng)度，出現(xiàn)某個(gè)數(shù)字。

如果詞形的存在表示大小關(guān)系的意義，我們可能會(huì)分配一些維度來(lái)捕獲這樣的大小信息。

在 NLP 領(lǐng)域中，有很多通過(guò)賦予向量某些維度，從而表征詞形（或多單詞序列）的例子。這些維度被稱(chēng)為「特征」，它們可以由專(zhuān)家設(shè)計(jì)，也可以通過(guò)自動(dòng)化的算法得到。

3、將詞表征為分布式的向量

在語(yǔ)言學(xué)中，一個(gè)重要的思想是：可以通過(guò)相似的方式使用的單詞（或表達(dá)）趨向于擁有相關(guān)的語(yǔ)義。在一個(gè)大型語(yǔ)料庫(kù)中，我們可以收集有關(guān)詞形「w」被使用的方式的信息（例如，統(tǒng)計(jì)它子其它詞形附近出現(xiàn)的次數(shù)）。當(dāng)我們研究語(yǔ)料庫(kù)中存在 w 的上下文（附近的單詞或句子）的完整分布時(shí)，我們采取了一種詞義的分布式視角。

「聚類(lèi)」就是基于這種思想生成特征的一種成功的方法。例如，Brown 等人提出的聚類(lèi)算法根據(jù)語(yǔ)料庫(kù)中出現(xiàn)的上下文自動(dòng)地將單詞組織成一些聚類(lèi)簇。傾向于出現(xiàn)在相同的鄰居上下文的單詞會(huì)被劃分到同一個(gè)簇中。如圖 1 所示這種方法具有驚人的可解釋性和實(shí)用性，我們還可以使用任意給定的語(yǔ)料庫(kù)重新構(gòu)建它，包含所有觀測(cè)到的單詞。

圖 1：Brown 聚類(lèi)示意圖。該結(jié)果是根據(jù) 56M 條 tweet 生成的，本圖中給出了以 00110 二進(jìn)制串為前綴的簇的層次結(jié)構(gòu)，以及簇中 10 個(gè)出現(xiàn)頻率最高的單詞。樹(shù)中的中間節(jié)點(diǎn)對(duì)應(yīng)于包含后繼節(jié)點(diǎn)中所有單詞的簇。

另一類(lèi)方法在一開(kāi)始需要?jiǎng)?chuàng)建單詞向量，其中每個(gè)維度對(duì)應(yīng)于詞性在某些上下文中出現(xiàn)的頻率。例如，一個(gè)維度可能對(duì)應(yīng)于「the」，并且包含在一個(gè)詞例「the」附近的一個(gè)小的窗口中某單詞出現(xiàn)的次數(shù)。該向量可能包括單詞左側(cè)、右側(cè)，以及不同距離和長(zhǎng)度的上下文模式。這樣創(chuàng)建的單詞向量可能比詞匯表的還要行很多倍。我們可以利用線性代數(shù)的降維方法，將這些向量壓縮地更短，從而減少維度之間的冗余。

圖 2：計(jì)算單詞向量的方法示意圖。

降維之后的向量有以下優(yōu)點(diǎn)：首先，NLP 程序員可以根據(jù)程序的需要選擇合適的維度。更緊湊的向量計(jì)算效率更高，也可能由于特定語(yǔ)料庫(kù)的噪聲在壓縮過(guò)程中消失而受益。然而，壓縮的代價(jià)則是犧牲了一部分原始信息。由于壓縮后的向量中單獨(dú)的維度是很難被解釋的，我們可以使用一些常見(jiàn)的算法找到單詞在向量空間中的最近鄰，它們往往是具有相關(guān)語(yǔ)義的單詞。

實(shí)際上，這些觀測(cè)結(jié)果催生了「向量空間語(yǔ)義」的思想，我們可以對(duì)單詞向量進(jìn)行算術(shù)運(yùn)算，從而理解學(xué)習(xí)到的單詞「意義」。一個(gè)著名的例子是：

降維后的向量的缺點(diǎn)在于：獨(dú)立的維度并不是可解釋的特征，不能夠直接被映射回構(gòu)建單詞意義的模塊。單詞的意義是分布在整個(gè)向量上的；因此，這些向量有時(shí)被稱(chēng)為分布的表征。

隨著語(yǔ)料庫(kù)規(guī)模不短增長(zhǎng)，可伸縮性成為了一個(gè)重大的挑戰(zhàn)。所有詞向量算法底層的思想是：詞形向量的每個(gè)維度上的值是一個(gè)有待優(yōu)化的參數(shù)。我們通過(guò)優(yōu)化這些參數(shù)，最佳地?cái)M合觀測(cè)到的數(shù)據(jù)中的單詞模式。由于我們將這些參數(shù)視為連續(xù)的值，而且擬合數(shù)據(jù)的概念可以作為光滑、連續(xù)的目標(biāo)函數(shù)來(lái)操作，因此可以通過(guò)基于梯度下降的迭代式算法完成優(yōu)化。

研究人員對(duì)獲取分布式詞向量的方法進(jìn)行了大量的探索。接下來(lái)，我們將列舉出一些有趣的想法：

如圖 3 所示，我們首先將每個(gè)輸入的詞例映射到其向量上，然后將詞向量輸入到神經(jīng)網(wǎng)絡(luò)模型中，該神經(jīng)網(wǎng)絡(luò)執(zhí)行類(lèi)似于翻譯的任務(wù)。向量可以預(yù)先給定（或使用上述方法根據(jù)一個(gè)語(yǔ)料庫(kù)預(yù)訓(xùn)練得到），也可以作為神經(jīng)網(wǎng)絡(luò)模型的參數(shù)，根據(jù)特定任務(wù)進(jìn)行調(diào)整。「調(diào)優(yōu)」（fine-tuning）是指通過(guò)預(yù)訓(xùn)練初始化向量，然后通過(guò)特定任務(wù)的學(xué)習(xí)算法來(lái)調(diào)整他們。我們也可以隨機(jī)初始化詞向量，從頭開(kāi)始學(xué)習(xí)。

圖 3：一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)示意圖。神經(jīng)網(wǎng)絡(luò)是一種將向量映射到向量的函數(shù)。例如，將二維輸入映射到二維輸出上的函數(shù)：

我們可以使用 WordNet 這種專(zhuān)家構(gòu)建的數(shù)據(jù)結(jié)構(gòu)作為額外的輸入來(lái)創(chuàng)建詞向量。「retrofitting」方法首先從語(yǔ)料庫(kù)中提取出詞向量，然后試圖自動(dòng)地對(duì)其進(jìn)行調(diào)整，使得在 WordNet 中那個(gè)相關(guān)的詞形在向量空間中更接近。

我們可以使用雙語(yǔ)詞典，將兩種語(yǔ)言狀態(tài)下的詞向量「對(duì)齊」到同一個(gè)向量空間中。這樣一來(lái)，例如英語(yǔ)詞形「cucumber」和法語(yǔ)詞形「concombre」的向量之間的歐氏距離就很小了。

根據(jù)部分（或全部的）字符序列計(jì)算詞向量。這種方法傾向于使用神經(jīng)網(wǎng)絡(luò)將任意長(zhǎng)度的序列映射為固定長(zhǎng)度的向量。這樣做有兩個(gè)有趣的作用：在具有復(fù)雜單詞構(gòu)造系統(tǒng)的語(yǔ)言中，具有相同底層詞根的變體會(huì)擁有相似的詞向量；同一單詞的不同拼寫(xiě)方式將有詳細(xì)的詞向量。

4、上下文相關(guān)詞向量

首先，我們要區(qū)分詞例和詞形。一直以來(lái)，在我們的 NLP 程序中，我們都假設(shè)每個(gè)詞形都會(huì)使用一個(gè)固定的數(shù)據(jù)對(duì)象（一開(kāi)始是整數(shù)，后來(lái)又發(fā)明了詞向量）來(lái)表征。這樣做是很方便，但是它又對(duì)語(yǔ)言做出了一些不符合現(xiàn)實(shí)情況的假設(shè)。最重要的一點(diǎn)是，單詞在不同的上下文中應(yīng)該有不同的意思。

在粗粒度的級(jí)別上，專(zhuān)家們?cè)跇?gòu)建 WordNet 時(shí)捕獲了這種特性。例如，在 WordNet 中「get」被映射到了 30 多種不同的含義上。然而，應(yīng)該給各個(gè)單詞分配多少種詞義（或者確定詞義之間的邊界）一直都是一個(gè)難以取得共識(shí)的問(wèn)題。詞義也有可能是隨語(yǔ)境動(dòng)態(tài)變化的。

事實(shí)上，在很多基于神經(jīng)網(wǎng)絡(luò)的 NLP 程序中，首先要做的就是將每個(gè)單詞詞例所屬的詞形向量輸入到一個(gè)函數(shù)中，然后基于該詞例附近的上下文對(duì)這個(gè)向量進(jìn)行變換。變換過(guò)程如圖 4、圖 5 所示。

圖 4：圖 2 中計(jì)算的 3-單詞向量之間的關(guān)系大致的可視化結(jié)果。

圖 5：圖 2 和圖 4 中的詞例「astronomers」、「bodies」、「objects」的上下文相關(guān)詞向量的假想的可視化結(jié)果。

根據(jù)相似性的基本概念，我們期望相似的單詞彼此之間能夠很好地相互替換。有時(shí)僅僅根據(jù)詞形是很難確定相似性的，而當(dāng)我們考慮上下文語(yǔ)境時(shí)，這個(gè)問(wèn)題就會(huì)簡(jiǎn)單很多。

在大型語(yǔ)料庫(kù)上預(yù)訓(xùn)練得到的 ELMo（基于語(yǔ)言模型的嵌入），以詞例向量（針對(duì)上下文中的單詞的向量，上下文相關(guān)向量）的形式帶來(lái)了巨大的進(jìn)步。EMLo 背后有兩個(gè)主要的思想：

如果每個(gè)詞例都有自己的向量，那么這個(gè)向量應(yīng)該依賴(lài)于附近單詞組成的任意長(zhǎng)度的上下文。為了獲得「上下文向量」，我們首先得到詞形向量，然后將它們傳遞給一個(gè)神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)可以將任意長(zhǎng)度的左右上下文詞向量序列轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的向量。詞形向量本質(zhì)上是查找表，與之不同的是，上下文相關(guān)詞向量是由代表單詞類(lèi)型的向量和將每個(gè)單詞置于上下文中的神經(jīng)網(wǎng)絡(luò)參數(shù)構(gòu)建的。ELMo 訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)處理左側(cè)的上下文（往回觀測(cè)到出現(xiàn)某詞例的句子的開(kāi)頭），另一個(gè)神經(jīng)網(wǎng)絡(luò)處理右側(cè)的上下文（直到句子的結(jié)尾）。原則上說(shuō)，ELMo 也可能處理更長(zhǎng)的上下文。

回想一下，估計(jì)單詞向量需要通過(guò)求解優(yōu)化問(wèn)題來(lái)擬合數(shù)據(jù)（在這里是語(yǔ)料庫(kù)）。語(yǔ)言建模是 NLP 領(lǐng)域中一個(gè)長(zhǎng)期存在的數(shù)據(jù)擬合問(wèn)題，它指的是根據(jù)歷史單詞序列預(yù)測(cè)接下來(lái)的單詞。已經(jīng)被人們所使用的許多詞形向量算法都是基于固定大小的上下文工作的，這些上下文是從語(yǔ)料庫(kù)中詞形的所有實(shí)例中收集的。ELMo 涉及的語(yǔ)料范圍更廣，它使用任意長(zhǎng)度的歷史單詞序列，并直接引入了對(duì)應(yīng)情況下最有效的語(yǔ)言模型（基于循環(huán)神經(jīng)網(wǎng)絡(luò)）。盡管循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)在 NLP 領(lǐng)域中被廣泛使用，但是將它們訓(xùn)練為語(yǔ)言模型，然后使用它們?yōu)槊總€(gè)詞例提供的上下文向量作為與訓(xùn)練的詞例向量還是很新穎的。

這樣的研究進(jìn)展為什么令人振奮呢？上下文相關(guān)的詞向量是否能完全解決歧義詞帶來(lái)的挑戰(zhàn)仍然有待研究。人們往往會(huì)在對(duì)比基準(zhǔn)測(cè)試中使用客觀的性能評(píng)價(jià)指標(biāo)測(cè)試 NLP 領(lǐng)域新的思路。研究人員發(fā)現(xiàn)，ELMo 在以下領(lǐng)域中極大提升了 NLP 程序的性能：

給定一段文字，回答有關(guān)其中內(nèi)容的問(wèn)題（在 SQuAD 對(duì)比基準(zhǔn)上將誤差降低了 9%）。
標(biāo)注動(dòng)詞的語(yǔ)義論元（在 Ontonotes 語(yǔ)義角色標(biāo)注對(duì)比基準(zhǔn)上將誤差降低了 16%）。
解析那些指稱(chēng)表達(dá)指代的是相同的實(shí)體（在 CoNLL 2003 對(duì)比基準(zhǔn)上將誤差降低了 4%）。

在語(yǔ)言學(xué)中，一個(gè)重要的思想是：可以通過(guò)相似的方式使用的單詞（或表示）可能擁有相同的語(yǔ)義。

Howard 和 Ruder 介紹了一種簡(jiǎn)單的方法「ULMFiT」，顯示了上下文相關(guān)向量在文本分類(lèi)問(wèn)題上的優(yōu)勢(shì)。接著，基于 Transformer 的雙向編碼器表征在學(xué)習(xí)方法上引入了一些創(chuàng)新之處，并利用更多的數(shù)據(jù)進(jìn)行學(xué)習(xí)，在第一個(gè)任務(wù)中相較于 ELMo 進(jìn)一步降低了 45% 的誤差，在第二個(gè)任務(wù)中降低了 7% 的誤差。

在 SWAG 對(duì)比基準(zhǔn)測(cè)試中，Devlin 等人近期在常識(shí)推理任務(wù)中發(fā)現(xiàn) ELMo 相對(duì)于上下文無(wú)關(guān)詞向量降低了 5% 的誤差，而 BERT 則相對(duì)于 EMLo 又降低了 66%。自此之后，一系列論文紛紛涌現(xiàn)了出來(lái)，如 GPT-2、RoBERTa、T5、XLM、XLNet。

在作者撰寫(xiě)本文時(shí)，有許多關(guān)于不同方法的相對(duì)性能的開(kāi)放性問(wèn)題。對(duì)于不同的學(xué)習(xí)算法，特別是神經(jīng)網(wǎng)絡(luò)架構(gòu)的完整解釋超出了本文介紹的范圍，但是公平地說(shuō)，上下文相關(guān)詞向量的可能學(xué)習(xí)器還沒(méi)有被充分探索。

5、不足之處

詞向量是有偏的。和許多工程產(chǎn)品一樣，計(jì)算機(jī)程序很可能反映出其制造者的觀點(diǎn)。根據(jù)數(shù)據(jù)構(gòu)建的計(jì)算機(jī)程序?qū)⒎从吵鰯?shù)據(jù)（在本例中是語(yǔ)料庫(kù)）中的內(nèi)容。如果文本語(yǔ)料庫(kù)表示了反應(yīng)文化偏見(jiàn)的概念之間的聯(lián)系，那么這些聯(lián)系會(huì)在詞向量和使用它們的任何系統(tǒng)中存在。

語(yǔ)言不僅僅是單詞。語(yǔ)言的有效理解和生成不僅僅局限于理解詞義，這還需要知道單詞如何被組合起來(lái)形成更加復(fù)雜的概念和命題。這只是 NLP 領(lǐng)域研究的冰山一角，關(guān)于處理自然語(yǔ)言語(yǔ)法、語(yǔ)義和語(yǔ)用的方法，以及我們?nèi)绾螌⑷祟?lèi)理解和生成語(yǔ)言的任務(wù)轉(zhuǎn)化為我們可以試著去設(shè)計(jì)算法的任務(wù)，還有很多有待研究的問(wèn)題。關(guān)于上下文相關(guān)詞向量，一個(gè)令人驚訝的發(fā)現(xiàn)是：當(dāng)我們使用非常大的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練時(shí)，它們更容易通過(guò)各種句法和語(yǔ)義解析來(lái)進(jìn)行排歧。

研究 NLP 問(wèn)題不應(yīng)該只局限于某一點(diǎn)來(lái)看。雖然上述成果令人印象深刻，但是請(qǐng)記住，它們僅僅反映了在研究社區(qū)中出現(xiàn)的少數(shù)對(duì)比基準(zhǔn)上的表現(xiàn)。這些對(duì)比基準(zhǔn)在某種程度上是有爭(zhēng)議的。只有當(dāng)我們客觀衡量方法的進(jìn)展時(shí)，NLP 領(lǐng)域才能得以發(fā)展我們還需要再設(shè)計(jì)用于比較的對(duì)比基準(zhǔn)和評(píng)價(jià)指標(biāo)等方面取得突破。

6、接下來(lái)，我們?cè)撟鍪裁矗?/span>

在接下來(lái)的一些年中，我們希望看到將各種上下文相關(guān)詞向量應(yīng)用于新的問(wèn)題所帶來(lái)的新發(fā)現(xiàn)。例如，構(gòu)建一個(gè)系統(tǒng)可能涉及到復(fù)雜的協(xié)議，其中就需要在一系列數(shù)據(jù)集和任務(wù)的組合上執(zhí)行調(diào)優(yōu)和針對(duì)特定任務(wù)的訓(xùn)練。

在擁有相對(duì)較少的監(jiān)督信號(hào)的條件下，如何提升 NLP 程序性能的潛力，也是一個(gè)有意思的方向。例如，類(lèi)似于 EMLo 的方法可以提升低資源類(lèi)型和語(yǔ)言條件下的 NLP 程序性能。同時(shí)，計(jì)算開(kāi)銷(xiāo)較小的方法也有更廣闊的應(yīng)用前景。

希望看到更多人嘗試使用語(yǔ)言學(xué)的術(shù)語(yǔ)來(lái)概括這些方法正在學(xué)習(xí)的東西（以及那些沒(méi)有學(xué)習(xí)的東西）。

關(guān)鍵論點(diǎn)：

請(qǐng)注意，我們有兩種認(rèn)識(shí)「單詞」的角度：

一個(gè)「詞例」（word token）指的是在一段文本中觀測(cè)到的單詞（A word token is a word observed in a piece of text.）。對(duì)于一些語(yǔ)言來(lái)說(shuō)，確定詞例的邊界是一個(gè)非常復(fù)雜的過(guò)程（而且這些語(yǔ)言的使用者可能并不贊同這種將文本劃分為一個(gè)個(gè)單詞的「正確」規(guī)則）。但是在英語(yǔ)環(huán)境下，我們傾向于使用空格和標(biāo)點(diǎn)符號(hào)劃分單詞。在本文中，我們假設(shè)這種「分詞」（tokenization）問(wèn)題已經(jīng)被「解決」了。例如，通常情況下，本段的第一句可以被分詞為 13 個(gè)詞例（表示句子結(jié)束的句號(hào)也被當(dāng)作獨(dú)立的詞例來(lái)對(duì)待）。

一個(gè)「詞形」（word type）指的是一個(gè)抽象意義上的有特定意義的單詞，而不是某個(gè)特定的示例。我們可以說(shuō)，每個(gè)詞例「屬于」其詞形。在上面的分詞示例中，僅僅有 11 個(gè)詞形，因?yàn)椤竪ord」和「a」都有兩個(gè)示例共享同一個(gè)詞形。（如果我們不考慮大小寫(xiě)之間的區(qū)別，那么這里就只有 10 個(gè)詞形，因?yàn)榈谝粋€(gè)單詞「A」和第五、第九個(gè)單詞有相同的詞形）。當(dāng)我們對(duì)一個(gè)文本集合（也被成為語(yǔ)料庫(kù)）中出現(xiàn)的單詞進(jìn)行計(jì)數(shù)時(shí)，我們就是在統(tǒng)計(jì)屬于相同詞形的詞例有多少個(gè)。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

Via https://dl.acm.org/doi/pdf/10.1145/3347145?download=true

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。