比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí)，詳解Facebook最新開(kāi)源工具——fastText

本文作者：李尊

2016-08-19 18:32

導(dǎo)語(yǔ)：Facebook聲稱(chēng)與深度模型對(duì)比，fastText能將訓(xùn)練時(shí)間由數(shù)天縮短到幾秒鐘。

導(dǎo)讀：Facebook聲稱(chēng)fastText比其他學(xué)習(xí)方法要快得多，能夠訓(xùn)練模型“在使用標(biāo)準(zhǔn)多核CPU的情況下10分鐘內(nèi)處理超過(guò)10億個(gè)詞匯”，特別是與深度模型對(duì)比，fastText能將訓(xùn)練時(shí)間由數(shù)天縮短到幾秒鐘。

Facebook FAIR實(shí)驗(yàn)室在最新博客中宣布將開(kāi)源資料庫(kù)fastText，聲稱(chēng)相比深度模型，fastText能將訓(xùn)練時(shí)間由數(shù)天縮短到幾秒鐘。

| 使用fastText實(shí)現(xiàn)更快、更好的文本分類(lèi)

理解人們交談時(shí)的內(nèi)容，或者敲打文章時(shí)的內(nèi)容——這對(duì)于人工智能研究者來(lái)說(shuō)是最大的技術(shù)挑戰(zhàn)之一，但是也確實(shí)是關(guān)鍵的一個(gè)需求。自動(dòng)文本處理在日常計(jì)算機(jī)使用中相當(dāng)關(guān)鍵，在網(wǎng)頁(yè)搜索和內(nèi)容排名以及垃圾內(nèi)容分類(lèi)中占重要組成部分。且當(dāng)它運(yùn)行的時(shí)候你完全感受不到它。隨著在線(xiàn)數(shù)據(jù)總量越來(lái)越大，需要有更靈活的工具來(lái)更好的理解這些大型數(shù)據(jù)集，來(lái)提供更加精準(zhǔn)的分類(lèi)結(jié)果。

為了滿(mǎn)足這個(gè)需求，F(xiàn)acebook FAIR實(shí)驗(yàn)室開(kāi)源了fastText。fastText是一個(gè)資料庫(kù)，能針對(duì)文本表達(dá)和分類(lèi)幫助建立量化的解決方案。關(guān)于fastText具體實(shí)現(xiàn)原理，F(xiàn)acebook另外發(fā)表了兩篇相關(guān)論文，兩篇論文具體信息如下：

Bag of Tricks for Efficient Text Classification（高效文本分類(lèi)技巧）

比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí)，詳解Facebook最新開(kāi)源工具——fastText

Enriching Word Vectors with Subword Information（使用子字信息豐富詞匯向量）

比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí)，詳解Facebook最新開(kāi)源工具——fastText

fastText結(jié)合了自然語(yǔ)言處理和機(jī)器學(xué)習(xí)中最成功的理念。這些包括了使用詞袋以及 n-gram 袋表征語(yǔ)句，還有使用子字（subword）信息，并通過(guò)隱藏表征在類(lèi)別間共享信息。我們另外采用了一個(gè)softmax層級(jí)（利用了類(lèi)別不均衡分布的優(yōu)勢(shì)）來(lái)加速運(yùn)算過(guò)程。這些不同概念被用于兩個(gè)不同任務(wù)：

有效文本分類(lèi)
學(xué)習(xí)詞向量表征

舉例來(lái)說(shuō)：fastText能夠?qū)W會(huì)“男孩”、“女孩”、“男人”、“女人”指代的是特定的性別，并且能夠?qū)⑦@些數(shù)值存在相關(guān)文檔中。然后，當(dāng)某個(gè)程序在提出一個(gè)用戶(hù)請(qǐng)求（假設(shè)是“我女友現(xiàn)在在兒？”），它能夠馬上在fastText生成的文檔中進(jìn)行查找并且理解用戶(hù)想要問(wèn)的是有關(guān)女性的問(wèn)題。

| fastText對(duì)于文本分類(lèi)的實(shí)現(xiàn)過(guò)程

在文本處理領(lǐng)域中深度神經(jīng)網(wǎng)絡(luò)近來(lái)大受歡迎，但是它們訓(xùn)練以及測(cè)試過(guò)程十分緩慢，這也限制了它們?cè)诖髷?shù)據(jù)集上的應(yīng)用。

fastText能夠解決這個(gè)問(wèn)題，其實(shí)現(xiàn)過(guò)程如下所示：

對(duì)于有大量類(lèi)別的數(shù)據(jù)集，fastText使用了一個(gè)分層分類(lèi)器（而非扁平式架構(gòu)）。不同的類(lèi)別被整合進(jìn)樹(shù)形結(jié)構(gòu)中（想象下二叉樹(shù)而非 list）。

比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí)，詳解Facebook最新開(kāi)源工具——fastText

考慮到線(xiàn)性以及多種類(lèi)別的對(duì)數(shù)模型，這大大減少了訓(xùn)練復(fù)雜性和測(cè)試文本分類(lèi)器的時(shí)間。fastText 也利用了類(lèi)別（class）不均衡這個(gè)事實(shí)（一些類(lèi)別出現(xiàn)次數(shù)比其他的更多），通過(guò)使用 Huffman 算法建立用于表征類(lèi)別的樹(shù)形結(jié)構(gòu)。因此，頻繁出現(xiàn)類(lèi)別的樹(shù)形結(jié)構(gòu)的深度要比不頻繁出現(xiàn)類(lèi)別的樹(shù)形結(jié)構(gòu)的深度要小，這也使得進(jìn)一步的計(jì)算效率更高。

比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí)，詳解Facebook最新開(kāi)源工具——fastText

Huffman 算法

fastText 另外使用了一個(gè)低維度向量來(lái)對(duì)文本進(jìn)行表征，通過(guò)總結(jié)對(duì)應(yīng)文本中出現(xiàn)的詞向量進(jìn)行獲得。在 fastText 中一個(gè)低維度向量與每個(gè)單詞都相關(guān)。隱藏表征在不同類(lèi)別所有分類(lèi)器中進(jìn)行共享，使得文本信息在不同類(lèi)別中能夠共同使用。這類(lèi)表征被稱(chēng)為詞袋（bag of words）（此處忽視詞序）。在 fastText中也使用向量表征單詞 n-gram來(lái)將局部詞序考慮在內(nèi)，這對(duì)很多文本分類(lèi)問(wèn)題來(lái)說(shuō)十分重要。

實(shí)驗(yàn)表明 fastText 在準(zhǔn)確率上與深度學(xué)習(xí)分類(lèi)器具有同等水平，特別是在訓(xùn)練和評(píng)估速率上要高出幾個(gè)數(shù)量級(jí)。使用 fastText能夠?qū)⒂?xùn)練時(shí)間從幾天降至幾秒，并且在許多標(biāo)準(zhǔn)問(wèn)題上實(shí)現(xiàn)當(dāng)下最好的表現(xiàn)（例如文本傾向性分析或標(biāo)簽預(yù)測(cè)）。

比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí)，詳解Facebook最新開(kāi)源工具——fastText

FastText與基于深度學(xué)習(xí)方法的Char-CNN以及VDCNN對(duì)比

| fastText也可作為專(zhuān)業(yè)工具

文本分類(lèi)對(duì)于商業(yè)界來(lái)說(shuō)非常重要。垃圾郵件或釣魚(yú)郵件過(guò)濾器可能就是最典型的例子。現(xiàn)在已經(jīng)有能為一般分類(lèi)問(wèn)題（例如 Vowpal Wabbit 或 libSVM）設(shè)計(jì)模型的工具，但是 fastText 專(zhuān)注于文本分類(lèi)。這使得在特別大型的數(shù)據(jù)集上，它能夠被快速訓(xùn)練。我們使用一個(gè)標(biāo)準(zhǔn)多核 CPU，得到了在10分鐘內(nèi)訓(xùn)練完超過(guò)10億詞匯量模型的結(jié)果。此外， fastText還能在五分鐘內(nèi)將50萬(wàn)個(gè)句子分成超過(guò)30萬(wàn)個(gè)類(lèi)別。

| fastText對(duì)于許多語(yǔ)言都通用

除了文本分類(lèi)以外，fastText也能被用來(lái)學(xué)習(xí)詞匯向量表征。利用其語(yǔ)言形態(tài)結(jié)構(gòu)，fastText能夠被設(shè)計(jì)用來(lái)支持包括英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)以及捷克語(yǔ)等多種語(yǔ)言。它還使用了一種簡(jiǎn)單高效的納入子字信息的方式，在用于像捷克語(yǔ)這樣詞態(tài)豐富的語(yǔ)言時(shí)，這種方式表現(xiàn)得非常好，這也證明了精心設(shè)計(jì)的字符 n-gram 特征是豐富詞匯表征的重要來(lái)源。FastText的性能要比時(shí)下流行的word2vec工具明顯好上不少，也比其他目前最先進(jìn)的詞態(tài)詞匯表征要好。

比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí)，詳解Facebook最新開(kāi)源工具——fastText

不同語(yǔ)言下FastText與當(dāng)下最先進(jìn)的詞匯表征進(jìn)行比較

fastText具體代碼實(shí)現(xiàn)過(guò)程

fastText基于Mac OS或者Linux系統(tǒng)構(gòu)筑，使用 C++11 的特性。需要python 2.6 或者更高版本支持，以及numpy & scipy等軟件支持。

示例：

$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ make
$ ./fasttext supervised
Empty input or output path.

The following arguments are mandatory:
-input training file path
-output output file path

The following arguments are optional:
-lr learning rate [0.05]
-dim size of word vectors [100]
-ws size of the context window [5]
-epoch number of epochs [5]
-minCount minimal number of word occurences [1]
-neg number of negatives sampled [5]
-wordNgrams max length of word ngram [1]
-loss loss function {ns, hs, softmax} [ns]
-bucket number of buckets [2000000]
-minn min length of char ngram [3]
-maxn max length of char ngram [6]
-thread number of threads [12]
-verbose how often to print to stdout [10000]
-t sampling threshold [0.0001]
-label labels prefix [__label__]

總結(jié)：Facebook FAIR實(shí)驗(yàn)室最新開(kāi)源工具fastText能將訓(xùn)練時(shí)間由數(shù)天縮短到幾秒鐘，相較于基于深度學(xué)習(xí)的模型方法，在保證同等精度的前提下fastText速度上快了幾個(gè)數(shù)量級(jí)。此外，fastText還能作為文本分類(lèi)在實(shí)際應(yīng)用中的專(zhuān)業(yè)工具，特別是對(duì)于大型數(shù)據(jù)集能實(shí)現(xiàn)相當(dāng)快的訓(xùn)練速度。另外因其自身語(yǔ)言形態(tài)結(jié)構(gòu)，fastText還能支持包括英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)以及捷克語(yǔ)等多種語(yǔ)言。

PS : 本文由雷鋒網(wǎng)編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

via Facebook research blog

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。