0
本文作者: 奕欣 | 2017-05-06 09:21 |
雷鋒網(wǎng)消息,近日 FAIR 實驗室在官方博客中指出,目前 fastText 資料庫已經(jīng)能夠在智能手機及小型電腦上使用,而且內(nèi)存只需要幾百千字節(jié),充分增強了 fastText 的延展性。
為實現(xiàn)這一目的,F(xiàn)AIR 實驗室需要盡可能減少 fastText 模型在運轉(zhuǎn)時所消耗的內(nèi)存。Facebook 的 FAISS 團隊與 fastText 團隊進行合作,發(fā)布論文《FastText.zip: Compressing Text Classification Models》(FastText.zip:壓縮文本分類模型),能夠克服模型遷移到小型存儲設(shè)備存在的挑戰(zhàn)。
Facebook 團隊一直努力在提升精度的同時盡可能地減少計算的復(fù)雜度,讓實際應(yīng)用在使用的過程中變得更加靈活方便。而在機器學(xué)習(xí)拓展的過程中,團隊所面臨的問題在于,需要涉及一個通用庫來解決文本分類問題。因此,fastText 應(yīng)運而生,針對文本表達和分類幫助建立量化的解決方案。
FAIR 實驗室去年開源了資料庫 fastText,雷鋒網(wǎng)此前也做過覆蓋。
FAIR fastText 的具體實現(xiàn)原理過程有兩篇相關(guān)論文闡述,分別是《Bag of Tricks for Efficient Text Classification》(高效的文本分類技巧)和《Enriching Word Vectors with Subword Information》(使用子字信息豐富詞匯向量)。當(dāng)時開源的資料庫對內(nèi)存要求較高,動輒數(shù) GB,因此主要支持筆記本電腦及 X86 用戶。
對于有大量類別的數(shù)據(jù)集,fastText 采用了分層分類器,將不同的類別整合進樹形結(jié)構(gòu)中。并且結(jié)合線性及多類別的對數(shù)模型,能夠大量減少訓(xùn)練的時間,也減少了訓(xùn)練的復(fù)雜度。利用類別不均衡的客觀事實,研究人員采用 Huffman 算法建立用于表征類別的樹形結(jié)構(gòu)。并且根據(jù)樹形出現(xiàn)的頻率高低,深度也有所不同,這樣一來也提升了計算效率。
FAIR 實驗室采用低維度向量對文本進行表征。高向量自然能提升準(zhǔn)確性,但所耗費的訓(xùn)練時間和計算量也較多。研究顯示,如果有正確的表征與足夠龐大的語料庫,那么即便是低維度向量也可以得到最優(yōu)的結(jié)果。在編碼期間,向量的大小會通過常規(guī)獲得低維向量的優(yōu)化方法來獲得。團隊通過「bag-of-words」(詞袋)提取特征和線性分類器以訓(xùn)練模型。因為詞袋并不能識別句子中的單詞順序,所總結(jié)的高頻單詞特征并不能與低頻率單詞共享,導(dǎo)致低頻單詞的準(zhǔn)確率也要稍低。「n-gram」模型能夠解決詞序問題,但也會增加訓(xùn)練的復(fù)雜度、時間和相應(yīng)的費用。fastText 部分采用了「n-gram」,通過選擇主題詞前后的詞數(shù)以平衡訓(xùn)練時間與準(zhǔn)確度的關(guān)系。
結(jié)果顯示,fastText 比起目前非常流行的 word2vec 以及最先進的形態(tài)詞表征方式有著更好的表現(xiàn),且兼容多種語言。除準(zhǔn)確度外,fastText 也有著更快的速度,比起目前表現(xiàn)最好的神經(jīng)網(wǎng)絡(luò),它的運行速度快 1000 到 10000 倍。這是使用低級線性模型和標(biāo)準(zhǔn)功能(如二進制)的結(jié)果。
而兼容小型設(shè)備后,相信 fastText 能在未來服務(wù)更多的用戶,雷鋒網(wǎng)也將持續(xù)關(guān)注。
相關(guān)論文:
FastText.zip: Compressing Text Classification Models
Bag of Tricks for Efficient Text Classification
via facebook
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。