丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?

本文作者: camel 編輯:郭奕欣 2017-08-17 16:00
導(dǎo)語(yǔ):為尋找一種能同時(shí)處理多種語(yǔ)言的模型,Yann LeCun做了473種模型大對(duì)比。

雷鋒網(wǎng) AI科技評(píng)論按:就在前幾天,Yann LeCun(中文名:楊立昆,被稱為卷積網(wǎng)絡(luò)之父)與其學(xué)生 張翔在arXiv上發(fā)表了一篇新作《Which Encoding is the Best for Text Classification in Chinese, English, Japanese and Korean?》。這篇文章做了一個(gè)包含473種模型的大型對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)的目的是對(duì)文本分類任務(wù)中不同語(yǔ)言(英語(yǔ)、漢語(yǔ)、韓語(yǔ)和日語(yǔ))不同的level(utf-8 、字符等)和不同的encoding(bag-of-words等)在不同模型(linear models、fastText、ConvNets等)中組合使用的效果進(jìn)行測(cè)試,得到了一系列有參考價(jià)值的結(jié)論。本文中雷鋒網(wǎng)將對(duì)這篇論文進(jìn)行詳細(xì)分析。

Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?

文本分類是自然語(yǔ)言處理中最普遍的一個(gè)應(yīng)用,例如文章自動(dòng)分類、郵件自動(dòng)分類、垃圾郵件識(shí)別、用戶情感分類等等,在生活中有很多例子。但是由于不同語(yǔ)言之間差別很大(例如像漢語(yǔ)、韓語(yǔ)、日語(yǔ)這樣的CJK語(yǔ)言與英語(yǔ)這樣的字母語(yǔ)言在處理上有很大不同)。例如最近有人使用字符級(jí)編碼的神經(jīng)網(wǎng)絡(luò)(ConvNets)來(lái)處理語(yǔ)言中的單詞分割問(wèn)題,但是很不幸的是,用字符來(lái)處理CJK語(yǔ)言并不很好,因?yàn)檫@時(shí)候字符的數(shù)量會(huì)變得非常巨大。所以能否找到一種在處理所有這些自然語(yǔ)言上都表現(xiàn)優(yōu)良的模型呢?作者的方法就是,列出一系列模型(473個(gè)), 然后比較它們的表現(xiàn)。

一、數(shù)據(jù)集(data sets)

這篇文章考慮了4種語(yǔ)言,分別為漢語(yǔ)、英語(yǔ)、日語(yǔ)和韓語(yǔ)。作者分別從大眾點(diǎn)評(píng)(漢語(yǔ),餐飲)、京東(漢語(yǔ),網(wǎng)店)、Rakuten(網(wǎng)店,日語(yǔ))、11st(網(wǎng)店,韓語(yǔ))、Amazon(英語(yǔ),網(wǎng)店)、鳳凰網(wǎng)(漢語(yǔ),新聞)、中國(guó)日?qǐng)?bào)(漢語(yǔ),新聞)、NYnews(英語(yǔ),新聞)等八個(gè)網(wǎng)站爬取了8個(gè)情感分類數(shù)據(jù)集。其中京東、Rakuten、11st和Amazon的數(shù)據(jù)集又分為全五星分類和雙分法類(1、2星為負(fù),3星舍棄,4、5星為正)。另外因?yàn)檫@四個(gè)網(wǎng)站都是網(wǎng)店類型,所以可以用它們來(lái)組合成兩個(gè)joint數(shù)據(jù)集(全五星和雙分法),這兩個(gè)數(shù)據(jù)集由于是混合了四種語(yǔ)言,所以可以用來(lái)檢測(cè)模型處理不同語(yǔ)言的能力。綜上共有14個(gè)情感分類的數(shù)據(jù)集。

二、編碼級(jí)別(encoding level)

所謂編碼級(jí)別,簡(jiǎn)單說(shuō)就是考慮文本分析時(shí)的最小單位。在文中提及的編碼級(jí)別包括:字符(characters)、UTF-8(byte)、羅馬化字符(romanized characters)、詞(words)、羅馬化詞(romanized words)等。

三、編碼機(jī)制(encoding Mechanism)

本文選擇的深度學(xué)習(xí)模型為卷積網(wǎng)絡(luò)模型(ConvNets),根據(jù)網(wǎng)絡(luò)層數(shù)分為large Net(12層)和small Net(8層)。在卷積網(wǎng)絡(luò)模型訓(xùn)練中,必須對(duì)文本進(jìn)行編碼機(jī)器才能識(shí)別。在這篇文章中包含三種編碼機(jī)制,分別為:字符字形編碼(Character Glyph)、獨(dú)熱編碼(One-hot Encoding)、嵌入編碼(Embedding)。

1、字符字形編碼(Character Glyph)

所謂字形就是在讀寫中可以識(shí)別的一個(gè)符號(hào),例如漢字中的筆畫“丿”或英語(yǔ)中的“a”,都是一個(gè)可識(shí)別的字形。在這篇文章中作者將每一個(gè)字形轉(zhuǎn)化成一個(gè)16*16的像素點(diǎn)陣。很明顯這種編碼機(jī)制對(duì)于CJK語(yǔ)言(字符較為豐富)非常合適。不過(guò)這種方式只能在字符級(jí)進(jìn)行,所以只能構(gòu)建出一種卷積網(wǎng)絡(luò)模型,稱之為GlyphNet。

2、獨(dú)熱編碼(One-hot Encoding)

獨(dú)熱碼, 直觀來(lái)說(shuō)就是有多少個(gè)狀態(tài)就有多少比特,而且只有一個(gè)比特為1,其他全為0的一種碼制。例如,有6個(gè)狀態(tài)的獨(dú)熱碼狀態(tài)編碼為:000001,000010,000100,001000,010000,100000。如果是英文字母的編碼,那么就需要狀態(tài)碼長(zhǎng)度為26了。獨(dú)熱碼編碼的最大優(yōu)勢(shì)在于狀態(tài)比較時(shí)僅僅需要比較一個(gè)位,從而一定程度上簡(jiǎn)化了譯碼邏輯。但是,很顯然,如果字符數(shù)量非常多(CJK語(yǔ)言)的情況下,獨(dú)熱碼的碼長(zhǎng)就會(huì)非常大。不過(guò)在這篇文章中,作者考慮了兩種方式來(lái)解決這個(gè)問(wèn)題:第一種是將所有的文本(UTF-8)看成是一個(gè)字節(jié)序列,在字節(jié)層次進(jìn)行編碼,構(gòu)建的卷積網(wǎng)絡(luò)模型稱之為byte-level OnehotNet;第二種是將文本羅馬化,也即用英語(yǔ)字母來(lái)編碼(值得注意的是,這種方式等價(jià)于用羅馬化文本在字節(jié)層次進(jìn)行編碼),構(gòu)建的卷積網(wǎng)絡(luò)模型稱之為Romanization OnehotNet。字節(jié)級(jí)處理的優(yōu)勢(shì)在于,它們可以應(yīng)用到任何一種語(yǔ)言當(dāng)中,無(wú)論這種語(yǔ)言在字符或者字體級(jí)別有多少實(shí)體,所以它們也可以很容易地應(yīng)用到CJK語(yǔ)言當(dāng)中。

3、嵌入編碼(Embedding)

所謂嵌入碼,即將每一個(gè)實(shí)體用一個(gè)固定長(zhǎng)度的向量來(lái)表示。比如,對(duì)于“A B A C B F G”這樣的一個(gè)序列,也許我們最后能得到:A對(duì)應(yīng)的向量為[0.1 0.6 -0.5],B對(duì)應(yīng)的向量為[-0.2 0.9 0.7]  (此處的數(shù)值只用于示意)。由于這種向量表示是隨機(jī)的初始化的,它不像獨(dú)熱碼那樣嚴(yán)格,所以相比獨(dú)熱碼它在內(nèi)存中會(huì)更小。另外一個(gè)優(yōu)點(diǎn)就是它可以應(yīng)用到任何編碼級(jí)別。所以在本文當(dāng)中,作者使用嵌入編碼從字節(jié)、字符、單詞、羅馬化字符、羅馬化單詞等不同的編碼級(jí)別來(lái)分別編碼比較,嵌入碼向量長(zhǎng)度都為256。

通過(guò)這種方式構(gòu)建的卷積網(wǎng)絡(luò)模型稱之為EmbedNet。這種模型編碼可以分別在characters、byte、romanized characters、words、romanized words五個(gè)級(jí)別進(jìn)行,所以共有五種模型。

綜上所述,共有(1+2+5)*2=16種卷積網(wǎng)絡(luò)模型。

三、線形模型和fastText模型

除了卷積網(wǎng)絡(luò)模型外,在這篇文章中作者還選取了線形模型(linear model)和fastText模型進(jìn)行對(duì)比。

1、線形模型(linear model)

傳統(tǒng)的文本分類方法的流程就是人工設(shè)計(jì)一些特征,從原始文檔中提取特征,然后指定分類器如LR、SVM,訓(xùn)練模型對(duì)文本進(jìn)行分類。比較經(jīng)典的特征提取方法如頻次法(文章中用plain表示)、TF-IDF等。所謂頻次法顧名思義就是記錄和統(tǒng)計(jì)每個(gè)文本中實(shí)體(例如character、word、romanized word)的次數(shù)分布,以此來(lái)分類。但是有些詞如“的”“了”等雖然出現(xiàn)的次數(shù)比較多,但實(shí)際并沒(méi)有意義。所以就提出了另一種線形模型TF-IDF。TF即term frequency,仍然表示項(xiàng)目在文本中出現(xiàn)的頻次,但加入了IDF(inverse document frequency)的權(quán)重,在全部文檔中出現(xiàn)頻次越大,該term在樣本中的IDF就越小。于是TF*IDF就可以作為一個(gè)項(xiàng)目的統(tǒng)計(jì)結(jié)果了,這要比簡(jiǎn)單的頻率統(tǒng)計(jì)更為準(zhǔn)確。

2、fastText模型

fastText模型是2016年Joulin等人提出的一個(gè)快速分類模型。該模型并入了分層softmax和特征散列等技巧,這種模型能夠以ConvNets模型幾個(gè)數(shù)量級(jí)的速度處理輸入文本。本質(zhì)上fastText模型就是一個(gè)沒(méi)有非線性的2層全連接神經(jīng)網(wǎng)絡(luò)。

在以上這兩個(gè)模型中,作者選擇了character、word、romanized word三種編碼級(jí)別,但是還有一個(gè)問(wèn)題沒(méi)有解決,即以多大的單位進(jìn)行統(tǒng)計(jì)/判斷?這就涉及到一個(gè)概念: n-gram。它的意思就是將給定文本轉(zhuǎn)化為長(zhǎng)度為n的項(xiàng)目(term)的序列。例如“你今天休假了嗎”,它的2-gram依次是:“你今,今天,天休,休假,假了,了嗎”。作者為線形模型選擇了1-gram和5-gram兩種,為fastText模型選擇了1-gram、2-gram和5-gram。

綜上所述,作者共構(gòu)建了3*2*2=12種線形模型和3*3=9種fastText模型。

四、結(jié)果

針對(duì)以上四種語(yǔ)言,漢語(yǔ)、日語(yǔ)、韓語(yǔ)以及joint共11個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集都有37個(gè)模型;英語(yǔ)的3個(gè)數(shù)據(jù)集,每個(gè)有22個(gè)模型??傆?jì)有473個(gè)模型參與到對(duì)比中。表格中的數(shù)據(jù)表示訓(xùn)練誤差的百分比。

Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?

Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?

Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?

Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?

另外每一種模型所花費(fèi)的時(shí)間也是不一樣,其量級(jí)差別非常大。作者通過(guò)對(duì)joint 二分?jǐn)?shù)據(jù)集的100萬(wàn)個(gè)樣本進(jìn)行訓(xùn)練得到下面這個(gè)對(duì)比數(shù)據(jù)。這個(gè)對(duì)比只是作為參考,具體情況會(huì)根據(jù)計(jì)算環(huán)境而變。

 Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?

五、結(jié)論

通過(guò)比較以上表格中的誤差率,作者得出以下結(jié)論:

1、fastText模型對(duì)中、日、韓文本(CJK語(yǔ)言文本)在character級(jí)編碼的處理結(jié)果更好;而對(duì)英語(yǔ)文本則在word級(jí)編碼的處理結(jié)果更好;

2、對(duì)于fastText和線性模型,CJK語(yǔ)言的word級(jí)編碼在沒(méi)有完美分割的情況下效果相當(dāng);

3、卷積網(wǎng)絡(luò)的最佳編碼機(jī)制是byte級(jí)獨(dú)熱編碼(byte-level one-hot encoding)。 這表明卷積網(wǎng)絡(luò)能夠從低級(jí)別的表示中理解文本,并提供了一致的和統(tǒng)一的方式來(lái)處理多種語(yǔ)言。

4、fastText相比于卷積網(wǎng)絡(luò)更傾向于過(guò)擬合,而相比于線形模型也并沒(méi)有表現(xiàn)出更多的表示能力(representation capacity)。

當(dāng)然,盡管作者在此列了473種模型進(jìn)行對(duì)比,但仍不是全部。例如深度學(xué)習(xí)模型本文只用了卷積網(wǎng)絡(luò)模型,但其實(shí)還有別的一些有意思的模型,例如周期性網(wǎng)絡(luò)(recurrent networks)等。作者似乎計(jì)劃在之后會(huì)對(duì)周期性網(wǎng)絡(luò)進(jìn)行研究,同時(shí)還會(huì)改進(jìn)卷積網(wǎng)絡(luò)模型,看會(huì)有什么樣的效果。

雷鋒網(wǎng)消息,據(jù)說(shuō)論文中用到的源代碼和數(shù)據(jù)集隨后將全部公布。

論文下載:https://arxiv.org/pdf/1708.02657.pdf

相關(guān)文章:

論文被拒千百遍,團(tuán)隊(duì)不受待見(jiàn),Yann LeCun為何仍待深度學(xué)習(xí)如初戀?

AI科技評(píng)論專訪Yann LeCun: 關(guān)于深度學(xué)習(xí)未來(lái)的14個(gè)問(wèn)題

Yoav Goldberg與Yann LeCun論戰(zhàn)背后:arXiv是個(gè)好平臺(tái),但和學(xué)術(shù)會(huì)議是兩碼事

Yann LeCun最新研究成果:可以幫助GAN使用離散數(shù)據(jù)的ARAE

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

Yann LeCun新作:473種模型大對(duì)比,中日韓文本分類到底要用哪種編碼?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)