3
雷鋒網(wǎng) AI 科技評論按:在文本編碼中,能否找到一種能夠適用于所有語言,并在機(jī)器學(xué)習(xí)的模型中有優(yōu)良表現(xiàn)的編碼級別和編碼方式呢?針對此問題,Yann LeCun和他的學(xué)生張翔在不久前發(fā)表了一篇研究工作《Which Encoding is the Best for Text Classification in Chinese, English, Japanese and Korean?》。
在這篇論文中,他們通過473種模型的對比,最終得出了一系列極有價(jià)值的結(jié)論。雷鋒網(wǎng) AI 科技評論對這篇論文也有較為深度的解讀。 詳情可閱讀:Yann LeCun新作:473種模型大對比,中日韓文本分類到底要用哪種編碼?
隨后雷鋒網(wǎng)AI科技評論聯(lián)系到了論文第一作者,紐約大學(xué)博士生張翔,并就此項(xiàng)工作對他進(jìn)行了采訪。據(jù)了解,目前張翔的主要研究方向是基于卷積網(wǎng)絡(luò)的文本表征學(xué)習(xí),包括文本的表達(dá)和生成。
當(dāng)機(jī)器學(xué)習(xí)對自然語言進(jìn)行學(xué)習(xí)和訓(xùn)練時(shí),如何表示文本(文本編碼)將是首先遇到的最基本的問題。
這需要考慮兩點(diǎn),首先從哪個(gè)級別進(jìn)行編碼,是byte級別,還是character級別,或者word級別等,不同的級別編碼對模型的依賴是不一樣的;其次是采用哪種機(jī)制進(jìn)行編碼,是通過字符的字形進(jìn)行編碼,還是采用獨(dú)熱編碼,或者嵌入編碼,編碼機(jī)制也將影響深度學(xué)習(xí)模型的效果。
更關(guān)鍵的是,CJK語言(漢語、韓語、日語等語言)與英語這樣的字母語言有很大的不同。對英語進(jìn)行字符級編碼可能比較有效,但將這種編碼方式用到CJK語言中可能會導(dǎo)致模型的體量很大。Yann LeCun和張翔的研究工作正是基于這種考慮進(jìn)行的。
張翔告訴雷鋒網(wǎng)AI科技評論,這項(xiàng)工作大約開始于一年半以前。當(dāng)時(shí),張翔向他的導(dǎo)師Yann LeCun教授提出希望做這樣的一個(gè)課題,即通過抓取數(shù)據(jù),對不同的文本表示方式進(jìn)行一個(gè)相對公平的評測,評測方式為自然語言處理任務(wù)中較為簡單、有明確輸出評測的文本分類。
剛開始,LeCun教授并不十分看好這項(xiàng)研究,因?yàn)檫@似乎是一個(gè)工程多于學(xué)術(shù)思維的課題。張翔向雷鋒網(wǎng)AI科技評論回憶道,“但當(dāng)我跟導(dǎo)師說到中日韓語言和西方語言的不同特點(diǎn),以及當(dāng)前自然語言處理的模型并不能夠以一種統(tǒng)一的方式來處理所有不同的語言時(shí),我們意識到,其實(shí)真正有意思的是,不同語言的文本是否能夠用一種統(tǒng)一的方式輸入到神經(jīng)網(wǎng)絡(luò)里面,使得像分詞這樣的自然語言處理的預(yù)先處理最小化?!?/strong>
在這篇論文里,這些不同的文本輸入方式被稱作不同的編碼方式(Encoding Mechanism)。之前學(xué)界對于到底哪種編碼方式更好并沒有一個(gè)統(tǒng)一的意見,也缺乏較為全面的橫向比較,不同的學(xué)者只選擇其中一種或多種方式來驗(yàn)證自己的模型。于是,鑒于統(tǒng)一多語言模型并非一個(gè)顯而易見的事情,張翔與LeCun開始了這項(xiàng)研究。
在課題的意義明確之后,接下來的工作就是寫代碼來進(jìn)行數(shù)據(jù)抓取和模型訓(xùn)練了。據(jù)雷鋒網(wǎng)AI科技評論了解,最初這個(gè)項(xiàng)目大概花了4個(gè)月的時(shí)間進(jìn)行數(shù)據(jù)抓取,共獲得橫跨4種語言(英、漢、日、韓語)和8個(gè)網(wǎng)站(大眾點(diǎn)評、京東、Rakuten、11st、Amazon、鳳凰網(wǎng)、中國日報(bào)、NYnews)的數(shù)億條的文本數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過一定的去重和長度控制之后,構(gòu)成了這篇論文中提到的大規(guī)模文本分類數(shù)據(jù)集(共14個(gè),具體可參考解讀文章)。這些數(shù)據(jù)源每個(gè)都要比最終數(shù)據(jù)集大幾個(gè)數(shù)量級。這種對于數(shù)據(jù)大規(guī)模的抓取和處理其實(shí)是非常鍛煉一個(gè)人的工程能力的。
張翔向雷鋒網(wǎng)AI科技評論表示:“在這個(gè)課題的整個(gè)研究過程中,LeCun教授一直定期與我進(jìn)行交流和指導(dǎo),還特別介紹了fastText發(fā)明人Joulin一起探討不同模型所具有的優(yōu)勢和劣勢。我認(rèn)為,每一次這樣的交流都能夠?qū)W到很多有用的知識。”
在大約一年多的時(shí)間里面,張翔和Yann LeCun大概使用了幾十塊GPU對不同的模型進(jìn)行訓(xùn)練,最終得到了473個(gè)模型的結(jié)果。通過對比發(fā)現(xiàn),字節(jié)級獨(dú)熱編碼(byte-level one-hot encoding)是卷積網(wǎng)絡(luò)最好的編碼方式。這樣的結(jié)果離不開字節(jié)獨(dú)熱(one-hot)編碼的易用性,從而使得卷積網(wǎng)絡(luò)能夠在性能和計(jì)算量之間取得較好的平衡。同時(shí),基于字節(jié)的輸入方式徹底不再需要對文本進(jìn)行預(yù)處理,能夠很方便地應(yīng)用到不同的語言中去。
目前這篇文章的工作已經(jīng)結(jié)束,但由于數(shù)據(jù)和代碼體量較大,張翔目前還在對數(shù)據(jù)進(jìn)行進(jìn)一步的整理,隨后會連同大部分?jǐn)?shù)據(jù)集一起發(fā)布。為了保證實(shí)驗(yàn)的可重復(fù)性,他們還將對于論文中出現(xiàn)的每一個(gè)數(shù)據(jù)點(diǎn)提供能夠重復(fù)其結(jié)果的命令行腳本。
不過張翔對雷鋒網(wǎng)AI科技評論表示,這項(xiàng)工作雖然實(shí)驗(yàn)量大,但遠(yuǎn)遠(yuǎn)沒有覆蓋到所有可能的模型和編碼方式。在未來,對于循環(huán)(Recurrent)神經(jīng)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)不同設(shè)計(jì)方法的探索,也都是可能的研究方向。
“現(xiàn)在的科研新想法層出不窮,但到頭來還是需要公平的比較和清晰的結(jié)果才能說明問題?!边@是張翔在論文發(fā)表在arXiv后,在朋友圈中所說的一段話,也許從某種層面上正表達(dá)了他的治學(xué)想法。
據(jù)對張翔博士的采訪,我們了解到張翔曾在2007-2011年就讀于天津大學(xué),師從劉世光教授。本科畢業(yè)后,他到紐約大學(xué)就讀碩士研究生,起初他并沒有讀博的打算?!昂髞恚以诘谝粋€(gè)學(xué)期選了LeCun教授的機(jī)器學(xué)習(xí)和Rob Fergus教授的計(jì)算攝影學(xué)(Computational Photography)課程,覺得深度學(xué)習(xí)是非常有意思的課題(當(dāng)時(shí)深度學(xué)習(xí)還不是機(jī)器學(xué)習(xí)的主流)?!?/p>
張翔告訴AI科技評論,紐約大學(xué)CILVR實(shí)驗(yàn)室研究課題領(lǐng)域非常廣泛,包括生成模型、計(jì)算機(jī)視覺、自然語言理解和推理、自動駕駛、表征學(xué)習(xí)理論、優(yōu)化等。張翔說:“可以說在CILVR實(shí)驗(yàn)室,任何深度學(xué)習(xí)方向都可以找到專家來進(jìn)行探討。”
由于他在這兩門課取得了非常優(yōu)異的成績,兩位教授都主動發(fā)郵件詢問他讀博的意向。甚至,LeCun教授還特地為他寫了一封推薦信,讓他參加UCLA應(yīng)用數(shù)學(xué)研究院于2012年舉辦的深度學(xué)習(xí)和表征學(xué)習(xí)夏令營。兩位大牛如此主動“示好”,張翔最終成功申請到紐約大學(xué)的博士學(xué)位,成為Yann LeCun的弟子。不過對此,他謙虛地將這一切歸因于運(yùn)氣,“我可能運(yùn)氣較好,碰巧趕上了好的機(jī)遇和環(huán)境。”
當(dāng)問到他以后的打算時(shí),張翔表示:“我大概離畢業(yè)還有一年左右的時(shí)間。目前的想法是尋找一個(gè)工業(yè)實(shí)驗(yàn)室或者學(xué)術(shù)界的博士后職位,進(jìn)一步推進(jìn)目前的研究課題。在繼續(xù)科研數(shù)年之后,我希望能夠有機(jī)會將所學(xué)到的人工智能和深度學(xué)習(xí)的技術(shù)應(yīng)用到制造、能源和醫(yī)療等領(lǐng)域。”
張翔個(gè)人主頁:http://xzh.me
更多精彩資訊敬請關(guān)注雷鋒網(wǎng)AI科技評論。
相關(guān)文章:
Yann LeCun新作:473種模型大對比,中日韓文本分類到底要用哪種編碼?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。