0
本文作者: 楊曉凡 | 2017-09-20 18:46 |
雷鋒網(wǎng) AI 科技評(píng)論按:自然語(yǔ)言處理(NLP)一直是人工智能領(lǐng)域的重要話題,而人類語(yǔ)言的復(fù)雜性也給NLP布下了重重困難等待解決。隨著深度學(xué)習(xí)(Deep Learning)的熱潮來臨,有許多新方法來到了NLP領(lǐng)域,給相關(guān)任務(wù)帶來了更多優(yōu)秀成果,也給大家?guī)砹烁鄳?yīng)用和想象的空間。
近期,雷鋒網(wǎng) AI 研習(xí)社就邀請(qǐng)到了達(dá)觀數(shù)據(jù)的張健為大家分享了一些NLP方面的知識(shí)和案例。
分享主題:達(dá)觀數(shù)據(jù) NLP 技術(shù)的應(yīng)用實(shí)踐和案例分析
分享人:張健,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人,文本挖掘組總負(fù)責(zé)人,包括文本審核系統(tǒng)的架構(gòu)設(shè)計(jì)、開發(fā)和日常維護(hù)升級(jí),文本挖掘功能開發(fā)。復(fù)旦大學(xué)計(jì)算機(jī)軟件與理論碩士,曾在盛大創(chuàng)新院負(fù)責(zé)相關(guān)推薦模塊,在盛大文學(xué)數(shù)據(jù)中心負(fù)責(zé)任務(wù)調(diào)度平臺(tái)系統(tǒng)和集群維護(hù)管理,數(shù)據(jù)平臺(tái)維護(hù)管理和開發(fā)智能審核系統(tǒng)。對(duì)大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)算法有較深入的理解和實(shí)踐經(jīng)驗(yàn)。
此次分享中,張健按照NLP概述、文本分類的傳統(tǒng)方法、深度學(xué)習(xí)在文本分類中的應(yīng)用和案例介紹四個(gè)板塊,結(jié)合在達(dá)觀數(shù)據(jù)的系統(tǒng)設(shè)計(jì)和應(yīng)用經(jīng)驗(yàn),分享了他的見解。
達(dá)觀數(shù)據(jù)是一家專注于文本挖掘和搜索推薦技術(shù)服務(wù)的企業(yè),總部位于上海浦東軟件園。達(dá)觀的NLP挖掘系統(tǒng)的設(shè)計(jì)思路是,用戶直接接觸的到的最終功能,他們稱為是篇章級(jí)應(yīng)用,可以處理整段的文本,提供的功能包括文本自動(dòng)分類、情感分析、自動(dòng)文本標(biāo)簽、違禁詞匯和垃圾評(píng)論識(shí)別等。在下方支持編章級(jí)應(yīng)用的是短串級(jí)應(yīng)用,更底層一些,在詞組、短句的層面上提供結(jié)構(gòu)分析和變形、詞位置分析、近義詞替換等功能。最底層、最小粒度的是詞匯級(jí)應(yīng)用,比如中文分詞、詞粒度分析、調(diào)性標(biāo)柱等等。
文本挖掘的任務(wù)可以分成四類:
同步的序列到序列,特點(diǎn)是輸入文本的每一個(gè)位置都有對(duì)應(yīng)的輸出
異步序列到序列,輸入和輸出可以不完全對(duì)應(yīng)
序列到類別,給文本加上標(biāo)簽
類別到序列,根據(jù)給定的標(biāo)簽生成文本
然后張健依次介紹了序列到序列任務(wù)中幾種問題的常見解決方案。
在序列標(biāo)注/命名實(shí)體識(shí)別問題中,每個(gè)詞都會(huì)有各自的標(biāo)簽;選用的詞匯標(biāo)簽體系越復(fù)雜,標(biāo)注精度就越高,但同時(shí)訓(xùn)練也就越慢。所以需要根據(jù)人力、時(shí)間等成本選擇合適的標(biāo)簽體系。
英文不需要分詞,但是多了詞形還原和詞根提取的問題。在這里,張健推薦WordNet來幫助解決相關(guān)問題。
接下來進(jìn)入了今天講解的重點(diǎn),就是文本分類。
傳統(tǒng)機(jī)器學(xué)習(xí)方法做文本分類會(huì)需要文檔建模、文本語(yǔ)意、特征抽取、特征向量賦權(quán)等步驟。
具體到分類器的設(shè)計(jì),常用的四種思路為樸素貝葉斯分類器、支持向量機(jī)分類器、KNN方法和決策樹方法。
然后還可以聚合多個(gè)分類器來提高準(zhǔn)確率。最簡(jiǎn)單的想法是用多個(gè)模型分別預(yù)測(cè)然后投票,實(shí)際的聚合方法是另外訓(xùn)練一個(gè)分類器,模仿多個(gè)分類器組合后的結(jié)果。這里需要原來的幾個(gè)分類器效果不能太接近,而且不能有太差的。
在有了深度學(xué)習(xí)以后,文本分類又有了很多效果出色的新方法。
首先可以用CNN做文本分類,它不需要人工特征,而對(duì)詞序包含的信息提取能力更強(qiáng)。
在基礎(chǔ)的CNN之上,可以在其中不同的層使用不同的思路,衍生出來RNN+CNN、DCNN(動(dòng)態(tài)池化,更適合不同長(zhǎng)度的文本)、Very Deep Network等等。
常用的方法還有RNN和LSTM,適合變長(zhǎng)序列的建模。序列過長(zhǎng)的時(shí)候,一般的RNN因?yàn)槿萘康膯栴}會(huì)丟失信息、誤差增大,它的變種LSTM中通過三個(gè)門之間的信息保留和更新,更好地解決了長(zhǎng)距離依賴的問題。雙向LSTM同時(shí)有正向和反向的部分,可以同時(shí)捕獲上文和下文的信息,表現(xiàn)也比單向的更好。
然后就是近期風(fēng)靡的注意力模型,是編碼解碼器的升級(jí)版本。Encoder-Decoder模型的問題是,輸入中的每個(gè)詞都對(duì)輸出有同樣程度的影響。但實(shí)際語(yǔ)言中往往不是這樣的,注意力模型就可以對(duì)輸入中的不同詞賦予不同的權(quán)重,讓對(duì)語(yǔ)意影響程度更高的詞語(yǔ)對(duì)輸出有更高的影響力,從而在輸出中更好地體現(xiàn)了輸入的關(guān)鍵信息。
張健最后結(jié)合達(dá)觀數(shù)據(jù)的業(yè)務(wù)介紹了一些NLP的應(yīng)用案例。
比如結(jié)合定制行業(yè)專業(yè)語(yǔ)料、垂直語(yǔ)意模型、離線統(tǒng)計(jì)、語(yǔ)意拓展等等方法進(jìn)行新聞分類,結(jié)合無監(jiān)督預(yù)訓(xùn)練+持續(xù)Fune Tuning的訓(xùn)練方法,不僅可以分為新聞、財(cái)經(jīng)、科技、體育、娛樂、汽車等大類,財(cái)經(jīng)中股票、基金、外匯,體育中NBA、英超、中超等細(xì)分類別也可以分得出來。
第二個(gè)案例是垃圾信息識(shí)別。現(xiàn)在許多廣告信息都會(huì)用特殊字符(火星文)嘗試騙過識(shí)別系統(tǒng),就需要對(duì)變形詞做識(shí)別還原,方法包括去除特殊符號(hào)、同音和繁簡(jiǎn)變換、偏旁拆分等。還可以先用語(yǔ)言模型識(shí)別文字,發(fā)現(xiàn)語(yǔ)意不通順、胡言亂語(yǔ)的,就很有可能是故意規(guī)避關(guān)鍵字檢查的垃圾信息。
第三個(gè)案例是情感分析。簡(jiǎn)單的方法可以根據(jù)直接表達(dá)感情的關(guān)鍵詞做判斷,還可以做特征工程然后用機(jī)器學(xué)習(xí)的方法識(shí)別語(yǔ)句模式,以及用深度學(xué)習(xí)的方法得到更好的信息提取效果。
最后張健還分享了一個(gè)他們的文本挖掘系統(tǒng)的使用鏈接,感興趣的讀者可以嘗試一下他們系統(tǒng)不同層次的豐富功能。
本次分享的視頻錄像可以點(diǎn)此觀看
更多精彩分享請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng)!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。