丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

<sup id="qweaw"></sup>

<abbr id="qweaw"></abbr>

<abbr id="qweaw"></abbr>

<table id="qweaw"></table>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預(yù)覽，將在時失效

人工智能正文

發(fā)私信給楊曉凡

發(fā)送

0

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

本文作者：楊曉凡

2017-09-20 18:46

導(dǎo)語：文本分類有哪些主要方法，應(yīng)用中有哪些思路？

雷鋒網(wǎng) AI 科技評論按：自然語言處理（NLP）一直是人工智能領(lǐng)域的重要話題，而人類語言的復(fù)雜性也給NLP布下了重重困難等待解決。隨著深度學(xué)習(xí)（Deep Learning）的熱潮來臨，有許多新方法來到了NLP領(lǐng)域，給相關(guān)任務(wù)帶來了更多優(yōu)秀成果，也給大家?guī)砹烁鄳?yīng)用和想象的空間。

近期，雷鋒網(wǎng) AI 研習(xí)社就邀請到了達觀數(shù)據(jù)的張健為大家分享了一些NLP方面的知識和案例。

分享主題：達觀數(shù)據(jù) NLP 技術(shù)的應(yīng)用實踐和案例分析

分享人：張健，達觀數(shù)據(jù)聯(lián)合創(chuàng)始人，文本挖掘組總負責(zé)人，包括文本審核系統(tǒng)的架構(gòu)設(shè)計、開發(fā)和日常維護升級，文本挖掘功能開發(fā)。復(fù)旦大學(xué)計算機軟件與理論碩士，曾在盛大創(chuàng)新院負責(zé)相關(guān)推薦模塊，在盛大文學(xué)數(shù)據(jù)中心負責(zé)任務(wù)調(diào)度平臺系統(tǒng)和集群維護管理，數(shù)據(jù)平臺維護管理和開發(fā)智能審核系統(tǒng)。對大數(shù)據(jù)技術(shù)、機器學(xué)習(xí)算法有較深入的理解和實踐經(jīng)驗。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

此次分享中，張健按照NLP概述、文本分類的傳統(tǒng)方法、深度學(xué)習(xí)在文本分類中的應(yīng)用和案例介紹四個板塊，結(jié)合在達觀數(shù)據(jù)的系統(tǒng)設(shè)計和應(yīng)用經(jīng)驗，分享了他的見解。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

達觀數(shù)據(jù)是一家專注于文本挖掘和搜索推薦技術(shù)服務(wù)的企業(yè)，總部位于上海浦東軟件園。達觀的NLP挖掘系統(tǒng)的設(shè)計思路是，用戶直接接觸的到的最終功能，他們稱為是篇章級應(yīng)用，可以處理整段的文本，提供的功能包括文本自動分類、情感分析、自動文本標(biāo)簽、違禁詞匯和垃圾評論識別等。在下方支持編章級應(yīng)用的是短串級應(yīng)用，更底層一些，在詞組、短句的層面上提供結(jié)構(gòu)分析和變形、詞位置分析、近義詞替換等功能。最底層、最小粒度的是詞匯級應(yīng)用，比如中文分詞、詞粒度分析、調(diào)性標(biāo)柱等等。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

文本挖掘的任務(wù)可以分成四類：

同步的序列到序列，特點是輸入文本的每一個位置都有對應(yīng)的輸出
異步序列到序列，輸入和輸出可以不完全對應(yīng)
序列到類別，給文本加上標(biāo)簽
類別到序列，根據(jù)給定的標(biāo)簽生成文本

然后張健依次介紹了序列到序列任務(wù)中幾種問題的常見解決方案。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

在序列標(biāo)注／命名實體識別問題中，每個詞都會有各自的標(biāo)簽；選用的詞匯標(biāo)簽體系越復(fù)雜，標(biāo)注精度就越高，但同時訓(xùn)練也就越慢。所以需要根據(jù)人力、時間等成本選擇合適的標(biāo)簽體系。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

英文不需要分詞，但是多了詞形還原和詞根提取的問題。在這里，張健推薦WordNet來幫助解決相關(guān)問題。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

接下來進入了今天講解的重點，就是文本分類。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

傳統(tǒng)機器學(xué)習(xí)方法做文本分類會需要文檔建模、文本語意、特征抽取、特征向量賦權(quán)等步驟。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

具體到分類器的設(shè)計，常用的四種思路為樸素貝葉斯分類器、支持向量機分類器、KNN方法和決策樹方法。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

然后還可以聚合多個分類器來提高準確率。最簡單的想法是用多個模型分別預(yù)測然后投票，實際的聚合方法是另外訓(xùn)練一個分類器，模仿多個分類器組合后的結(jié)果。這里需要原來的幾個分類器效果不能太接近，而且不能有太差的。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

在有了深度學(xué)習(xí)以后，文本分類又有了很多效果出色的新方法。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

首先可以用CNN做文本分類，它不需要人工特征，而對詞序包含的信息提取能力更強。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

在基礎(chǔ)的CNN之上，可以在其中不同的層使用不同的思路，衍生出來RNN+CNN、DCNN（動態(tài)池化，更適合不同長度的文本）、Very Deep Network等等。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

常用的方法還有RNN和LSTM，適合變長序列的建模。序列過長的時候，一般的RNN因為容量的問題會丟失信息、誤差增大，它的變種LSTM中通過三個門之間的信息保留和更新，更好地解決了長距離依賴的問題。雙向LSTM同時有正向和反向的部分，可以同時捕獲上文和下文的信息，表現(xiàn)也比單向的更好。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

然后就是近期風(fēng)靡的注意力模型，是編碼解碼器的升級版本。Encoder-Decoder模型的問題是，輸入中的每個詞都對輸出有同樣程度的影響。但實際語言中往往不是這樣的，注意力模型就可以對輸入中的不同詞賦予不同的權(quán)重，讓對語意影響程度更高的詞語對輸出有更高的影響力，從而在輸出中更好地體現(xiàn)了輸入的關(guān)鍵信息。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

張健最后結(jié)合達觀數(shù)據(jù)的業(yè)務(wù)介紹了一些NLP的應(yīng)用案例。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

比如結(jié)合定制行業(yè)專業(yè)語料、垂直語意模型、離線統(tǒng)計、語意拓展等等方法進行新聞分類，結(jié)合無監(jiān)督預(yù)訓(xùn)練+持續(xù)Fune Tuning的訓(xùn)練方法，不僅可以分為新聞、財經(jīng)、科技、體育、娛樂、汽車等大類，財經(jīng)中股票、基金、外匯，體育中NBA、英超、中超等細分類別也可以分得出來。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

第二個案例是垃圾信息識別?，F(xiàn)在許多廣告信息都會用特殊字符（火星文）嘗試騙過識別系統(tǒng)，就需要對變形詞做識別還原，方法包括去除特殊符號、同音和繁簡變換、偏旁拆分等。還可以先用語言模型識別文字，發(fā)現(xiàn)語意不通順、胡言亂語的，就很有可能是故意規(guī)避關(guān)鍵字檢查的垃圾信息。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

第三個案例是情感分析。簡單的方法可以根據(jù)直接表達感情的關(guān)鍵詞做判斷，還可以做特征工程然后用機器學(xué)習(xí)的方法識別語句模式，以及用深度學(xué)習(xí)的方法得到更好的信息提取效果。

學(xué)術(shù)青年分享會：達觀數(shù)據(jù)張健分享文本分類方法和應(yīng)用案例 | 分享總結(jié)

最后張健還分享了一個他們的文本挖掘系統(tǒng)的使用鏈接，感興趣的讀者可以嘗試一下他們系統(tǒng)不同層次的豐富功能。

本次分享的視頻錄像可以點此觀看

更多精彩分享請繼續(xù)關(guān)注雷鋒網(wǎng)！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

分享：

相關(guān)文章

楊曉凡

讀論文為生

日常笑點滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

摩托羅拉富士康雅虎數(shù)據(jù) 移動互聯(lián)網(wǎng)新聞 Android Wear Pinterest 搜索數(shù)據(jù)庫 AI教育 api

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說

<option id="aicus"></option>