0
本文作者: no name | 2016-08-26 00:17 |
導(dǎo)讀:文本分類是文本信息處理的基礎(chǔ)性工作,因此受到很多關(guān)注。但文本的特征表示嚴(yán)重地限制了文本分類性能的提升。而隨著社會(huì)網(wǎng)絡(luò)化的發(fā)展,大規(guī)模的甚至海量的文本信息急劇增加,導(dǎo)致文本分類問(wèn)題面臨著巨大挑戰(zhàn)。本文是PRICAI 2016大會(huì)收錄的論文,介紹了一種解決該問(wèn)題的快速訓(xùn)練方法。
標(biāo)題:大規(guī)模文本分類之圖表增強(qiáng)型快速訓(xùn)練
摘要:
本文提出了一種基于增強(qiáng)型算法的圖表分類快速訓(xùn)練方法,通過(guò)圖表輸入文本,應(yīng)用到情緒分析中。圖表的形式非常適合表示用自然語(yǔ)言處理技術(shù)處理過(guò)的文本結(jié)構(gòu),比如語(yǔ)法分析,命名實(shí)例識(shí)別和語(yǔ)義解析。目前,大量把文本表示為圖表的分類方法已經(jīng)被提出。然而,它們很多都因?yàn)樘卣骺臻g大而提前限制候選特性。我們提出的方法,無(wú)需限制搜索空間,提出了兩種近似方法來(lái)增強(qiáng)基于圖表規(guī)則的學(xué)習(xí)。在情緒分析數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法有助于提高訓(xùn)練速度。此外,基于圖表表示的分類方法利用了豐富的文本結(jié)構(gòu)信息,這在使用其他更簡(jiǎn)單的輸入格式時(shí)無(wú)法被檢測(cè)到,最終表現(xiàn)出更高的準(zhǔn)確率。
關(guān)鍵詞:文本分類;特征工程;圖表增強(qiáng)
第一作者:
Hiyori Yoshikawa
富士通實(shí)驗(yàn)室研究員,富士通是日本排名第一的IT廠商,全球第四大IT服務(wù)公司,全球前五大服務(wù)器和PC機(jī)生產(chǎn)商。
via PRICAI 2016
雷鋒網(wǎng)按: 本文由雷鋒網(wǎng)獨(dú)家編譯,未經(jīng)許可禁止轉(zhuǎn)載!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。