丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給skura
發(fā)送

0

中科院宗成慶談文本數(shù)據(jù)挖掘

本文作者: skura 2019-07-16 17:59
導語:從長遠來看,社會最終認可的一定是扎實有用的技術

雷鋒網 AI 科技評論按,近年來,隨著移動通信和互聯(lián)網技術的快速發(fā)展與普及應用,數(shù)據(jù)挖掘技術得到了越來越多的關注。文本數(shù)據(jù)挖掘作為自然語言處理、機器學習和數(shù)據(jù)挖掘等多種技術的交叉研究領域,其研究熱度也逐年提升。在學術界,每年都有大量相關論文發(fā)表;在工業(yè)界,文本數(shù)據(jù)挖掘被廣泛地應用于醫(yī)療、金融風控、司法和情報分析等各個領域,極大地幫助了人們提高工作效率和分析挖掘相關信息。

如何更好地入門這項技術呢?相信相關專業(yè)的學生和該領域的初學者都非常關心這個問題。近日,由中國科學院自動化所研究員、博士生導師宗成慶、南京理工大學計算機學院教授、博士生導師夏睿和中科院自動化所副研究員張家俊三位老師歷時兩年多撰寫的《文本數(shù)據(jù)挖掘》問世,為這項技術的推廣和應用提供了一部優(yōu)秀的教學輔導書。該書全面梳理了文本數(shù)據(jù)挖掘技術各個方向的基本概念和經典方法,并給出了具體的應用案例,對于初學者來說這是一本不可多得的好書,對研究人員也不失一本值得參閱的手邊書。

對于宗成慶老師,相信國內任何一位學習和從事 NLP 技術研發(fā)的人應該都不會陌生,他撰寫的《統(tǒng)計自然語言處理》多年來都是國內 NLP 學習和研究必備的參考書。時隔數(shù)年,宗成慶老師再次發(fā)表新著,其初衷和意義為何?帶著這些問題,雷鋒網 AI 科技評論宗和成慶老師進行了深入交流。

中科院宗成慶談文本數(shù)據(jù)挖掘

文本數(shù)據(jù)挖掘研究

AI 科技評論:文本數(shù)據(jù)挖掘作為一個研究方向,它的意義何在?

答:文本數(shù)據(jù)挖掘具有極其廣闊的應用前景,包括金融、醫(yī)療、生物醫(yī)藥、司法和情報分析等各個領域。我們所說的自然語言處理技術,其應用目標除了機器翻譯和對話系統(tǒng)以外,主要任務就是利用這本書中所介紹的這些文本數(shù)據(jù)挖掘技術進行文本的分析和處理。

AI 科技評論:您能否簡單介紹下這個領域的發(fā)展歷史?

答:其實,某些技術最早可以追溯到上個世紀的 50 年代,例如,自動文摘。那時候人們就已經在關注如何為圖書文獻自動生成摘要。之后,應用需求范圍不斷擴大,尤其是隨著互聯(lián)網技術的快速發(fā)展和普及應用,相關技術需求逐漸被提出,如情感分析、主題發(fā)現(xiàn)和追蹤等。我個人認為,這并不是一個新的領域,而是以自然語言處理為主,結合機器學習、數(shù)據(jù)挖掘等多種技術的具體應用。

AI 科技評論:文本數(shù)據(jù)挖掘的主要難點在哪里?

答:不同的任務面臨的難點是不一樣的。但如果籠統(tǒng)一點來說的話,主要在于如何弄清楚文本作者的意圖和觀點,這是最根本的問題。不同于從數(shù)據(jù)庫中挖掘和發(fā)現(xiàn)知識,文本數(shù)據(jù)挖掘的處理的都是非結構化的文本數(shù)據(jù),因此自然語言處理中面臨的問題都是文本數(shù)據(jù)挖掘中的難點。

計算機和人不一樣,對于一段文字,人掃一眼就可以明白了。而計算機理解語言會涉及到太多東西,包括語言學的問題、人的背景知識和常識等。目前我們還無法清楚地知道人腦是如何理解語言的。所以從長遠的深層次研究角度,我們要和腦科學研究結合起來。目前我們正在與中科院上海神經所、心理所等從事腦科學和語言認知研究的專家進行合作。當然,這是一個遙遠的目標。從應用的角度,我們希望盡快利用機器學習等技術,結合語言學和具體應用需求,建立實用的文本挖掘方法。

AI 科技評論:目前這一研究進展如何?

答:對人腦從事語言認知機理的研究是一個長遠的目標,屬于基礎性的探索研究,很難指望在短時期內看到直接的應用效果。但是,相關研究會給我們很多啟發(fā),讓我們改進或者解釋現(xiàn)有的神經網絡模型,或者建立更加有效的新方法??偲饋碚f,這需要持續(xù)地研究,甚至需要幾代人一點一點地努力,去攻克這個堡壘。

《文本數(shù)據(jù)挖掘》

AI 科技評論:您寫作《文本數(shù)據(jù)挖掘》這本書的初衷是什么?

答:主要有幾方面考慮。一方面,我前一本書《統(tǒng)計自然語言處理》的主要內容是自然語言處理的基礎理論和關鍵技術,而《文本數(shù)據(jù)挖掘》介紹的目前自然語言處理應用領域中熱點的研究方向,如情感分析、主題發(fā)現(xiàn)和信息抽取等。另一方面,我在國科大為研究生開設的一門課程名稱就是「文本數(shù)據(jù)挖掘」,需要這樣一本教學輔導書。另外,近年來自然語言處理技術的應用需求很大,技術發(fā)展非常之快,很多新技術和新方法不斷推出,對于我個人而言,撰寫這本書的過程也是學習和熟悉最新技術和方法,梳理學科知識的過程。

AI 科技評論:既然《文本數(shù)據(jù)挖掘》梳理的是最新的技術方法,那么,您此前撰寫的《統(tǒng)計自然語言處理》,其內容需要更新嗎?

答:當然需要,因為現(xiàn)在的技術發(fā)展太快了,很多技術都已經更新。但是,我需要在清楚地掌握這些新技術以后,才能判斷哪些新方法需要寫進書中,很多技術都需要經過時間的驗證。其實,有些新技術已經被寫入《文本數(shù)據(jù)挖掘》這本書里了,如詞的分布式表示,深度神經網絡方法等。我認為文本數(shù)據(jù)挖掘實際上就是自然語言處理方向的一個延伸和擴展。

AI 科技評論:文本數(shù)據(jù)挖掘現(xiàn)在在企業(yè)里面有哪些具體的應用案例?

答:文本數(shù)據(jù)挖掘技術的應用非常廣泛。在醫(yī)學上,它可以用來幫助醫(yī)生進行診斷,或者為醫(yī)學研究者提供技術手段或知識支撐,也可以為患者提供幫助,如問診或查詢等;在金融領域,根據(jù)財務報告、大眾評價等一些公開的信息,可以幫助投資人分析某家公司的信譽如何;它還可以幫助法官根據(jù)以往的案例如何量刑和斷案等。

AI 科技評論:因為中國人主要使用中文,那么,漢語的文本挖掘和其他語言有區(qū)別嗎?

答:區(qū)別是存在的。首先,中文文本挖掘面臨著分詞的問題,這是一個基本問題。

雖然其他語言也存在這類問題,如韓國語和日語等,但是中文的分詞更麻煩,尤其對于非規(guī)范化的文本而言。其次,中文在表達方式上比較復雜,或者說比較靈活,語義表達更復雜,有時候不同的人對同一句話的理解可能也不一樣。例如,在中文文本中很多時候作者在表達觀點時都比較委婉,甚至在描述一件事情的時候喜歡繞圈子,而不會直接表達自己的意思,而在英文文本中較為直截了當。所以,在進行中文文本挖掘時需要考慮漢語篇章的特殊性。

AI 科技評論:文本數(shù)據(jù)挖掘這本書里面如何處理機器學習方法和傳統(tǒng)方法?

答:從性能和最終結果來看,對于很多任務來說,神經網絡或者深度學習方法的結果要優(yōu)于傳統(tǒng)方法,但是傳統(tǒng)方法也有它自己的優(yōu)點,如便于結合先驗知識、可解釋等。在方法改進和創(chuàng)新研究中,我們不應該完全拋棄原來的方法。如何把這些方法結合起來,讓它們在不同的方面發(fā)揮作用,最終取得更好的性能,這是我們的目標。創(chuàng)新就是這樣,始終在前人工作的基礎上一步一步地提升和前進。

在《文本數(shù)據(jù)挖掘》這本書里面,我們并沒有過多地強調深度學習方法,比較有代表性的方法都介紹了。我們希望讀者能夠完整地了解某個方向的發(fā)展歷程。在此基礎上,讀者自己會去進行判斷或者研究應該如何建立更加有效的新方法。

AI 科技評論:您剛才提到,傳統(tǒng)的方法也很重要。那么,如果您現(xiàn)在修訂《統(tǒng)計自然語言處理》,會如何進行內容取舍?

答:一方面,有些內容需要壓縮?!督y(tǒng)計自然語言處理》中的有些方法在性能表現(xiàn)上有點跟不上時代了。有些方法,如統(tǒng)計機器翻譯,只需要介紹起主要思想,而不過多地介紹模型細節(jié)。另一方面,需要增加一些深度學習的新方。

進一步學習

AI 科技評論:如果學完了這本書以后,還想要進一步學習,您覺得應該從哪一些方向入手?

答:《文本數(shù)據(jù)挖掘》這本書講的主要是一些比較基礎的方法,主要目的是帶領讀者進入這個領域。正如前面所說,這個方向發(fā)展得非???,需要不斷地跟進和更新。每年 ACL、COLING 和 EMNLP 等本領域的會議上都會不斷推出一些新的方法,需要不斷地跟蹤。讀者在了解和掌握本書的基本知識之后可以通過閱讀論文、聽學術報告或其他交流形式,跟蹤和關注這一領域的最新進展。

AI 科技評論:在國內,很多學生過度依賴開源工具,缺乏自己的思考,您怎么看待這一現(xiàn)象?應該如何改善這一狀況?您認為優(yōu)秀的學生一般應該具有哪些重要的品質?

答:及時學習、跟蹤和使用開源工具,了解國際最新的前沿技術,是對學生,包括對碩士研究生和博士研究生最基本的要求。對于初學者來說,使用開源工具是一條捷徑,已有的很多創(chuàng)新也都是從模仿開始的。但是,跟蹤到一定階段,學生必須學會獨立地思考,提出創(chuàng)新思路。

目前各種誘惑和不合理的評價體系,是導致學生過度依賴開源工具、急功近利的主要原因之一。大家都希望在短時間內盡快出論文、出系統(tǒng),而不愿靜下心來深入思考。

要改變這一狀況,每一位從事科研工作的人,尤其老師和學生都有責任和義務,從我做起,從現(xiàn)在做起,不受一時利益和榮譽的誘惑,靜下心來,打牢理論基礎,扎扎實實地開展工作,堅守「一輩子做好一件事情」的目標和理想,才是改變這一現(xiàn)象的根本出路。

我認為優(yōu)秀學生應該具備如下重要的品質:能夠坐得住,甘于寂寞,持之以恒地用心鉆研,不受前人思路的限制和制約,勇于創(chuàng)新和實踐。從長遠來看,社會最終認可的一定是扎扎實實的有用的技術,而不是故弄玄虛、華而不實的墻上畫餅。

雷鋒網雷鋒網

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

中科院宗成慶談文本數(shù)據(jù)挖掘

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說