丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
特寫 正文
發(fā)私信給張馳
發(fā)送

0

這家公司要用NLP技術提供企業(yè)情報服務

本文作者: 張馳 2016-06-28 10:03
導語:玻森數(shù)據(jù)主要開發(fā)有自然語言處理引擎,能實現(xiàn)文本的信息分類、情感分析、實體識別、文本聚類和關鍵詞提取等功能。

這家公司要用NLP技術提供企業(yè)情報服務

今年8月,雷鋒網(wǎng)將在深圳舉辦一場盛況空前,且有全球影響力的人工智能與機器人峰會。屆時雷鋒網(wǎng)將發(fā)布“人工智能&機器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在拜訪人工智能、機器人領域的相關公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請聯(lián)系:2020@leiphone.com。

要讓機器理解人類的話語,自然語言處理(NLP)是其中的關鍵技術。微軟將這一技術用在了小冰、Cortana這樣的虛擬助手,以及Skype的實時翻譯上;Facebook智能助手M的核心技術之一也是NLP。但稍微調(diào)戲一下就會發(fā)現(xiàn),這些通用的虛擬助手往往會答非所問,而M的背后更是有人類訓練師的支撐。但這并不妨礙NLP技術在特定領域解放人力。

玻森數(shù)據(jù)通過中文語義分析開放平臺為開發(fā)者提供NLP API服務,目前有15個處理引擎,其中3個供內(nèi)部使用,能實現(xiàn)文本的信息分類、情感分析、實體識別、文本聚類和關鍵詞提取等功能,主要服務對象是咨詢公司、金融及媒體機構。比如,商家可以用相關引擎分析用戶對產(chǎn)品的評價。

玻森聯(lián)合創(chuàng)始人李臻介紹,一些實驗室也有做NLP引擎,但一般會針對具體的問題,而商業(yè)化語義引擎則要能快速進入某個領域,提供快速、標準的服務。目前有約6000開發(fā)者在使用玻森數(shù)據(jù)引擎。

這家公司要用NLP技術提供企業(yè)情報服務

玻森引擎對本文的摘要分析

2015年初,出于政府信息公開力度加大的原因,玻森開始開發(fā)企業(yè)情報服務系統(tǒng)“風報”。它以玻森的NLP引擎為基礎,根據(jù)政府文書、新聞報道、公司內(nèi)部文件、財務數(shù)據(jù)和行業(yè)指數(shù)等(非)結構數(shù)據(jù),分析公司的經(jīng)營信息,用于風險控制和情報分析。以往了解一家公司可能需要自行查詢政府數(shù)據(jù)庫,并搜索相關媒體報道才能形成初步判斷,但李臻表示,他們可以按時間、性質(zhì)和事件形成公司的完整報告。這顯然能節(jié)省不少時間。

提供企業(yè)信息服務的公司不少,有天眼查、企查查、啟信寶等。李臻告訴雷鋒網(wǎng),風報的核心是分析能力。企業(yè)信息涉及很多裁判文書,提煉關鍵信息要進行去重、實體抽取、分詞、清洗及分析等,這這些不是信息匯總就能完成的。

之所以選擇企業(yè)情報服務是因為有一定的行業(yè)基礎。玻森聯(lián)合創(chuàng)始人之一的紀敏曾負責數(shù)十個企業(yè)上市及并購項目,具有豐富的投融資經(jīng)驗。

這家公司要用NLP技術提供企業(yè)情報服務

風報中的關系挖掘展示

李臻表示,玻森的主要優(yōu)勢在于NLP及語料庫兩方面。

玻森引擎自2006年開始,到2013年正式進行項目研發(fā),有較長時間的技術積累,NLP引擎能進行半監(jiān)督半自動化的學習。它已經(jīng)在汽車、新聞和體育等行業(yè)有所應用。以汽車為例,可以為汽車之家這樣的網(wǎng)站提供汽車咨詢,客戶訪談方面的分析,這需要對文本信息進行分詞、抽取等,結合行業(yè)用戶的知識體系再做引擎開發(fā)。李臻表示,目前少有其它公司用NLP做企業(yè)情報分析,因為NLP技術有比較高的進入門檻,一方面需要大量語料庫的積累,另一方面需要對應用場景有深入理解的行業(yè)專家。

另外,目前主流的NLP技術以統(tǒng)計機器學習為基礎,這就需要大規(guī)模的語料庫,沒辦法做通用處理,需要根據(jù)行業(yè)進行定制。機器學習近二十年的進展很迅速,“更多的數(shù)據(jù)勝過更好的算法”成了業(yè)內(nèi)許多人的共識。在良好算法的基礎上,語料對NLP模型的準確性和通用性非常重要。而玻森目前在中文分詞、實體識別、關系抽取、情感分析上積累了上百萬條標注語料。

未來,玻森還會開發(fā)機器人客服系統(tǒng),這也是NLP應用較廣泛的領域,比較知名的公司有智齒客服。甚至,它還有圖像處理產(chǎn)品研發(fā)的打算,按李臻的說法,圖像識別所用算法與NLP相近。聯(lián)想到國外知名創(chuàng)業(yè)公司MetaMind在2015年從NLP領域轉(zhuǎn)型到圖像分析,這并不是令人意外的產(chǎn)品路線。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關文章

專業(yè)寫瞎

不受意識控制地報道那些讓人感動的產(chǎn)品技術和事件......zhchsimons@gmail.com ;微信:nksimons;《腦洞》公眾號:hackmind
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說