丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
AI+ 正文
發(fā)私信給張利
發(fā)送

1

專訪玻森數(shù)據(jù):這款基于NLP技術(shù)的企業(yè)情報系統(tǒng),商業(yè)化現(xiàn)狀是這樣的

本文作者: 張利 2017-05-04 10:39
導(dǎo)語:玻森數(shù)據(jù),NLP領(lǐng)域的一家靠技術(shù)起家的創(chuàng)業(yè)公司,是如何一步步找到NLP技術(shù)商業(yè)化應(yīng)用場景,獲得一個“比較健康的現(xiàn)金流”的呢?

專訪玻森數(shù)據(jù):這款基于NLP技術(shù)的企業(yè)情報系統(tǒng),商業(yè)化現(xiàn)狀是這樣的

雷鋒網(wǎng)按:深度學(xué)習(xí)的出現(xiàn),使得NLP技術(shù)有著巨大的突破,但總體來說,NLP對于淺層次的特征提取、分類等問題已比較成熟,而深層次的語義理解是當(dāng)下的研究熱點。目前,NLP技術(shù)在文本處理方面的主要應(yīng)用有智能搜索引擎、機器翻譯、文獻摘要自動生成、文本分類等;在語音方面主要有智能客服、多媒體信息提取與文本轉(zhuǎn)化等。

同時,國內(nèi)NLP領(lǐng)域的創(chuàng)業(yè)公司不斷進行其商業(yè)化探索。2012年成立的NLP技術(shù)供應(yīng)商玻森數(shù)據(jù)便是這樣一家。到如今,公司已經(jīng)找到了聚焦產(chǎn)品:風(fēng)報,而據(jù)公司CTO趙迎賓介紹,公司現(xiàn)在也有了一個比較健康的現(xiàn)金流。

據(jù)趙迎賓介紹,風(fēng)報是一款基于NLP技術(shù)的企業(yè)情報系統(tǒng),通過在全網(wǎng)采集包括工商、涉訴、稅務(wù)、行政處罰等海量政府公開信息以及媒體信息,用NLP技術(shù)從不同角度挖掘?qū)嶓w之間關(guān)聯(lián),為企業(yè)提供風(fēng)險控制及情報分析?!帮L(fēng)報相當(dāng)于企業(yè)情報行業(yè)的“百度”,是一種搜集信息的渠道。”趙迎賓對雷鋒網(wǎng)介紹道,通過NLP技術(shù),風(fēng)報可以幫助企業(yè)和個人在海量信息中挖掘有效信息,節(jié)省大量人工查詢時間及第三方調(diào)查成本投入。

NLP技術(shù)與風(fēng)控

2016年,玻森數(shù)據(jù)便與鋼鐵行業(yè)B2B電商“獨角獸”找鋼網(wǎng)牽手,將風(fēng)報用于其供應(yīng)鏈金融業(yè)務(wù)中。找鋼網(wǎng)成立于2012年,到2015年時,已經(jīng)一躍而成為行業(yè)內(nèi)的獨角獸,同時,以撮合買賣雙方起家的找鋼網(wǎng)也開始布局供應(yīng)鏈金融,那么,風(fēng)控自然不可缺少。

供應(yīng)鏈金融在貿(mào)易領(lǐng)域早已是再常見不過的融資模式之一,但隨著人工智能的發(fā)展,這一領(lǐng)域正在延伸出新的枝干。不同于消費者金融風(fēng)控,供應(yīng)鏈金融最大的風(fēng)險在于企業(yè)經(jīng)營風(fēng)險,大宗商品價格波動相對來說比較平穩(wěn),即使存在“產(chǎn)能過剩”,依托大型的B2B平臺,根據(jù)歷史的交易數(shù)據(jù),也可以進行相應(yīng)的風(fēng)險控制。大數(shù)據(jù)風(fēng)控有效的前提是掌握盡可能多的數(shù)據(jù),一般而言,數(shù)據(jù)來源包括自有平臺數(shù)據(jù)、外部抓取數(shù)據(jù)和與合作機構(gòu)交換數(shù)據(jù),取得這些數(shù)據(jù)后再進行去噪清洗建立風(fēng)控模型。

而通過NLP技術(shù),將網(wǎng)絡(luò)上非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)化,接入金融領(lǐng)域的風(fēng)控模型后,能大大節(jié)省了數(shù)據(jù)整理的時間。

據(jù)玻森數(shù)據(jù)CEO李臻此前介紹,對于金融領(lǐng)域的大數(shù)據(jù)風(fēng)控模式,風(fēng)報能做的有兩點:一是企業(yè)信息過窄的問題,通過風(fēng)報系統(tǒng)的裁判文書結(jié)構(gòu)化分析和信息公告關(guān)聯(lián)挖掘,擴大數(shù)據(jù)來源;二是快速獲取信息的問題,通過風(fēng)報系統(tǒng)核心的NLP技術(shù)及開庭公告、事件信息等功能能夠幫助企業(yè)從海量的信息中實時獲取所需信息,同時實現(xiàn)對交易對手的動態(tài)監(jiān)控。

找鋼網(wǎng)金融事業(yè)部副總經(jīng)理卞崢對雷鋒網(wǎng)介紹說,找鋼網(wǎng)平臺內(nèi)有大量的企業(yè)交易數(shù)據(jù),同時在網(wǎng)絡(luò)上抓取大量數(shù)據(jù),“對于我們來說,有效的數(shù)據(jù)樣本自然是多多益善,風(fēng)報的接入擴大了數(shù)據(jù)來源?!薄巴獠孔ト〉臄?shù)據(jù)比較散,而通過NLP技術(shù),把這些比較散的數(shù)據(jù)源結(jié)構(gòu)化,進行二次處理會方便得多?!?/p>

對于產(chǎn)品體驗效果,卞崢講道,總體上是不錯的,“但希望數(shù)據(jù)源頭越多越好,并且數(shù)據(jù)源能更加結(jié)構(gòu)化。”

風(fēng)報背后的NLP技術(shù)

據(jù)了解,從信息獲取到企業(yè)情報,風(fēng)報的背后有四個步驟:

  • 獲取數(shù)據(jù)

  • 形成信息(用NLP技術(shù),在非結(jié)構(gòu)化文本中抽取核心語義)

  • 產(chǎn)生情報(對新聞拆解分析,通過數(shù)據(jù)挖掘?qū)κ录M行分類、以時間軸呈現(xiàn)企業(yè)情報信息)

  • 得到認(rèn)知(可視化呈現(xiàn)企業(yè)和個人關(guān)聯(lián))。

在形成信息的過程中,涉及如何對句子進行正確拆分;如何進行實體識別,識別出相關(guān)人員和群體;以及通過機器學(xué)習(xí)的方法,對每項內(nèi)容進行標(biāo)簽化處理。為了向雷鋒網(wǎng)解釋NLP技術(shù)在此的應(yīng)用,趙迎賓舉了這樣一個例子:

A跟B正在進行一場離婚訴訟,在其證據(jù)中提到B在中國農(nóng)業(yè)銀行的一個賬戶,這與中國農(nóng)業(yè)銀行其實并沒有關(guān)系,需要用到語義分析技術(shù),來判斷到底誰是案件中的當(dāng)事人。

雷鋒網(wǎng)根據(jù)公開資料了解到,目前中國與“企業(yè)信息服務(wù)”相關(guān)的公司有2000多家,風(fēng)報、啟信寶、企查查等均屬這一類。

在數(shù)據(jù)來源上,知名度較高的企信寶是通過征信中心與連接相關(guān)征信網(wǎng)站數(shù)據(jù)接口的獲取,風(fēng)報則是聚焦在散落在全網(wǎng)中的企業(yè)外部文本數(shù)據(jù),從海量的企業(yè)事件角度切入。玻森數(shù)據(jù)公司CEO李臻認(rèn)為,有 80% 的商業(yè)情報都以非結(jié)構(gòu)化的自然語言文本形式存在于網(wǎng)絡(luò)的各個角落,但沒人處理這些信息。雷鋒網(wǎng)對公司CEO李臻的采訪中也提到,“相比其他產(chǎn)品,風(fēng)報的核心是分析能力。企業(yè)信息涉及很多裁判文書等非結(jié)構(gòu)化文本,提煉關(guān)鍵信息要進行去重、實體抽取、分詞、清洗及分析等,這些不是信息匯總就能完成的?!?/p>

玻森數(shù)據(jù)的商業(yè)化

事實上,企業(yè)信息服務(wù)行業(yè)并不是玻森數(shù)據(jù)一開始就扎根的領(lǐng)域。

據(jù)趙迎賓介紹,2012~2014年的這段時間,玻森數(shù)據(jù)尋求的是與咨詢機構(gòu)的合作,咨詢公司進行行業(yè)調(diào)研時會用到大量數(shù)據(jù),玻森數(shù)據(jù)的NLP技術(shù)則可對其進行分析和結(jié)構(gòu)化,節(jié)省查閱資料的時間。“希望通過十幾個案例積累,找到一種互聯(lián)網(wǎng)數(shù)據(jù)分析的通用化方式,但發(fā)現(xiàn)這種嘗試行不通。”“咨詢行業(yè)是一個創(chuàng)意驅(qū)動的行業(yè),不同報告分析角度不一樣?!?/p>

而2015年后,隨著大量政府信息公開,玻森數(shù)據(jù)開始做企業(yè)信息服務(wù),并于同年九月發(fā)布了風(fēng)報這款產(chǎn)品,2016年,開始對外銷售。到目前為止有一年多的時間,公司已經(jīng)積累了120家客戶。

風(fēng)報主要采用合同銷售的形式,按照使用量收費,公司的客戶群體可大致分為3類:

第一類是泛金融,包含保險、融資租賃等。

第二類是政府,政府會對所在區(qū)內(nèi)的企業(yè)進行風(fēng)險調(diào)查。風(fēng)報是其一種搜集信息的渠道。

第三類客戶,介于B端與C端之前,是投資人、媒體等,這些人需要了解很多的公司背景信息。

“在風(fēng)報開始銷售之后,公司就有一個比較健康的現(xiàn)金流?!壁w迎賓對雷鋒網(wǎng)講道,據(jù)了解,波森數(shù)據(jù)已經(jīng)有過三輪融資,最近在做B輪。

趙迎賓介紹說,風(fēng)報每周都會有新版本發(fā)布,主要集中在幾個方面:第一方是在系統(tǒng)中集成新的數(shù)據(jù)來源,對企業(yè)相關(guān)的公開未挖掘數(shù)據(jù)進行結(jié)構(gòu)化以及數(shù)據(jù)分析;第二,希望對互聯(lián)網(wǎng)上56000多家政府網(wǎng)站全覆蓋,做一個相當(dāng)于政府網(wǎng)站方面的百度,并且需要比百度做得更深。

那么,玻森數(shù)據(jù)的未來向哪里走呢?趙迎賓用玻森的定位告訴雷鋒網(wǎng)答案。

玻森數(shù)據(jù)以NLP技術(shù)為核心,在該平臺上搭建各種商業(yè)化應(yīng)用,專注于SAAS領(lǐng)域,聚焦在風(fēng)報這個產(chǎn)品上。

有價值的數(shù)據(jù)、有競爭力的算法、有商業(yè)場景和圍繞著這個商業(yè)場景的產(chǎn)品化能力,這三者是保證公司競爭力的法寶,他補充道。


AI慕課學(xué)院近期推出了《NLP工程師入門實踐班:基于深度學(xué)習(xí)的自然語言處理》課程!

三大模塊,五大應(yīng)用,海外博士講師手把手教你入門NLP,更有豐富項目經(jīng)驗相授;算法+實踐,搭配典型行業(yè)應(yīng)用;隨到隨學(xué),專業(yè)社群,講師在線答疑!

課程地址:http://www.mooc.ai/course/427

加入AI慕課學(xué)院人工智能學(xué)習(xí)交流QQ群:624413030,與AI同行一起交流成長


相關(guān)文章:

深入NLP———看中文分詞如何影響你的生活點滴 | 雷鋒網(wǎng)公開課

CNCC 人物 | 出門問問創(chuàng)始人李志飛的 NLP 商業(yè)化之路

NLP工程師技術(shù)解讀:智能語音助理類產(chǎn)品的未來在哪里?

深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?

清華大學(xué)朱小燕教授做客雷鋒網(wǎng)沙龍,分享 NLP 和人工智能的那些事兒| AAAI 2017

NLP 從入門到實戰(zhàn),阿里 iDST 9 大名師即將開講

百度王海峰Quora精華整理:未來5-10年,NLP領(lǐng)域?qū)惺裁催M展?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

我是雷鋒網(wǎng)醫(yī)療科技編輯,歡迎與我交流:zhangli@leiphone.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說