1
本文作者: 叨叨 | 2017-04-02 19:33 | 專題:雷峰網(wǎng)公開(kāi)課 |
雷鋒網(wǎng)「新智造」按:幾年之間,蘋果、微軟、Google、百度、阿里等巨頭都推出了以聊天為形式的機(jī)器人,應(yīng)用在情感陪護(hù)、虛擬助理、客服、售后等場(chǎng)景中,同時(shí)也有諸多初創(chuàng)公司、投資機(jī)構(gòu)殺入這一行業(yè)。但在實(shí)際使用中,用戶經(jīng)常發(fā)現(xiàn),機(jī)器人并沒(méi)有想象中那么智能,它能識(shí)別文字和語(yǔ)音,但卻“不懂你”。這其中的關(guān)鍵便涉及到自然語(yǔ)言處理中的”深度語(yǔ)義技術(shù)“。
針對(duì)這個(gè)問(wèn)題,本期雷鋒網(wǎng)硬創(chuàng)公開(kāi)課邀請(qǐng)到小i機(jī)器人創(chuàng)新中心的研究院陳培華為大家具體講解,在客服機(jī)器人領(lǐng)域的深度語(yǔ)義技術(shù)和應(yīng)用探索。
陳培華,畢業(yè)于上海交通大學(xué),工學(xué)博士,目前主要負(fù)責(zé)基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)及其應(yīng)用,參與“小i中文語(yǔ)義開(kāi)放平臺(tái)”以及貴陽(yáng)人工智能大數(shù)據(jù)云服務(wù)平臺(tái)建設(shè),已申請(qǐng)相關(guān)發(fā)明專利2項(xiàng)。
以下內(nèi)容整理自陳培華在雷鋒網(wǎng)硬創(chuàng)公開(kāi)課的分享,文中略有刪減,完整內(nèi)容可觀看上方視頻。關(guān)注雷鋒網(wǎng)旗下公眾號(hào)「新智造」,回復(fù)「PPT」可獲取嘉賓完整PPT。
這個(gè)圖片展示的是一個(gè)典型的人工智能對(duì)話引擎,輸入的是用戶的問(wèn)題,引擎內(nèi)部通過(guò)長(zhǎng)期積累的知識(shí),首先經(jīng)過(guò)自然語(yǔ)言分析,在通過(guò)語(yǔ)義理解、上下文分析進(jìn)行知識(shí)推理,從而生成個(gè)性化的答案,輸出給用戶。
這里展示的就是對(duì)話引擎中的知識(shí)庫(kù)和語(yǔ)義庫(kù)。在客服機(jī)器人的知識(shí)庫(kù)中,分為專業(yè)知識(shí)庫(kù)和語(yǔ)言知識(shí)庫(kù),下面的部分是語(yǔ)義庫(kù)中的三個(gè)模塊,包括詞類識(shí)別、語(yǔ)義表達(dá)和語(yǔ)言模型。我們?cè)诎l(fā)展的過(guò)程中,積累了一個(gè)龐大的語(yǔ)言知識(shí)庫(kù),比如在“余額查詢”這個(gè)查詢中,就有250種表達(dá)方式。
此外,在上述基礎(chǔ)上,小i搭建了一些輔助系統(tǒng),比如上圖的人機(jī)協(xié)作學(xué)習(xí)體系。首先通過(guò)大數(shù)據(jù)平臺(tái),挖掘知識(shí)中的語(yǔ)義、實(shí)體、事實(shí)和場(chǎng)景信息;其次通過(guò)運(yùn)營(yíng)人員維護(hù)內(nèi)容、審核機(jī)器挖掘的結(jié)果;最后由特定領(lǐng)域?qū)<叶x知識(shí)結(jié)構(gòu)和運(yùn)營(yíng)規(guī)則。通過(guò)輔助系統(tǒng),就能讓對(duì)話引擎在服務(wù)中提升自身的能力。
上圖顯示的是小i中文語(yǔ)義開(kāi)放平臺(tái),分為三層:
基礎(chǔ)層:為系統(tǒng)提供分布式儲(chǔ)存和計(jì)算環(huán)境
功能層:提供核心的自然語(yǔ)言處理算法和模塊
接口層:提供外部調(diào)用接
下面主要介紹功能層所包含的模塊:
中文分詞與詞性標(biāo)注
中文分詞是中文自然語(yǔ)言處理的一個(gè)基礎(chǔ)環(huán)節(jié),分詞的結(jié)果可以被廣泛的應(yīng)用于文本處理、信息提取、搜索引擎、機(jī)器翻譯等方面。通過(guò)采用基于統(tǒng)計(jì)+規(guī)則的方法對(duì)標(biāo)注語(yǔ)料進(jìn)行訓(xùn)練學(xué)習(xí),將所得到的模型應(yīng)用于中文分詞和詞性標(biāo)注中,能夠支持歧義切分處理、中文詞性自動(dòng)標(biāo)注、未登錄詞識(shí)別、多編碼支持能力以及豐富的知識(shí)詞典。
命名實(shí)體的識(shí)別
命名實(shí)體識(shí)別指的是識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名等專有名詞。命名實(shí)體識(shí)別是信息抽取技術(shù)中的重要組成部分,可以應(yīng)用在自動(dòng)問(wèn)答、機(jī)器翻譯、信息檢索等自然語(yǔ)言處理領(lǐng)域,有助于提高相關(guān)的性能。
語(yǔ)義聯(lián)想
語(yǔ)義聯(lián)系用于對(duì)詞語(yǔ)進(jìn)行同義詞查詢檢索,通過(guò)全網(wǎng)數(shù)據(jù)挖掘出海量同義詞,并持續(xù)對(duì)數(shù)據(jù)、模型等進(jìn)行迭代更新,保證同義詞的效果始終與時(shí)俱進(jìn)。
詞語(yǔ)糾錯(cuò)
日常生活中,用戶在使用搜索引擎、智能問(wèn)答時(shí),可能會(huì)出現(xiàn)輸入錯(cuò)誤的情況,比如說(shuō)同音別字、近音別字、形近別字、拼音等,這樣搜索引擎和智能問(wèn)答可能就無(wú)法正確識(shí)別,導(dǎo)致用戶無(wú)法獲取需要的信息。
自動(dòng)摘要和關(guān)鍵詞提取
關(guān)鍵詞提取的主要功能是,從文本中提煉關(guān)鍵詞,形成主題分析,方便用戶快速了解文章主題。自動(dòng)文摘技術(shù)可以分為摘要、摘錄兩類,摘要是基于對(duì)文本的理解,使用簡(jiǎn)短的自然語(yǔ)言,對(duì)文中的主要內(nèi)容進(jìn)行描述;摘錄的方法則是,從原始文檔中抽取重要的句子,再連接到一起。
依存句法分析
該模塊主要分析句子的構(gòu)成方法,描述句子中的語(yǔ)法功能。
文本聚類
針對(duì)用戶出現(xiàn)的多文本、無(wú)需組織的情況,需要進(jìn)行聚類分析。聚類分析是按照一定的規(guī)律和要求對(duì)文本進(jìn)行簇劃分的過(guò)程,是一種無(wú)監(jiān)督分類,沒(méi)有預(yù)定義的先驗(yàn)知識(shí)。聚類的算法有很多種,應(yīng)用最多的是K-means算法。
文本分類
如有現(xiàn)有較多帶標(biāo)注的文本語(yǔ)料的話,就可以利用文本分類來(lái)訓(xùn)練分類模型,按照預(yù)先定義的主題類別進(jìn)行分類。
情感分析
文本情感分析又稱為意見(jiàn)挖掘,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。在本質(zhì)上,情感分析也是一種分類問(wèn)題,不過(guò)它針對(duì)的是短文本。情感分析的任務(wù)主要有:正負(fù)面評(píng)價(jià)、按分?jǐn)?shù)打分、分析目標(biāo)和來(lái)源的情感類型。主要應(yīng)用于影評(píng)、產(chǎn)品評(píng)價(jià)、用戶情感等方面。
此外還有詞云及基于多層RNN神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的機(jī)器閑聊等模塊。
以小i為例,基于深度語(yǔ)義技術(shù),能夠應(yīng)用在客服機(jī)器人、智能知識(shí)庫(kù)、智能IVR、實(shí)體機(jī)器人、企業(yè)內(nèi)部智能應(yīng)用等方面,同時(shí)可將客服機(jī)器人部署在Web、WeChat、SMS、QQ、App等平臺(tái)。
新智造:聊天機(jī)器人目前主要有哪幾類?各細(xì)分類別中,代表性的應(yīng)用都有哪些?
陳培華:從大的分類而言,主要有兩類,一類是面向垂直領(lǐng)域的客服機(jī)器人,另一類是通用類機(jī)器人,比如小冰、小娜、Siri等聊天機(jī)器人。
新智造:目前的客服機(jī)器人,主要是被動(dòng)的接受用戶需求,有沒(méi)有主動(dòng)去推薦的?
陳培華:準(zhǔn)確來(lái)說(shuō)目前客服機(jī)器人確實(shí)是被動(dòng)接受用戶需求,再做出回應(yīng)。分享中提到的意圖推薦模塊,就能夠根據(jù)用戶信息進(jìn)行推薦。這個(gè)問(wèn)題在業(yè)界也是眾說(shuō)紛紜,比如機(jī)器人什么時(shí)候推薦,推薦哪些信息,很難自動(dòng)去完成。
新智造:聊天機(jī)器人技術(shù)的關(guān)鍵困難在哪兒?
陳培華:在客服機(jī)器人方面,關(guān)鍵困難在于如何獲取知識(shí),以及理解用戶問(wèn)題,需要利用自然語(yǔ)言處理方法,來(lái)對(duì)用戶的問(wèn)題進(jìn)行理解,識(shí)別他的意圖。還有一個(gè)難點(diǎn)在于答案的生成,很多用戶的提問(wèn)中包含多個(gè)知識(shí)點(diǎn),如何就此回答比較困難。在通用聊天機(jī)器人方面,關(guān)鍵困難在于常識(shí)性的知識(shí),我們很難從網(wǎng)上的一些數(shù)據(jù)獲取到。
新智造:人工智能最容易落地的是不是語(yǔ)音類的應(yīng)用?
陳培華:就人機(jī)交互的發(fā)展歷程來(lái)看,目前確實(shí)是最容易落地的應(yīng)用。但是隨著技術(shù)的發(fā)展,后面可能會(huì)有更多復(fù)合的人機(jī)交互的應(yīng)用落地,比如語(yǔ)音、圖像處理相結(jié)合的技術(shù)。
新智造:距離一個(gè)真的懂得人類的聊天機(jī)器人還需要多久?
陳培華:我覺(jué)得它面臨很多問(wèn)題,它必須自主學(xué)習(xí)、自我進(jìn)化,現(xiàn)在學(xué)界和工業(yè)界都在往這個(gè)方向努力,比如提出了對(duì)抗網(wǎng)絡(luò)、遷移學(xué)習(xí)等。至于實(shí)現(xiàn)需要多久,我很難給出答案,拭目以待。
新智造:深度語(yǔ)義技術(shù)需要多長(zhǎng)的時(shí)間才能成熟?距離產(chǎn)業(yè)又有多遠(yuǎn)呢?
陳培華:我們不斷去研究深度語(yǔ)義技術(shù),將技術(shù)落地,進(jìn)行產(chǎn)業(yè)化應(yīng)用。深度語(yǔ)義技術(shù),可以從各個(gè)方面去研究,應(yīng)用下去。距離產(chǎn)業(yè)不算遠(yuǎn),而且它其中包含了很多技術(shù)模塊,我們的思路是各點(diǎn)擊破。
新智造:剛剛畢業(yè)想學(xué)人工智能,覺(jué)得語(yǔ)義理解這個(gè)很有前途,不知道有什么好的建議么?
陳培華:我覺(jué)得剛剛畢業(yè),最好不要做人云亦云的事情,要有自己的判斷。如果確實(shí)對(duì)語(yǔ)義理解感興趣,可以找一個(gè)相關(guān)行業(yè),沉下心去做研究和探索。當(dāng)然,我們的目標(biāo),還是通過(guò)研究和探索,并能夠應(yīng)用,來(lái)提升人類的生活水平。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。