年度盤點(diǎn)｜AI 科技評(píng)論做過的語(yǔ)義識(shí)別公開課

本文作者：老王

2017-01-29 09:49

導(dǎo)語(yǔ)：四篇公開課深度文帶你回顧 2016 年語(yǔ)義識(shí)別的那些事兒。

2016 年是雷鋒網(wǎng) AI 科技評(píng)論非常重要的一年，我們圍繞人工智能做了一系列的業(yè)界、學(xué)界、開發(fā)者報(bào)道，也請(qǐng)了一系列導(dǎo)師大牛過來給我們做技術(shù)解讀的公開課，在給這些導(dǎo)師大牛提供了一個(gè)絕佳展示舞臺(tái)的同時(shí)，也給讀者們帶來了最深度的公開課內(nèi)容，下面是雷鋒網(wǎng) AI 科技評(píng)論年度盤點(diǎn)之語(yǔ)義識(shí)別篇。

深入 NLP———看中文分詞如何影響你的生活點(diǎn)滴

嘉賓介紹：徐博士，約翰霍普金斯大學(xué)語(yǔ)言和語(yǔ)音實(shí)驗(yàn)室博士。2012年畢業(yè)后加入微軟總部，先后在Bing和微軟研究院從事自然語(yǔ)言處理和機(jī)器學(xué)習(xí)相關(guān)的研究和產(chǎn)品開發(fā)，是cortana語(yǔ)義理解和對(duì)話系統(tǒng)團(tuán)隊(duì)以及wordflow輸入法團(tuán)隊(duì)的主要成員。

中文分詞是中文自然語(yǔ)言處理的一個(gè)非常重要的組成部分，在學(xué)界和工業(yè)界都有比較長(zhǎng)時(shí)間的研究歷史，也有一些比較成熟的解決方案。今天我們邀請(qǐng)了出門問問的兩位重磅嘉賓徐博士和Jason，和大家一起來回顧一下中文分詞的發(fā)展，著重談一談現(xiàn)在比較流行的一些基于機(jī)器學(xué)習(xí)的分詞方法。內(nèi)容主要包含以下幾部分：

什么是分詞，為什么要做分詞；分詞有哪些常見的傳統(tǒng)方法；機(jī)器學(xué)習(xí)在分詞領(lǐng)域有哪些應(yīng)用；深度學(xué)習(xí)在分詞中的應(yīng)用；除了深度學(xué)習(xí)之外，分詞領(lǐng)域還有那些新的發(fā)展方向；中文分詞在語(yǔ)義分析中的應(yīng)用；在實(shí)際的應(yīng)用中遇的一些困難。

中文分詞是NLP難題中的一道必然工序，最近因?yàn)樯疃葘W(xué)習(xí)的到來，很多人開始希冀這個(gè)新的機(jī)器學(xué)習(xí)算法可以為它帶來一些全新的東西。本文出門問問的兩個(gè)資深研究人員從什么是中文分詞、中文分詞的傳統(tǒng)方法、中文分詞結(jié)合深度學(xué)習(xí)以及中文分詞在語(yǔ)義分析中的應(yīng)用，在他們產(chǎn)品實(shí)際應(yīng)用中遇到的問題，為我們由淺入深、從理論到應(yīng)用做了一堂生動(dòng)地科普，向我們展示了中文分詞和商業(yè)產(chǎn)品真正結(jié)合時(shí)的美妙碰撞。

Human-like learning在對(duì)話機(jī)器人中的魔性運(yùn)用

嘉賓介紹：戴帥湘，前百度主任架構(gòu)師，曾長(zhǎng)期擔(dān)任百度Query理解方向負(fù)責(zé)人，是自然語(yǔ)言理解方面的技術(shù)專家，曾榮獲第一個(gè)也是迄今為止唯一一個(gè)以NLP技術(shù)為核心的百度最高獎(jiǎng)。2010年提出“Query改寫模型”給百度搜索引擎技術(shù)帶來了跨時(shí)代的飛躍，使得搜索相關(guān)性和廣告收入均大幅提升。

對(duì)話機(jī)器人很多，像Siri，小冰，度秘，Allo都能在你有空的時(shí)候跟你貧貧嘴，不過隨著廠家和用戶意識(shí)到憑空做出一個(gè)高度通用的對(duì)話機(jī)器人是非常不現(xiàn)實(shí)的，對(duì)話機(jī)器人的姿態(tài)也發(fā)生細(xì)微的變化——廠家們?cè)噲D從某些垂直領(lǐng)域開始入手深根，并且從純聊天功能發(fā)展到這個(gè)對(duì)話機(jī)器人能為用戶完成什么指定的任務(wù)功能。一下子為“只說不做” 的對(duì)話機(jī)器人找到了一個(gè)新的場(chǎng)景。

不過，這個(gè)全新升級(jí)的對(duì)話機(jī)器人，重心移向代替人決策，并幫用戶完成任務(wù)。

它如何聽懂用戶想做什么事情？如何做到聊天過程中都不能達(dá)到的Human like leaering?

然后它如何知道第三方App能完成哪些任務(wù)，需要點(diǎn)擊哪里，然后才能與用戶想做的事情對(duì)接？

當(dāng)它的重心變成了為用戶完成任務(wù)時(shí)，它的核心技術(shù)要求是什么？

地圖中的語(yǔ)義理解

嘉賓介紹：王硯峰，搜狗公司桌面事業(yè)部高級(jí)總監(jiān)，桌面研究部和語(yǔ)音交互技術(shù)中心負(fù)責(zé)人。承擔(dān)輸入法、號(hào)碼通、個(gè)性化新聞等搜狗桌面產(chǎn)品在大數(shù)據(jù)和算法研究方面的工作，同時(shí)負(fù)責(zé)搜狗智能語(yǔ)音交互技術(shù)，帶領(lǐng)語(yǔ)音和語(yǔ)義技術(shù)團(tuán)隊(duì)實(shí)現(xiàn)了業(yè)內(nèi)頂尖的語(yǔ)音交互能力，并致力于智能語(yǔ)音技術(shù)的產(chǎn)品化創(chuàng)新。

在雷鋒網(wǎng)公開課中王硯峰指出：語(yǔ)義理解技術(shù)至少有兩個(gè)關(guān)鍵的因素：第一是自然語(yǔ)言處理技術(shù)，利用統(tǒng)計(jì)自然語(yǔ)言處理算法提取文本中的實(shí)體詞以及依存關(guān)系；第二是要有全面而豐富的知識(shí)庫(kù)，配合自然語(yǔ)言處理技術(shù)，才能得到用戶的準(zhǔn)確意圖。

本期公開課的要點(diǎn)如下：

“結(jié)合上下文的‘多對(duì)話解析’”是如何做到的？其中的難點(diǎn)是什么？
語(yǔ)義理解的準(zhǔn)確率，整個(gè)行業(yè)目前最高能達(dá)到多少？如何提高？
如何解決中英文混合語(yǔ)句的語(yǔ)義分析問題（比如，“幫我呼叫Stephen William Hawking”）？中英文區(qū)分的難點(diǎn)在哪？
在深度學(xué)習(xí)的狀態(tài)下，機(jī)器能夠?qū)τ脩舻恼Z(yǔ)言習(xí)慣適應(yīng)到什么程度？能理解用戶的一些情緒上的語(yǔ)言習(xí)慣嗎（如諷刺等話語(yǔ)）？
搜狗與科大訊飛、思必馳等同行技術(shù)的差異化（包括語(yǔ)音識(shí)別、語(yǔ)義/邏輯分析）？
有沒有機(jī)會(huì)實(shí)現(xiàn) Google Now 那樣的功能？比如語(yǔ)音調(diào)取應(yīng)用，檢索其它應(yīng)用內(nèi)的信息，自動(dòng)給出答案。

機(jī)器人聊天的秘密

嘉賓介紹：亓超，自然語(yǔ)言處理方向碩士，AI領(lǐng)域開放域聊天和chatbot頂尖專家，10年科研與工程經(jīng)驗(yàn)。曾在佳能、騰訊、阿里負(fù)責(zé)推薦算法和人機(jī)對(duì)話系統(tǒng)研發(fā)；2014年微軟小冰開放域聊天技術(shù)創(chuàng)始人；百度T8Lead；度秘聊天技術(shù)負(fù)責(zé)人；從零寫了微軟小冰和百度度秘唯一兩款目前有實(shí)際應(yīng)用的交互系統(tǒng)。

語(yǔ)義理解簡(jiǎn)單來說，就是讓計(jì)算機(jī)聽懂用戶說了什么，然后可以進(jìn)一步回答用戶的問題或與用戶對(duì)話。這類技術(shù)在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用有大家比較熟知的微軟小冰與百度度秘。錘子手機(jī)中 Bigbang 功能也是基于語(yǔ)義理解技術(shù)中的語(yǔ)義分析功能進(jìn)行的創(chuàng)新。本期公開課請(qǐng)到了開放域聊天和 chatbot 頂尖專家——三角獸科技的 CTO 亓超，為大家揭開機(jī)器人聊天的秘密。

本期公開課的主要內(nèi)容：

目前語(yǔ)義理解技術(shù)主要用在哪些場(chǎng)景和應(yīng)用里？
相比做語(yǔ)音識(shí)別的公司，提供語(yǔ)義理解的團(tuán)隊(duì)看似要少一些，其中的難點(diǎn)是什么？
理解中的語(yǔ)義理解公司往往需要大量標(biāo)記好的語(yǔ)料數(shù)據(jù)，這些數(shù)據(jù)如何形成？
一個(gè)完整的聊天機(jī)器人或者多輪對(duì)話系統(tǒng)，應(yīng)該包含哪些技術(shù)模塊？
詳細(xì)介紹下什么是開放域聊天技術(shù)嗎？開放域聊天技術(shù)與傳統(tǒng)用關(guān)鍵字、模板或者人工參與的聊天技術(shù)的不同之處是什么？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

老王

編輯

微信 wangyafeng123456

發(fā)私信

當(dāng)月熱門文章