0
2016 年是雷鋒網(wǎng) AI 科技評論非常重要的一年,我們圍繞人工智能做了一系列的業(yè)界、學(xué)界、開發(fā)者報道,也請了一系列導(dǎo)師大牛過來給我們做技術(shù)解讀的公開課,在給這些導(dǎo)師大牛提供了一個絕佳展示舞臺的同時,也給讀者們帶來了最深度的公開課內(nèi)容,下面是雷鋒網(wǎng) AI 科技評論年度盤點之語義識別篇。
嘉賓介紹:徐博士,約翰霍普金斯大學(xué)語言和語音實驗室博士。2012年畢業(yè)后加入微軟總部,先后在Bing和微軟研究院從事自然語言處理和機器學(xué)習(xí)相關(guān)的研究和產(chǎn)品開發(fā),是cortana語義理解和對話系統(tǒng)團隊以及wordflow輸入法團隊的主要成員。
中文分詞是中文自然語言處理的一個非常重要的組成部分,在學(xué)界和工業(yè)界都有比較長時間的研究歷史,也有一些比較成熟的解決方案。今天我們邀請了出門問問的兩位重磅嘉賓徐博士和Jason,和大家一起來回顧一下中文分詞的發(fā)展,著重談一談現(xiàn)在比較流行的一些基于機器學(xué)習(xí)的分詞方法。內(nèi)容主要包含以下幾部分:
什么是分詞,為什么要做分詞;分詞有哪些常見的傳統(tǒng)方法;機器學(xué)習(xí)在分詞領(lǐng)域有哪些應(yīng)用;深度學(xué)習(xí)在分詞中的應(yīng)用;除了深度學(xué)習(xí)之外,分詞領(lǐng)域還有那些新的發(fā)展方向;中文分詞在語義分析中的應(yīng)用;在實際的應(yīng)用中遇的一些困難。
中文分詞是NLP難題中的一道必然工序,最近因為深度學(xué)習(xí)的到來,很多人開始希冀這個新的機器學(xué)習(xí)算法可以為它帶來一些全新的東西。本文出門問問的兩個資深研究人員從什么是中文分詞、中文分詞的傳統(tǒng)方法、中文分詞結(jié)合深度學(xué)習(xí)以及中文分詞在語義分析中的應(yīng)用,在他們產(chǎn)品實際應(yīng)用中遇到的問題,為我們由淺入深、從理論到應(yīng)用做了一堂生動地科普,向我們展示了中文分詞和商業(yè)產(chǎn)品真正結(jié)合時的美妙碰撞。
Human-like learning在對話機器人中的魔性運用
嘉賓介紹:戴帥湘,前百度主任架構(gòu)師,曾長期擔(dān)任百度Query理解方向負責(zé)人,是自然語言理解方面的技術(shù)專家,曾榮獲第一個也是迄今為止唯一一個以NLP技術(shù)為核心的百度最高獎。2010年提出“Query改寫模型”給百度搜索引擎技術(shù)帶來了跨時代的飛躍,使得搜索相關(guān)性和廣告收入均大幅提升。
對話機器人很多,像Siri,小冰,度秘,Allo都能在你有空的時候跟你貧貧嘴,不過隨著廠家和用戶意識到憑空做出一個高度通用的對話機器人是非常不現(xiàn)實的,對話機器人的姿態(tài)也發(fā)生細微的變化——廠家們試圖從某些垂直領(lǐng)域開始入手深根,并且從純聊天功能發(fā)展到這個對話機器人能為用戶完成什么指定的任務(wù)功能。一下子為“只說不做” 的對話機器人找到了一個新的場景。
不過,這個全新升級的對話機器人,重心移向代替人決策,并幫用戶完成任務(wù)。
它如何聽懂用戶想做什么事情?如何做到聊天過程中都不能達到的Human like leaering?
然后它如何知道第三方App能完成哪些任務(wù),需要點擊哪里,然后才能與用戶想做的事情對接?
當(dāng)它的重心變成了為用戶完成任務(wù)時,它的核心技術(shù)要求是什么?
嘉賓介紹:王硯峰,搜狗公司桌面事業(yè)部高級總監(jiān),桌面研究部和語音交互技術(shù)中心負責(zé)人。承擔(dān)輸入法、號碼通、個性化新聞等搜狗桌面產(chǎn)品在大數(shù)據(jù)和算法研究方面的工作,同時負責(zé)搜狗智能語音交互技術(shù),帶領(lǐng)語音和語義技術(shù)團隊實現(xiàn)了業(yè)內(nèi)頂尖的語音交互能力,并致力于智能語音技術(shù)的產(chǎn)品化創(chuàng)新。
在雷鋒網(wǎng)公開課中王硯峰指出:語義理解技術(shù)至少有兩個關(guān)鍵的因素:第一是自然語言處理技術(shù),利用統(tǒng)計自然語言處理算法提取文本中的實體詞以及依存關(guān)系;第二是要有全面而豐富的知識庫,配合自然語言處理技術(shù),才能得到用戶的準(zhǔn)確意圖。
本期公開課的要點如下:
“結(jié)合上下文的‘多對話解析’”是如何做到的?其中的難點是什么?
語義理解的準(zhǔn)確率,整個行業(yè)目前最高能達到多少?如何提高?
如何解決中英文混合語句的語義分析問題(比如,“幫我呼叫Stephen William Hawking”)?中英文區(qū)分的難點在哪?
在深度學(xué)習(xí)的狀態(tài)下,機器能夠?qū)τ脩舻恼Z言習(xí)慣適應(yīng)到什么程度?能理解用戶的一些情緒上的語言習(xí)慣嗎(如諷刺等話語)?
搜狗與科大訊飛、思必馳等同行技術(shù)的差異化(包括語音識別、語義/邏輯分析)?
有沒有機會實現(xiàn) Google Now 那樣的功能?比如語音調(diào)取應(yīng)用,檢索其它應(yīng)用內(nèi)的信息,自動給出答案。
嘉賓介紹:亓超,自然語言處理方向碩士,AI領(lǐng)域開放域聊天和chatbot頂尖專家,10年科研與工程經(jīng)驗。曾在佳能、騰訊、阿里負責(zé)推薦算法和人機對話系統(tǒng)研發(fā);2014年微軟小冰開放域聊天技術(shù)創(chuàng)始人;百度T8Lead;度秘聊天技術(shù)負責(zé)人;從零寫了微軟小冰和百度度秘唯一兩款目前有實際應(yīng)用的交互系統(tǒng)。
語義理解簡單來說,就是讓計算機聽懂用戶說了什么,然后可以進一步回答用戶的問題或與用戶對話。這類技術(shù)在現(xiàn)實場景中的應(yīng)用有大家比較熟知的微軟小冰與百度度秘。錘子手機中 Bigbang 功能也是基于語義理解技術(shù)中的語義分析功能進行的創(chuàng)新。本期公開課請到了開放域聊天和 chatbot 頂尖專家——三角獸科技的 CTO 亓超,為大家揭開機器人聊天的秘密。
本期公開課的主要內(nèi)容:
目前語義理解技術(shù)主要用在哪些場景和應(yīng)用里?
相比做語音識別的公司,提供語義理解的團隊看似要少一些,其中的難點是什么?
理解中的語義理解公司往往需要大量標(biāo)記好的語料數(shù)據(jù),這些數(shù)據(jù)如何形成?
一個完整的聊天機器人或者多輪對話系統(tǒng),應(yīng)該包含哪些技術(shù)模塊?
詳細介紹下什么是開放域聊天技術(shù)嗎?開放域聊天技術(shù)與傳統(tǒng)用關(guān)鍵字、模板或者人工參與的聊天技術(shù)的不同之處是什么?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。